Artykuły w serwisie - Data Science robię

Wykorzystanie danych do podejmowania istotnych decyzji biznesowych poprawia wydajność przedsiębiorstwa. Dodatkowo, zwiększa sprzedaż, a także ułatwia wprowadzanie usprawnień w dziedzinie doświadczeń klienta. Dobrze wdrożony model podnosi też zaufanie do biznesowych decyzji.

Podejmowanie decyzji na podstawie danych (ang. data-driven decision-making, DDDM) zwykle odnosi się do rozstrzygania kwestii istotnych dla organizacji w oparciu o fakty, mierniki i zgromadzone informacje. Przeciwieństwem takiego podejścia jest bazowanie na hipotezach, domysłach, obserwacjach czy intuicji. Jednak samo gromadzenie danych nie wystarczy. Poprawność całego procesu zależy przede wszystkim od jakości danych, którymi dysponujemy, a także —metody analizy lub sposobu interpretacji uzyskanych wyników.

Od czego zacząć?

Podejmowanie decyzji na podstawie danych warto rozpocząć od określenia celów biznesowych. Drugim krokiem powinno być wskazanie źródeł informacji — np. danych z wewnętrznych i zewnętrznych systemów, istniejących baz, z maszyn, urządzeń, produktów, ale również z sieci czy mediów społecznościowych. Kolejny etap to przygotowanie danych do analiz i budowa modelu analitycznego, który będzie wykorzystany do ich analizy. Uzyskane wyniki można zwizualizować i wykorzystać do tworzenia różnych scenariuszy i symulacji potencjalnych rozwiązań.

Następne działania wiążą się z wykorzystaniem informacji „w produkcji” do podejmowania konkretnych decyzji. Dobrze jest zacząć od słabszych, a nawet mniej istotnych obszarów działalności, by powoli budować zaufanie pozostałych członków zespołu, innych działów, jak również zarządów do rozstrzygnięć wynikających z przeprowadzonej analizy. Oswajanie współpracowników z taką formą prowadzenia działalności operacyjnej, służy budowaniu kultury organizacji opartej na danych, niezbędnej do długofalowego powodzenia w tym zakresie. Konieczne jest również analizowanie konsekwencji podejmowanych decyzji i dostosowywanie działań do nowych sytuacji.

Na wszystkich etapach podejmujący decyzje powinni mieć wsparcie ze strony specjalistów data science. To oni poświęcają znaczną część czasu na przygotowanie i wyczyszczenie danych, dzięki czemu eliminuje się ryzyko błędnych decyzji, powstałych w oparciu o niekompletne informacje czy zbiory zawierające zbyt wiele obserwacji “odstających”, a więc podatnych na błędy poznawcze. Poza tym kooperacja z ekspertami pomaga m.in. ocenić przydatność danych pod kątem konkretnych celów.

Analiza danych w decyzjach biznesowych — co zmienia?

Analizowanie danych jest pomocne w precyzyjnym wykrywaniu problemów, może np. określić, który etap zakupów w sklepie internetowym powoduje najwięcej porzuconych koszyków. Z taką diagnozą dużo łatwiej zaproponować i wprowadzić optymalne rozwiązania. Regularne zbieranie i badanie opinii klientów, dostrzeganie trendów w ich zachowaniach czy rozpoznawanie źródeł niezadowolenia ze współpracy upraszcza podejmowanie decyzji obejmujących doświadczenia klienta (ang. Customer Experience, CX). Za tym idzie wzrost przychodów — według Gartnera 42 proc. menadżerów sprzedaży uważa, że zwrot z inwestycji w analitykę przewyższył ich oczekiwania.

Korzystanie z DDDM służy także optymalizowaniu procesów. Mając pełną informację o pracy zespołów i wydajności poszczególnych stanowisk, linii technologicznych czy działów, łatwiej określić, co warto poprawić, żeby podnieść poziom efektywności bez dodatkowych nakładów. Zgodnie z raportem firmy Deloitte, 58 proc. menadżerów korzystających z danych przy podejmowaniu decyzji jest zdania, że identyfikowanie procesów, które wymagają udoskonalenia, to najważniejszy obszar zastosowania analityki w firmie. Bazowanie na danych przy podejmowaniu decyzji eliminuje niepewność menadżera czy innej osoby, do której należą konkretne rozstrzygnięcia. Redukuje również wątpliwości przełożonych i współpracowników, szczególnie gdy dany kierunek wydaje się ryzykowny lub wymaga znaczących inwestycji.

Decyzje w czasie rzeczywistym

Kolejną zaletą zaawansowanej analityki jest możliwość prognozowania. Umiejętność określenia trendów i wzorców na podstawie zebranych informacji daje menadżerom szansę wczesnej reakcji na nieprzewidziane sytuacje. Pomaga również zmienić postawę przedsiębiorstwa z organizacji, która reaguje na zdarzenia przeszłe, w podejmującą działania z wyprzedzeniem. Tym samym przedsiębiorstwo zyskuje przewagi nad konkurencją.

Data-driven decision making pozwala łatwiej zidentyfikować pojawiające się na rynku okazje, choćby odnośnie zagospodarowania nowych nisz, wprowadzenia nowych produktów czy dostosowania procesów i usług do oczekiwań klientów. Szczególnie istotnego znaczenia nabiera podejmowanie decyzji w czasie rzeczywistym. Jeśli warunki prowadzenia działalności zmieniają się, warto mieć oparcie w narzędziach wspierających możliwie najkrótszy proces decyzyjny, przy wykorzystaniu najlepszego, a zatem kompleksowego, wiarygodnego i aktualnego zestawu danych.

Gotowe narzędzia wspierające proces DDDM

Podejmowanie decyzji na podstawie danych można przyśpieszyć z pomocą dostępnych narzędzi technologicznych. Jednym z nich jest SAS Viya — umożliwia łatwe znajdowanie zależności, wizualizowanie wyników analiz, a także przygotowywanie zaawansowanych raportów. Platforma wykorzystuje uczenie maszynowe do analityki predykcyjnej, przez co łatwiej weryfikować hipotezy i podejmować lepsze decyzje.

Decydowanie na podstawie danych — przykłady

Wykorzystywanie zaawansowanej analityki usprawnia podejmowanie decyzji we wszystkich działach firm: od finansowych przez marketingowe, po zajmujące się obsługą klienta czy bieżącymi operacjami przedsiębiorstw.

Analiza danych kluczowa w utrzymaniu klientów

Jeśli chodzi o działania marketingowe, warto przytoczyć historię Ulta Beauty, amerykańskiego sprzedawcy kosmetyków. Firma wykorzystuje narzędzia analityczne, szczególnie algorytmy sztucznej inteligencji, do przygotowywania spersonalizowanych kampanii marketingowych. Dzięki temu klienci uzyskali dostęp do rekomendacji bazujących na ich preferencjach, a Ulta Beauty sprzedaż, która w 95 proc. dotyczy powracających użytkowników.

Innym przykładem wykorzystania analizy danych do utrzymania klientów może być Vodafone Ukraine, które zmniejszyło o 30 proc. poziom rezygnacji z jej usług. Udało się to dzięki używaniu danych do segmentacji użytkowników i kierowaniu do nich specjalnie przygotowanych ofert. Liczba tych ostatnich wzrosła dzięki algorytmom AI ze 100 do 2000 miesięcznie. Było to możliwe z zachowaniem tej samej liczby pracowników, bo zespół zaczął działać znacznie bardziej efektywnie. Przychody Vodafone Ukraine zwiększyły się o 2 proc.

Dane pozwalają przewidzieć awarie i udoskonalać produkty

Producent pojazdów, Grupa Iveco, korzysta z danych generowanych przez czujniki w urządzeniach i z pomocą technologii internetu rzeczy oraz algorytmów AI zapewnia większą niezawodność floty samochodowej. Taki model umożliwia konserwację predykcyjną, czyli informowanie o nadchodzących awariach, zanim one nastąpią. W ten sposób klienci dostają zalecenia i są w stanie samodzielnie (lub z pomocą Iveco) rozwiązać problemy, nim dojdzie do przestoju części lub całości floty.

Wyzwania

Głównym wyzwaniem dotyczącym wdrażania DDDM jest brak zrozumienia dla nowo wprowadzanych technik i procedur. Dlatego potrzebni są specjaliści, którzy wytłumaczą, jak wykorzystywać rozwiązania, ale też liderzy zmiany, czyli pracownicy pełniący role „ambasadorów”, którzy chętnie używają narzędzi do zaawansowanej analityki w podejmowaniu decyzji.

Silosy danych i zła jakość zbieranych informacji

Dość często w firmach, które wprowadzają nowe metody zarządzania, pojawiają się bariery w postaci tzw. silosów danych. To obszary w organizacji, które są oddzielone od pozostałej części przedsiębiorstwa i zamiast korzystać z wszystkich dostępnych informacji, bazują jedynie na wewnętrznych zbiorach i procedurach. Takie działy opierają się też przed udostępnianiem zbieranych informacji innym zespołom. Rozwiązaniem jest przygotowanie repozytorium kluczowych danych, a następnie budowanie katalogów z ustrukturyzowanymi i posortowanymi informacjami. Takie podejście pomoże zwiększyć jakość gromadzonych zbiorów. Trzeba jednak mieć świadomość, że to działanie długofalowe, więc na początku powinniśmy ustalić, które dane są najbardziej istotne, a następnie nadać im odpowiednie priorytety.

Opieraj się na aktualnych danych

Przy podejmowaniu decyzji (zwłaszcza w czasie rzeczywistym) trzeba odfiltrować nieistotne informacje. Dotyczy to w szczególności danych historycznych, pochodzących np. sprzed pandemii COVID-19, która sprawiła, że wcześniejsze analizy na temat klientów czy skuteczności działań marketingowych zdezaktualizowały się, przez co przestały być przydatne.

Korzystaj z narzędzi ułatwiających podejmowanie decyzji

Wyzwaniem dla menadżerów, któremu można zaradzić jeszcze na początku drogi z DDDM, jest konieczność skalowania rozwiązań z czasem, wraz z przyrostem danych do przetwarzania. Wyjściem może być wykorzystanie technologii chmurowych i rozwiązań Software as a Service. Różnorodność dostępnych technologii sprawia, że każdą inwestycję warto skonsultować pod kątem jej przydatności dla konkretnych potrzeb organizacji.

Wyniki obrazowania medycznego wpływają na to, jaką diagnozę dostanie pacjent. W analizach zdjęć rentgenowskich czy tomografii komputerowej sztuczna inteligencja notuje porównywalne lub trafniejsze wyniki od doświadczonych diagnostów. Dzięki niej diagnozy lekarskie mogą być szybsze i rzadziej błędne. A to tylko jeden z obszarów, gdzie AI pracuje efektywnie już teraz. Ale koniecznie musi to być odpowiedzialna sztuczna inteligencja.

AI wdziera się do kolejnych specjalizacji i sfer życia. Praktycznie każdy sprzęt domowy jest “smart”, kolejnych algorytmów i nowoczesnych rozwiązań szybko przybywa, jednak ich stosowanie powinno być przemyślane i odpowiedzialne. Korzyści biznesowe powinny iść w parze z ograniczaniem ryzyk.

Algorytmy AI, czyli szansa

Medialnym bohaterem stał się ChatGPT — model uczenia maszynowego opracowany przez firmę OpenAI. GPT wykorzystuje technologię przetwarzania języka naturalnego (NLP, Natural Language Processing) i uczenie głębokie, aby tworzyć naturalny tekst, zgodny z dostarczonymi danymi wejściowymi. Rozwiązanie jest wykorzystywane przez internautów do pisania piosenek, esejów czy szukania odpowiedzi na pytania. Chatbot pomaga w marketingu internetowym i pozycjonowaniu stron www. Popularność narzędzia na nowo ożywiła wątpliwości czy coraz doskonalsze algorytmy nie staną się konkurencją dla ludzkiej kreatywności. Skoro chatbot może napisać piosenkę lub esej, które trudno odróżnić od przygotowanych przez człowieka, to może AI realnie zagraża konkretnym miejscom pracy? Niall Larkin, specjalista ds. danych w SAS, wskazuje jednak w raporcie „AI & Responsible Innovation: What´s Next?” na drugą stronę medalu. Algorytm sztucznej inteligencji może pomóc nam wyeliminować powtarzalne i pracochłonne zadania, uwalniając przestrzeń na bardziej kreatywną czy nadzorczą pracę.

Szerszy strumień danych, czyli ryzyka

Stosowanie najlepszych praktyk w zakresie zarządzania wykorzystywaniem sztucznej inteligencji oraz jasne wytyczne powinny zachęcać biznes do wprowadzania odpowiedzialnych rozwiązań. Eksperci poruszają w raporcie zagadnienia związane z wdrażaniem AI. Dr Kirk Borne, jeden z autorów opracowania i założyciel Data Leadership Group, zauważa:

— AI stała się tak potężna i wszechobecna, że coraz trudniej stwierdzić, co jest prawdziwe, a co nie, co dobre, a co złe. Musimy uważać nie tylko na przestępców. Dzięki zdolnościom do podejmowania decyzji sztuczna inteligencja jest wdrażana przez firmy i rządy szybciej, niż da się to uregulować. Pytanie brzmi, w jaki sposób algorytmy powinny unikać niezamierzonych uprzedzeń, które mogą wkradać się do modeli? — zastanawia się Borne.

W ciągu najbliższych 20 lat część zasad obejmujących AI zostanie lepiej zdefiniowanych — uważają eksperci. Firmy prywatne i organizacje rządowe będą korzystały z inteligentnych usług jeszcze częściej, m.in. do zbierania danych. Segregowanie informacji już teraz jest skomplikowane, ale AI z chęcią zrobi to za nas. To jednak oznacza bardziej otwarty, praktycznie nieograniczony dostęp do poufnych danych, a tym samym łakomy kąsek dla cyberprzestępców. Jeżeli społeczeństwo nie będzie widziało realnych korzyści z przetwarzania danych przez AI, szybko wycofa zgodę na ich przekazywanie. A to z kolei może oznaczać duże straty dla firm korzystających z takich usług — czytamy w raporcie SAS-a.

Wykwalifikowany lekarz z asystentem medycznym AI

Szybki rozwój AI to olbrzymia szansa dla sektora medycznego. Obecnie modele uczenia maszynowego pomagają w przeszukiwaniu baz medycznych pod kątem nieoczywistych wniosków, które mogą udoskonalić leczenie i obsługę pacjenta. Najczęściej AI wykorzystuje się jako wsparcie przy decyzjach klinicznych oraz analizie obrazowej. Lekarze dostają sugestie podczas wyboru terapii, leków i określania potencjalnych skutków ubocznych — właśnie to analizuje AI wyposażona w sieci neuronowe. W obrazowaniu medycznym uczenie maszynowe wykorzystuje się do odczytywania tomografii komputerowej, zdjęć rentgenowskich i rezonansu magnetycznego w poszukiwaniu zmian chorobowych, które radiolog mógłby przeoczyć. Badania potwierdzają, że AI uzyskuje wyniki porównywalne, a często nawet lepsze niż najsprawniejsi diagności. Efekt? Mniejszy odsetek diagnoz fałszywie pozytywnych — stwierdzających chorobę — i ograniczenie niepotrzebnego straszenia pacjentów.

Sztuczna inteligencja w medycynie może zapewnić cenny kontekst podczas podejmowania decyzji dotyczących leczenia, a wręcz potwierdzić słuszność diagnozy lekarza. Naukowcy z USA potwierdzili, że narzędzia wspomagania decyzji mogą zminimalizować odsetek diagnoz fałszywie pozytywnych i usprawnić dawkowanie leków. Eksperci zapowiadają znaczne oszczędności w służbie zdrowia, jeśli będziemy konsekwentnie wprowadzali rozwiązania AI.

Jak powstaje odpowiedzialna AI?

Rozwój sztucznej inteligencji wymaga równoczesnego dbania o odpowiedzialność algorytmów. W SAS-ie, który produkuje oprogramowanie analityczne, funkcjonuje międzywydziałowy zespół Data Ethics Practice. Grupa ekspertów, którą kieruje Reggie Townsend, stara się sprawdzać, czy pracownicy i klienci dostawcy rozwiązań analitycznych korzystają z systemów AI w sposób etyczny. Szef zespołu Data Science w SAS-ie w Wielkiej Brytanii i Irlandii, Iain Brown, podkreśla, że moment pierwszego kontaktu firm ze sztuczną inteligencją jest bardzo ważny:

— Czasem nie jest jasne, jak wykorzystać sztuczną inteligencję, więc organizacje mogą niechętnie ją przyjmować i przez to przegapić wiele korzyści. Naszym celem jest ułatwienie im odpowiedzialnego wprowadzania nowoczesnych rozwiązań z poszanowaniem przepisów. Opracowaliśmy jasne ramy etyczne, które mają kierować rozwojem modeli sztucznej inteligencji, wdrożyliśmy też ścisłe zarządzanie tymi modelami, żeby zapewnić uczciwe, przejrzyste i sprawiedliwe decyzje. Stale testujemy nasze rozwiązania i optymalizujemy je w miarę pojawiania się nowych danych, aby zapewnić jak najlepsze wyniki — akcentuje Iain Brown (wywiad z ekspertem w zakresie analityki można przeczytać w datasciencerobię.pl).

Zespół Data Ethics Practice współpracuje też z Działem Badań i Rozwoju w SAS-ie, by nie stracić z pola widzenia zasad odpowiedzialnej innowacji: skupienia na człowieku, włączenia społecznego, przejrzystości, odpowiedzialności, solidności oraz prywatności i bezpieczeństwa. To zobowiązanie obejmuje również klientów SAS-a niezależnie od tego, czy działają w sektorze publicznym, czy prywatnym.

— Większość organizacji docenia wartość danych i chce dobrze je wykorzystywać. Jednak są możliwości, aby zrobić dzięki danym więcej. Tymczasem 70-80 proc. informacji w firmach ma nieustrukturyzowaną formę i nadal się ich nie wykorzystuje. Moja praca polega na badaniu nowych możliwości użycia danych – Szef działu data science w SAS w Wielkiej Brytanii i Irlandii. — Punkt ciężkości w kontekście analityki przesunął się dzisiaj z myślenia “dlaczego powinniśmy to robić?” na “co jeszcze możemy zrobić dzięki danym?” – zaznacza Iain Brown.

Iain Brown jest senior leaderem i ekspertem w zakresie AI. Pracuje również jako adiunkt na Uniwersytecie w Southampton, gdzie wykłada marketing data science. Iain został uznany przez DataIQ za jednego ze 100 najbardziej wpływowych ludzi w branży data science. Z kolei Onalytica wybrała go do grona 50 najlepszych influencerów zajmujących się sztuczną inteligencją.

Jaką ścieżką trafiłeś na stanowisko pracy dotyczące data science?

Zabawne, że nigdy tak naprawdę nie planowałem, aby zostać analitykiem. Zawsze kochałem matematykę i ciekawiło mnie wyjaśnianie, dlaczego coś jest takie, jakie jest. To skłoniło mnie do zajęcia się na uniwersytecie statystyką stosowaną, potem skończyłem studia podyplomowe dotyczące wykorzystania statystyki w biznesie. Dalej był doktorat. Ale wtedy jeszcze nikt nie mówił o data science, ten termin po prostu nie istniał. Chciałem pracować w biznesie i wykorzystywać tam analitykę, żeby lepiej rozumieć, jak usprawniać działania. Zatem można powiedzieć, że zostałem data scientistem – z przypadku.

Jakie dostrzegasz główne trendy w rozwoju analityki?

Dziedzina analityki danych jest w procesie ciągłej zmiany, nowe trendy widać każdego dnia. Mają potencjał kształtowania przyszłości analityki i przynoszą znaczące postępy. Na uwagę zasługuje rosnące wykorzystanie chmury obliczeniowej i zaawansowanych modeli językowych, takich jak ChatGPT czy Bard. Warto też zwracać uwagę na coraz większą popularność przetwarzania danych w czasie rzeczywistym, analitykę strumieniową, wzrost znaczenia uczenia maszynowego i sztucznej inteligencji. Do tej listy trzeba dodać jeszcze chmurę hybrydową i multi-cloud. Wymienione trendy przekształcają krajobraz analityki danych, napędzając branżę i umożliwiając organizacjom czerpanie większej wartości z danych. Myślę, że analityka ma przed sobą ciekawą przyszłość z wieloma ekscytującymi przełomami na horyzoncie.

Skoro wspomniałeś o ChacieGPT — jak nowoczesne rozwiązania, które korzystają z AI, zmieniają data science?

Wpływ sztucznej inteligencji na tę dziedzinę jest ogromny. AI zrewolucjonizowała sposób przeprowadzania analizy danych, automatyzując i podnosząc poziom wielu procesów. Implementacja algorytmów otworzyła nowe perspektywy w analityce, umożliwiając szybką i precyzyjną identyfikację wzorców i zależności w danych. Algorytmy pozwalają również data scientistom budować trafne prognozy i podejmować decyzje na podstawie danych, co prowadzi do rozwoju kolejnych nowoczesnych rozwiązań. Te z kolei przynoszą głębsze spostrzeżenia i umożliwiają poprawianie wyników biznesowych oraz wyznaczają nową erę w dziedzinie nauki o danych. Podsumowując, wpływ AI na analitykę ma charakter transformacyjny.

Jak, w oparciu o twoje profesjonalne doświadczenie, zmieniło się na przestrzeni lat wykorzystanie data science w biznesie?

Pracuję na aktualnym stanowisku od ponad 11 lat. Kiedy zaczynałem, tłumaczenie firmom korzyści płynących z podejmowania decyzji na podstawie danych w porównaniu z kierowaniem się tradycyjnym wyczuciem — było nie lada wyzwaniem. Nie istniała powszechna akceptacja dla używania danych do podejmowania decyzji, menadżerowie woleli czerpać z osobistego doświadczenia i wiedzy. Dziś większość organizacji docenia wartość danych i chce je wykorzystywać jeszcze lepiej. Ale nawet teraz istnieją ogromne, ciągle niezagospodarowane przestrzenie. 70-80 proc. informacji w firmach ma nieustrukturyzowaną formę (teksty, rozmowy lub obrazy) i nadal się ich nie używa. Większość mojej pracy polega na szukaniu nowych możliwości przetworzenia danych, aby mieć z nich więcej korzyści. Punkt ciężkości przesunął się w ostatnim czasie z pytania “dlaczego powinniśmy to zrobić?” na “co jeszcze możemy zrobić z danymi?”.

Jakie są najbardziej skuteczne metody i narzędzia, które pozwalają wydobyć z danych więcej?

Jako Head of Data Science w SAS-ie, który jest liderem rynku, jeśli chodzi dostarczanie przedsiębiorstwom nowoczesnych rozwiązań opartych na AI, mam przywilej uczestniczenia w “rewolucji” w dziedzinie analityki. Mamy dziś wiele wyrafinowanych metod i narzędzi, które pozwalają wydobyć maksymalną wartość z danych. Od chmury obliczeniowej i technologii big data, po przetwarzanie danych w czasie rzeczywistym i analitykę strumieniową — opcji jest mnóstwo. Uczenie maszynowe i sztuczna inteligencja całkowicie zmieniły analitykę, umożliwiając organizacjom wgląd w swoje dane, taki, jaki wcześniej był nieosiągalny. Rozwiązania oparte na modelu multi-cloud i chmurze hybrydowej również zdobyły znaczną popularność i pozwoliły organizacjom na optymalizację strategii poprzez wykorzystanie najlepszych rozwiązań. Obecny krajobraz analityki danych oznacza wielkie możliwości z bogactwem skutecznych metod i narzędzi. A to wszystko daje szansę odblokowania pełnego potencjału danych oraz napędzania wyników biznesowych.

A z którego projektu data science jesteś najbardziej dumny w swojej dotychczasowej karierze?

Bardzo dużo satysfakcji dała mi współpraca z internetową firmą z branży e-commerce. Pomagałem jej w zrozumieniu wzorców i zachowań klientów oraz w tworzeniu w czasie rzeczywistym dokładnych, spersonalizowanych rekomendacji. Praca nad tym projektem była niesamowicie satysfakcjonująca i wniosła dużą wartość biznesową. Ale jeszcze bardziej jestem dumny z pracy, jaką mój zespół wykonał w ramach projektów Data4Good, gdzie wykorzystywaliśmy wizję komputerową w kontekście leczenia nerek w ramach National Health Service (brytyjski odpowiednik polskiego NFZ-u — red.). Używaliśmy także AI do wsparcia leczenia matek i dzieci przez wczesne diagnozowanie tzw. stanu przedrzucawkowego (inaczej: zatrucie ciążowe — red.). To wielka przyjemność móc angażować się w działania organizacji, która jest tak ważna społecznie. Współpraca z NHS wykraczała poza wartość biznesową w kierunku wartości, które są ważne pod kątem rozwiązywania krytycznych problemów społecznych.

Mówiłeś o swoich pierwszych krokach w data science. A jak dziś wygląda w Wielkiej Brytanii i innych krajach europejskich edukacja w tym zakresie?

Ostatnie lata to niezwykły wzrost inwestycji w edukację obejmującą data science. Pojawiło się wiele dobrych kursów, które uzupełniają braki w umiejętnościach. Każdy z nich oferuje zróżnicowany program nauczania uwzględniający różne dyscypliny, takie jak statystyka, programowanie, uczenie maszynowe i wizualizacja danych. Jednak przy takiej liczbie dostępnych opcji, trzeba uważnie porównywać propozycje, żeby wybrać najlepiej dopasowany program. Standard edukacji w poszczególnych instytucjach może się znacznie różnić, co wyraźnie wpływa na jakość nauki. Zatem etapowi porównania kursów na poszczególnych uczelniach warto poświęcić czas.

Spodziewasz się, że branża analityczna przyniesie nam w najbliższym czasie nowe specjalizacje?

Tak, sfera data science stale rozwija się, na horyzoncie pojawiają się nowe, ciekawe obszary. Duży potencjał ma analityka w czasie rzeczywistym i metody predykcyjne wykorzystywane np. do zapobiegania awariom urządzeń, jak również autonomiczne podejmowanie decyzji. Śledzenie postępów na tych polach ma kluczowe znaczenie dla analityków, ponieważ, jeśli będą na bieżąco, zyskają szansę uprzedzenia krzywej zmian i utrzymania swojej konkurencyjności w dziedzinie, która bardzo szybko się zmienia. W związku z tym, specjaliści muszą być nastawieni na ciągłe poszerzanie umiejętności i wiedzy, aby wyprzedzać wydarzenia na dynamicznej arenie data science.

Błędy poznawcze są wpisane w zachowania człowieka. To uproszczenia, które pozwalają nam na co dzień oszczędzać czas, nawet jeśli dzieje się to kosztem nieco mniej precyzyjnych rezultatów działań. Warto jednak mieć świadomość, że korzystamy z tego typu skrótów myślowych i bacznie przyglądać się własnym analizom. Opisujemy 6 typów błędów poznawczych, które mogą zaważyć na wynikach analizy, jeśli data scientist straci czujność.

Analiza danych obecnie powszechnie wspiera podejmowanie decyzji i trudno sobie wyobrazić współczesny świat bez tego narzędzia. Jednak błędy poznawcze, pojawiające się na różnych etapach pracy z danymi, mogą wyrządzić sporo szkód, zanim się zorientujemy, że model nie działa według wstępnych założeń. Algorytmy sztucznej inteligencji, o ile bazują na niewłaściwych przesłankach, zachowują się nieprawidłowo i np. dyskryminują część użytkowników. Takie okoliczności mogą wpływać np. na decyzję o przyznaniu kredytu, a nawet na surowość wyroku sądowego. W niektórych stanach USA algorytmy pomagają oceniać ryzyko ponownego popełnienia przestępstwa przez sądzoną osobę.

Efekt potwierdzenia

Dużo łatwiej zauważyć błąd u kogoś innego niż we własnej pracy. Często na tyle mocno przywiązujemy się do własnych przekonań i przewidywań, że łatwo nam przychodzi szukanie dowodów ich poprawności. Pod wpływem efektu potwierdzenia eksperci bez trudu znajdą dane przemawiające na korzyść własnej hipotezy, choćby pomysł nie należał do najtrafniejszych. Z kolei dostrzeżenie i docenienie wagi pozornie niewielkich odchyleń, które mogą doprowadzić do odmiennej interpretacji wyników, przychodzi z ogromnym wysiłkiem. Efekt potwierdzenia powoduje, że niechętnie spoglądamy w kierunku zmiennych, których nie uwzględniliśmy w obliczeniach.

Heurystyka zakotwiczenia i dostosowania

Heurystyka zakotwiczenia i dostosowania to jeden z najpowszechniejszych błędów poznawczych, na które jesteśmy narażeni na co dzień — powszechnie korzysta z niej marketing. Wiąże się z faktem, że bardzo duże znaczenie w ocenie wartości produktu, ma pierwsza informacja, z jaką się zetkniemy. Dlatego, analizując dane, nie powinniśmy przywiązywać się do pierwszej napotkanej korelacji, ponieważ może nas sprowadzić na manowce. Dane powinniśmy oglądać ze wszystkich stron, analizując ich strukturę, możliwe związki i zmienne zależne. Warto być podejrzliwym wobec wyników, które wydają się “za dobre”.

Efekt społecznych oczekiwań

Ankiety nie są najbezpieczniejszym sposobem modelowania procesów biznesowych. Wynika to z faktu, że mamy tendencję do przedstawiania siebie w sposób możliwie najbliższy czemuś, co sami uznajemy za normę. Niechętnie przyznajemy się do cech czy działań, które sami uznajemy za nieatrakcyjne. Z tego powodu trzeba brać poprawkę na wyniki ankiet przeprowadzanych np. wśród klientów albo pracowników i sprawdzać je dodatkowo danymi dotyczącymi analizowanych kwestii. Dla przykładu, jeśli klienci sugerują, że dana marka produkuje słabe jakościowo wyroby, a nic takiego nie wynika z liczby zwrotów, reklamacji czy spadku sprzedaży, możliwe, że mamy jedynie do czynienia z powielaniem powszechnego przekonania i nie warto z nim walczyć, tylko przeprowadzić rebranding.

Zasada podczepienia

Kolejne ryzyko błędów w analizie danych dotyczy zasady podczepienia nazywanej też efektem silniejszego. Ludzie mają skłonność do podążania za tłumem w działaniach i osądach, co może prowadzić do powstania krzywdzących i nieprawdziwych, bo opartych na stereotypach, wniosków. Przygotowujący zbiory treningowe dla algorytmów i ci, których dane dotyczą, nie są wolni od sugerowania się postępowaniem większości. A skoro oni, to sztuczna inteligencja i analiza danych tym bardziej. Narzędzia działają jak szkło powiększające — uwydatniają nie tylko fakty, ale też opinie i uprzedzenia. Dlatego dane po zebraniu powinny zostać przeanalizowane pod kątem występowania nieprawdziwych powiązań, które można odrzucić już na wstępnym etapie. Jednak żeby tak się stało, dobrze mieć w zespole osoby o różnych spojrzeniach na przedmiot analizy.

Pułapka przeżywalności

Błędy poznawcze pojawiają się już na etapie przygotowania danych do analizy. Dość łatwo można wpaść w tzw. pułapkę przeżywalności. Jeśli weźmiemy pod uwagę tylko dane dotyczące firm, które odniosły sukces, albo produktów, które dobrze się sprzedają, możemy wysnuć błędne wnioski na podstawie zaobserwowanych korelacji. Klasycznym przykładem takiego błędnego rozumowania była analiza uszkodzeń samolotów, które wracały do baz w czasie II Wojny Światowej. Następnie kolejne maszyny wzmacniano w miejscach, w których zostały trafione przez przeciwnika. Dopiero statystyk i matematyk, Abraham Wald, zwrócił uwagę, że takie działanie jest pozbawione sensu, ponieważ pilotom jednak udało się wrócić pomimo uszkodzeń. Wald przekonywał, że należałoby raczej przyjrzeć się częściom rozbitych samolotów.

Zatrudnij sceptyka, który pokona syndrom myślenia grupowego

Niewielkie zespoły data science są szczególnie narażone na wystąpienie błędów poznawczych. Co gorsza, często nie wystarczy pokazanie raportu koledze zza biurka, aby uniknąć pomyłek. Oczywiście druga para oczu i tak jest lepsza niż brak jakichkolwiek procedur weryfikowania zebranych informacji, jednak i w tym wypadku powinniśmy mieć świadomość ograniczeń. Szczególnym zjawiskiem, które utrudnia trzeźwą ocenę, jest tzw. syndrom myślenia grupowego. Polega na tym, że członkowie zespołów niechętnie krytykują swoich kolegów, ponieważ nie chcą narazić się np. na pogorszenie stosunków albo po prostu zbytnio ufają wiedzy i doświadczeniu osoby, która opracowywała dany raport. To znany problem, który przyczynił się do podjęcia błędnych decyzji przez amerykańskie wojsko w Wietnamie oraz do nieudanej interwencji w Zatoce Świń, której celem było obalenie dyktatury Fidela Castro. Aby uniknąć syndromu myślenia grupowego, warto postawić na zewnętrzny audyt. Dobrze też jest mieć w zespole kogoś, kto odgrywa rolę “adwokata diabła”. Będzie mu łatwiej przedstawiać ryzyka i wytykać słabe punkty dotyczące modeli oraz samego procesu zbierania i przetwarzania danych.

— Analiza danych pozwala nam powiedzieć, gdzie i na jakiej głębokości możemy spodziewać się zwierciadła wód, w tym mineralnych. Możemy za pomocą analizy danych zlokalizować złoża wszelkiego rodzaju, od minerałów, kruszyw, przez ropę naftową, po gaz ziemny. Dlatego analiza danych ma zastosowanie w geofizyce zarówno w skali bardzo lokalnej, inżynierskiej, jak i w dużej skali poszukiwawczej. Wszystkie dane, na jakich pracujemy, muszą być zdigitalizowane. Badaczom otwiera to właściwie wszechświat możliwości — opowiada dr inż. Anna Kwietniak z Wydziału Geologii, Geofizyki i Ochrony Środowiska Akademii Górniczo-Hutniczej w Krakowie.

Anna Kwietniak doktoryzowała się w zakresie nauk o Ziemi w dziedzinie geofizyki, jest także geolożką. Przez ponad 5 lat pracowała w przedsiębiorstwie geofizycznym. Staż doktorski zrealizowała w dziale R&D w Microseismic.INC w Houston. W Katedrze Geofizyki AGH bada wykorzystanie danych sejsmicznych w interpretacji geologicznej. Jej głównym zainteresowaniem naukowym jest analiza zmian częstotliwości sygnału sejsmicznego. Prowadzi zajęcia dydaktyczne z sejsmiki i sejsmologii.

Co pani robi w pracy na co dzień?

Zajmuję się tzw. polem fal sprężystych, czyli, mówiąc inaczej, falami sejsmicznymi. Analizuję parametry pola falowego. Geofizykę można rozpatrywać w aspekcie badań podstawowych, w ramach których chcemy dowiedzieć się więcej o świecie, o przyrodzie czy otoczeniu geologicznym, oraz jako badania stosowane. Moja praca ma właśnie charakter stosowany. Analizuję sygnały i dane po to, aby odpowiedzieć na pytania praktyczne, związane np. z budową geologiczną określonego terenu. Dzięki badaniom możemy sprawdzić, czy w danym miejscu jest uskok, jaka jest miąższość (grubość — red.) warstw geologicznych, jakie są ich parametry i czy mogą one świadczyć o nasyceniu wodą oraz węglowodorami. Ponadto zajmuję się analizą przestrzenną dotyczącą sejsmiczności terenu. W ten sposób dowiadujemy się, czy dane miejsce jest podatne na trzęsienia ziemi, czy nie. Szacujemy prawdopodobieństwo przekroczenia pewnych parametrów sejsmologicznych na tym obszarze i możemy powiedzieć, jak to przełoży się na bezpieczeństwo ludzi i infrastruktury. W takim modelu sejsmicznym bada się miejsca nie tylko pod względem użyteczności, ale przeprowadza się także analizy pod kątem strategicznych inwestycji, takich jak budowa lotnisk, mostów lub elektrowni. Geofizycy prowadzą również badania w mniejszej skali, sprawdzając warunki geologiczne, planując np. budowę dróg. Badania geofizyczne są także przydatne w monitorowaniu stanu środowiska naturalnego.

A co z poszukiwaniem złóż?

Analiza danych pozwala nam powiedzieć, gdzie i na jakiej głębokości możemy się spodziewać zwierciadła wód, w tym tych mineralnych. Dodatkowo możemy za pomocą analizy danych zlokalizować złoża wszelkiego rodzaju, od kruszyw przez ropę naftową, po gaz ziemny. Analiza danych w geofizyce może być prowadzona zarówno w skali bardzo lokalnej, inżynierskiej, jak i w dużej skali poszukiwawczej.

Jak wyglądają dane w geofizyce? Czym różnią się od informacji pozyskiwanych przez data scientistów w innych obszarach badawczych?

W geofizyce mamy do czynienia z danymi, które zmieniają się w czasie i przestrzeni. Nie są to typowe szeregi czasowe, jak w przypadku danych np. z giełdy. Dla nas ważne jest, gdzie się zmieniają wskazane parametry, w jakim miejscu naszego obszaru badań. Dane geofizyczne i dane geologiczne mają charakter przestrzenny. Sam format zapisu jest bardzo różny w zależności od tego, jaka to metoda geofizyczna. Sposób przetwarzania musi być też dostosowany do tego, jaka jest struktura danych.

Geofizyka może kojarzyć się z tradycyjnymi mapami, modelami terenu…

To prawda, że dane geofizyczne czy geologiczne długo miały tylko analogową postać. Przechowywało się je jako wykresy albo mapy. Obecnie wszystkie dane, na jakich pracujemy, muszą być zdigitalizowane, co badaczom otwiera właściwie wszechświat możliwości. Czerpiemy rozwiązania zarówno z data science, jak i z data miningu. Dzięki temu, znając strukturę plików, możemy wyodrębnić dane, które nas interesują i samodzielnie zaimplementować pewne rozwiązania. Da się to zrobić nawet w oderwaniu od tego, co dostarcza nam oprogramowanie, którego zwykle używamy.

Z jakich narzędzi korzysta Pani na co dzień? To specjalne programy do analizy danych geofizycznych?

Tak, oczywiście istnieje oprogramowanie typowo geofizyczne. Warto jednak zauważyć, że programy do analizy danych geofizycznych, w szczególności danych sejsmicznych, są bardzo drogie, a wbudowane w nie funkcje często działają jak “czarne skrzynki”. Nawet, kiedy jest opis tych “skrzynek”, często nie do końca wiadomo, jak program robi to, co robi. Tymczasem dostępność podstawowych narzędzi data science i znajomość języków programowania daje dużo większe pole manewru. Użytkownik sam może napisać kod i zaimplementować go w silniku, który działa w aplikacji. Co więcej, nie jest to tylko „klikologia” oparta o wbudowane funkcje. Dzięki wykorzystaniu własnoręcznie przygotowanych rozwiązań geofizycy mogą mieć pełną kontrolę od momentu, kiedy dane są pozyskane bądź zmierzone w terenie, aż do chwili interpretacji tych danych.

W takim razie jest pani dziś bardziej geofizyczką czy jednak data scientistką?

Myślę, że w geofizyce nie ma już dziś osób, które nie interesują się i nie zajmują analizą danych. Powiem więcej, nasza praca to głównie analiza danych. Kiedy pracuję przy konkretnym projekcie, 70 procent czasu to obróbka, wczytywanie i przetwarzanie danych. Pojawiają się nowe rozwiązania z obszaru uczenia maszynowego i sztucznej inteligencji. Wiele działań w geofizyce polega obecnie na wprowadzaniu takich rozwiązań.

A jaki pozyskuje pani doktor dane do badań?

Jeżeli mówimy o badawczym projekcie sejsmicznym, a takimi się głównie zajmuję, potrzebujemy danych sejsmicznych. Pozyskanie danych sejsmicznych to długi i kosztowny proces, w małej skali badawczej należy najpierw przeprowadzić prace w terenie. Praca ukierunkowana na poszukiwania złóż wody czy węglowodorów związana jest z wykorzystaniem większych wolumenów danych. Ich akwizycją zajmują się wyspecjalizowane firmy, które pracują dla przemysłu wydobywczego czy budownictwa. Naukowcom do celów badawczych dane są udostępniane nieodpłatnie. Transfery danych i technologii, wypracowane w ośrodkach badawczych odbywają się na zasadzie oddzielnych dwustronnych umów.

Jakich konkretnie danych potrzebuje geofizyk?

Ja zajmuję się danymi sejsmicznymi 3D, które można sobie wyobrazić jako zdjęcie trójwymiarowe pewnego obszaru (tzw. wolumen sejsmiczny). Wyobraźmy sobie wycinek terenu o powierzchni 20 na 20 km. Co 5-10 metrów na takim poletku mamy czujnik, który rejestruje falę sejsmiczną, którą sami zresztą wcześniej generujemy. Ta fala rozchodzi się w ośrodku geologicznym, odbija się od jego granic, a my rejestrujemy tę falę odbitą w czujnikach. Sam proces zbierania danych z takiego poletka trwa ok. 3 miesięcy, jeśli chcemy mieć dane dobrej jakości. Następnie jest etap przetwarzania danych: trzeba je uszeregować, zredukować do jak najbardziej użytecznej postaci, dokonać na nich pewnych operacji matematycznych, aby wyobrazić sobie model ośrodka geologicznego.

Co dalej się dzieje z danymi?

Dane 3D obejmują pewien obszar i rozchodzą się w czasie, w dół i wracają do nas po odbiciu od granicy geologicznej (a właściwie granicy sejsmicznej). Osią pionową dla zdjęcia sejsmicznego jest czas – czyli literalnie rejestrujemy czas przyjścia fali i parametry pola falowego, jak np. amplitudę. Podczas badań sięgamy do ok. 5 km w głąb ziemi, przy czym zasięg zależy od kilku czynników, w tym m.in. od geometrii pomiarowej i od parametrów źródła sejsmicznego. Następnie jest kluczowy etap interpretacji, którym już ja się zajmuję. Jeżeli mam pomysł na analizę tych danych, mogę użyć narzędzi z gotowych, zewnętrznych aplikacji. Często korzystam dodatkowo z Pythona, dlatego że ma wiele bibliotek i kodów przydatnych w badaniu danych sejsmicznych. Geofizyk, dzięki narzędziom data science, może czerpać inspirację także z innych dziedzin, np. z telekomunikacji, akustyki, analizy szeregów czasowych, analizy i filtracji danych graficznych.

Wspomniała pani, że dane są rejestrowane w czasie.

Jeżeli mamy sejsmiczne dane 3D, nie jest to kompletna informacja geologiczna, ponieważ, jak mówią geofizycy, musimy “dowiązać się” do danych geologicznych.

Co to znaczy?

Geofizyka to dziedzina, która musi być sprawdzalna. Dlatego na badanym obszarze do odpowiednio przygotowanych otworów zapuszcza się sondy w celu pozyskania pomiarów. Dane z otworów muszą być spójne z tym, co widać w danych sejsmicznych, abyśmy mogli potwierdzić nasze badania. W otworach wiertniczych przeprowadza się szereg pomiarów, w tym można przeprowadzić badanie prędkości w ośrodku geologicznym. Mając już czas z danych sejsmicznych i prędkość z pomiarów otworowych, możemy przeliczyć to na głębokość. Na tym w ogólności polega “dowiązanie danych”. Proszę pamiętać, że nikt nie będzie wiercił otworu wiertniczego wartego miliony złotych bez precyzyjnej informacji, jak głęboki ma być otwór, żeby dowiercić się np. do złoża gazu. Pomyłki rzędu kilku metrów mogą kosztować setki tysięcy złotych. W analizie danych pomierzonych w otworach bardzo pomagają metody data science, ponieważ tych pomiarów jest wiele, co wynika z zastosowanego kroku próbkowania — czasem to nawet 20 cm. W interpretacji nierzadko wykorzystuje się sieci neuronowe. Jeżeli wyuczymy sieć neuronową, że na danym interwale mamy np. nasycenie węglowodorami (potwierdzamy to właśnie danymi otworowymi), taka sieć na całym zdjęciu sejsmicznym może nam wskazać podobne miejsca. Dla mojej pracy oznacza to dwie rzeczy. Po pierwsze, skraca się czas poszukiwania podobnych miejsc, ponieważ sieć neuronowa robi to za mnie dużo szybciej i dokładniej. Po drugie, sieć neuronowa jest bardziej “obiektywna”. Często jest tak, że zautomatyzowane wyniki, pochodzące z sieci neuronowych czy z wyszukiwania podobieństw, pokazują inny punkt widzenia, który warto wziąć pod uwagę podczas interpretacji danych sejsmicznych.

I sieć uczy się też niwelowania błędów w pomiarach?

Dokładnie tak. Robiąc badania na naszym wspomnianym poletku 20 na 20 km, załóżmy, że mamy tam 8 otworów wiertniczych. Jeżeli testuję sieć neuronową, uczę ją najpierw na 7 otworach, a następnie proszę sieć, aby sama stworzyła obraz ósmego otworu. Wtedy badam błąd dopasowania między wynikami rzeczywistymi oraz tymi obliczonymi przez sieć neuronową i zakładam kryterium, którego nie chcę przekroczyć. Następnie zmieniam badane otwory tak, aby sieć uczyła się na kolejnych, traktując inny punkt jako sprawdzian, do momentu, kiedy błąd dopasowania zmniejszy się do oczekiwanego przeze mnie poziomu. To jest świetna metoda, aby mocno ograniczyć ryzyko „minięcia się” z danymi geologicznymi.

Jak z pani perspektywy rozwija się teraz data science?

Przyspieszenie powoduje, że potrzebujemy coraz większych mocy obliczeniowych. W geofizyce wszystko dziś oblicza się na kartach graficznych, więc potrzebujemy coraz lepszego sprzętu. Mam to szczęście, że pracuję na Akademii Górniczo-Hutniczej, która ma bardzo dobre zaplecze komputerowe. Bez data science geofizyka nie mogłaby się rozwijać. Zarówno metody, jak i algorytmy unowocześniają się. Dużym bonusem dzięki narzędziom data science jest fakt, że ludzie więcej publikują, pokazują swoje rozwiązania, chwalą się nimi, przez co można znaleźć wiele ciekawych pomysłów na interpretację swoich danych. Zauważają to też firmy, które zajmują się danymi geofizycznymi.

Jakie wyzwania mają dziś przed sobą geofizycy?

Pliki, na których pracujemy (w formacie .sgy), są bardzo duże. Obecnie trwają prace, by dotychczasowy format danych, w którym w zasadzie od początku badań geofizycznych były zapisywane dane sejsmiczne, zastąpić przez inne rodzaje plików, sprytniej szeregujące i przechowujące dane. To będzie wielki przełom dla sejsmiki. Pewne pomysły na analizę, dotychczas niemożliwe do przeprowadzenia, będą w naszym zasięgu. Procedury, które aplikujemy na danych sejsmicznych, często zabierają dni lub tygodnie (nawet na bardzo mocnych stacjach obliczeniowych), stąd jest duża potrzeba upraszczania struktury plików. W formie ciekawostki wspomnę, że niektóre badania o charakterze podstawowym, np. policzenie inwersji pola falowego w płaszczu ziemskim, to miesiące ciągłych obliczeń. Chciałabym podkreślić, że w analizach zazwyczaj wykorzystujemy dane komercyjne, które są udostępniane nieodpłatnie przez sektor przemysłowy. To są informacje, za którymi stoją bardzo duże pieniądze, często są to dane wrażliwe albo nawet utajnione. Dlatego dodatkowym aspektem mojej pracy i sporym wyzwaniem jest bezpieczeństwo przechowywania danych i dostępu do nich. Proszę zauważyć, że dane o temperaturze są ogólnodostępne, ale dane geofizyczne już nie.