– Opierając się na danych przetworzonych i ustrukturyzowanych oraz dzięki zastosowaniu metod uczenia maszynowego, odkrywamy zależności, które są nieoczywiste lub niewykrywalne tradycyjnymi metodami statystycznymi. Żeby przeanalizować setki zmiennych, musimy sięgać po nowoczesne narzędzia – tłumaczy Paulina Parfieniuk, kierownik Zespołu Data Science w Getin Noble Banku.

Paulina Parfieniuk zajmuje się analityką i modelowaniem danych w bankowości. Prowadzi zespół odpowiedzialny za szeroko rozumianą analitykę klienta na potrzeby personalizacji komunikacji i oferty w celu budowy pozytywnych doświadczeń i wspierania zaangażowania klientów banku. Wcześniej pracowała w Kancelarii Premiera, koncentrując się na ilościowej ocenie skutków regulacji, wdrażanych w ramach polityki fiskalnej i ubezpieczeń społecznych. Studiowała ekonomię, informatykę i ekonometrię na Uniwersytecie Warszawskim.

Profesja data science pojawia się w wielu prognostycznych zestawieniach jako jeden z zawodów przyszłości. A jak zostaje się specjalistą data science, jaka była pani ścieżka?

Zaczęłam studia w czasach, kiedy jeszcze nie było mowy o data science. Raczej mówiło się o metodach ilościowych czy o ekonometrii. W ramach mojego kierunku wybrałam taką specjalizację i udało mi się potem podążać tą drogą zawodowo. Swoją karierę jako analityk zaczęłam zaraz po studiach – w administracji publicznej w niewielkiej, ale działającej prężnie komórce analitycznej w Kancelarii Premiera. Prowadziliśmy analizy ilościowe tak w ujęciu mikro, jak i makroekonomicznym dla celów polityki gospodarczej oraz na potrzeby ilościowej oceny skutków regulacji. Chodziło o sprawdzanie, w jakim stopniu i jakie grupy dotknie dana polityka oraz jaki to będzie miało skutek dla finansów publicznych. Budowaliśmy modele symulacyjne i optymalizacyjne do wyliczenia skutków w systemie podatkowym, ubezpieczeń społecznych czy też w sektorze energetycznym, gdzie wyznaczaliśmy najlepszy w sensie kosztowym miks energetyczny dla Polski.

Żeby być specjalistą w zakresie data science, trzeba skończyć matematykę albo inny pokrewny kierunek czy może rodzaj wykształcenia nie jest kluczowy, a liczy się bardziej profil intelektualny lub osobowościowy?

Data science to jest ściśle matematyka (statystyka, rachunek prawdopodobieństwa), ale użyta wprost do opisu świata i zjawisk z różnych dziedzin. W moim przypadku studia i solidne podstawy matematyczne pomogły mi zainteresować się tym tematem, chociaż to nie była stricte matematyka jako kierunek, tylko ekonomia. Niemniej, język matematyki musi być dla analityka danych zrozumiały. Data science, jako dziedzina pokazująca jak uczyć się z danych, wywodzi się tak naprawdę z potrzeby badania wpływu, mierzenia go, wyjaśniania przyczyn i współwystępowania zjawisk. Patrząc przez pryzmat ekonomii: może to dotyczyć jednostek (osób, klientów), albo wielkości agregatowych, jak np. PKB, sprzedaż, wpływy budżetowe. Uczyłam się klasycznych metod i takich, które obecnie przy wielkim wolumenie danych często już bywają nieadekwatne. Nadal jednak metody klasyczne mogą stanowić pewien punkt wyjścia, bo trochę programują myślenie na temat tego, jak w ogóle oceniać ilościowe związki między zmiennymi.

A jak wygląda bankowe data science? Jak wykorzystują państwo analitykę w praktyce?

To droga pomagająca lepiej poznać klienta, żeby dopasować usługi i produkty do jego indywidualnych potrzeb. Staramy się zrozumieć, na podstawie relacji z nim, jak funkcjonuje i jaki ma styl życia. Im lepiej uda nam się poznać klienta, tym lepiej dopasowaną propozycję produktu lub usługi otrzyma. Mając dane z różnych obszarów interakcji klienta z bankiem, możemy lepiej zrozumieć cele dla których klient jest w banku, a przy tym, jakie preferuje produkty, czym jest zainteresowany, jak chciałby być obsługiwany. Staramy się wspierać poszczególne kanały sprzedaży i komórki biznesowe w projektowaniu produktów i procesów komunikacji najlepiej dopasowanych do klienta na każdym etapie naszej relacji.

Jakie narzędzia i metody są tu przydatne?

Korzystamy z różnorodnych metod do budowy modeli predykcyjnych i segmentacyjnych. Zdarza się nam projektować rozwiązania autorskie, by jak najlepiej dostosować je do zagadnienia. Ważną kwestią jest swoboda i elastyczność programistyczna, jeśli chodzi o przetwarzanie danych w całym procesie modelowym: od zaprojektowania zbioru treningowego, po budowę modelu, walidację i uprodukcyjnienie. Szczególną rolę odgrywają narzędzia wizualizacyjne. Przy operowaniu na dużych zbiorach danych możliwość ich przedstawienia na wykresie daje poczucie kontroli, pozwala zauważyć i zdiagnozować problemy, które trzeba rozwiązać by móc pójść dalej.

Wśród klientów dość popularny jest pogląd, że nie powinno się udostępniać firmom swoich danych, bo staniemy się ofiarami agresywnego marketingu. Czasem nawet internauci wprowadzają fałszywe dane, żeby zmylić twórców profili. Jest też grupa, która uważa, że dzielenie się danymi o sobie pozwala firmom dostarczać lepszą ofertę, czyli jest w naszym interesie. Jak pani na to patrzy?

Wydaje mi się, że to wszystko zależy od relacji, jaką chcemy zbudować z danym usługodawcą. Jeżeli nie chcemy, by ta relacja trwała, to rzeczywiście nie warto się dzielić danymi, natomiast, tak jak w przypadku banku, jeśli łączy nas trwała, pozytywna relacja, ma to sens. My jako bank chcielibyśmy, żeby klienci otrzymywali ofertę pasującą do ich potrzeb i preferencji, a nie losową reklamę. Jeżeli nie chcemy bankowi nic mówić na swój temat, po prostu trafi do nas więcej masowej komunikacji, która nas raczej nie zainteresuje.

Ostatnio mówi się często, że przyrost danych, który i tak jest znaczny, jeszcze przyśpieszy i że dzisiejsze metody analityczne za chwilę mogą być nieefektywne. Mówi się, że jest potrzebne nowe podejście do data science.

W banku radzimy sobie z aktualnym wolumenem danych. W tej chwili dysponujemy odpowiednimi strukturami baz danych i przetwarzamy je do postaci dla nas użytecznych, a zatem zagregowanych do poziomu klienta. Korzystamy ze wsparcia zespołu hurtowni danych, który dba o ich jakość oraz zapewnia niezbędny stopień przetworzenia z poziomu danych surowych spływających wprost z systemów bankowych. Opierając się na danych przetworzonych i ustrukturyzowanych oraz dzięki zastosowaniu metod uczenia maszynowego, odkrywamy zależności, które są nieoczywiste lub niewykrywalne tradycyjnymi metodami statystycznymi. By przeanalizować setki zmiennych, które mamy do dyspozycji, obserwowanych nie tylko przekrojowo, ale i w czasie, musimy sięgać do metod wspomaganych maszynowo. Pomagają nam one zredukować ten wymiar, zachowując jednocześnie moc predykcyjną. Trochę inaczej może być w przypadku platform społecznościowych, gdzie interakcji jest więcej, lub gdy będziemy prognozować w trybie real time, gdzie potrzebne będą dane z bieżących, spływających z wysoką częstotliwością zdarzeń – tam może pojawić się potrzeba nowego podejścia.

Na podstawie pani doświadczeń zawodowych w sferze państwowej i komercyjnej co instytucje i firmy robią źle w pracy z danymi?

Odpowiem tak – o dojrzałości organizacji w korzystaniu z danych świadczy oddzielenie zespołów odpowiedzialnych za raportowanie od zespołów analitycznych wykorzystujących data science. Chodzi o to, by osoby odpowiedzialne za data science nie zajmowały się codziennym raportowaniem. Na przykład u nas funkcjonuje specjalny departament raportowy, który zasila odpowiednie platformy na potrzeby biznesu do bieżącego monitorowania wskaźników. Natomiast mój zespół dopiero jako punkt wyjścia wykorzystuje to, co jest raportowane przez platformy Business Intelligence. Jesteśmy proszeni, żeby pogłębić badania określonych trendów, na przykład schodząc do poziomu homogenicznych grup klientów i dopiero wnioski płynące z takich pogłębionych analiz czy modeli pozwalają projektować pewne rozwiązania biznesowe.

Dlaczego raportowanie i analityka powinny być rozdzielone?

Dlatego że jedno i drugie pochłania bardzo dużo czasu, ale też wymaga nieco innych kompetencji i de facto realizuje inne cele. W zespole, w którym pracuję, staramy się odnaleźć w danych zależności i docelowo zamknąć je w model, by móc uogólnić   informacje na inne grupy o nieujawnionych dotąd charakterystykach interesującego nas zjawiska, czyli prognozować. Dla danego problemu analitycznego poszukujemy najbardziej adekwatnej metody, ale też walidujemy znane techniki i szukamy najlepszych. Jest to proces, który zajmuje sporo czasu, ale też wymaga kreatywnego podejścia. Chcemy by model najlepiej reagował na postawiony problem biznesowy. W komórkach raportowych natomiast przygotowywane są zestawienia, pozwalające śledzić na bieżąco rozwój biznesu, analizować trendy, konwersje. To zatem różne specjalizacje i najefektywniej jest prowadzić je osobno, w rozdzielonych zespołach.

Dowódcy sił zbrojnych są zgodni, że w erze wyścigu zbrojeń wygrywa ten, kto ma lepiej opanowane techniki wykorzystania sztucznej inteligencji, a także potrafi szybko i trafnie wyciągać wnioski z analizowanych danych. Ważną rolę w obronności państwowej odgrywa też umiejętność odparcia ataków skierowanych na infrastrukturę cyfrową.

Myli się ten, kto uważa, że zaawansowana analityka danych to wyłączna domena biznesu czy administracji publicznej. Najłatwiej nam dostrzec efekty jej wykorzystania w tych sektorach, ponieważ korzystamy z towarów i usług przez nie wyprodukowanych. A co z obszarami, o których na co dzień nie myślimy? Jednym z nich jest obronność państwa i instytucje, które dbają o to, aby przeciwdziałać potencjalnym zagrożeniom zewnętrznym i zwiększać poczucie bezpieczeństwa obywateli. W tym celu sektor od lat sięga po wiedzę data scientistów, rozwijając z ich pomocą technologie nie tylko do walki z cyberprzestępstwami.

Nie muskuły, a (sztuczna) inteligencja

Obecny kształt systemu obronnego, a także sposób prowadzenia działań zbrojnych w coraz mniejszym stopniu polegają na sile fizycznej. Dzisiejsze wojsko i służby wywiadowcze to miejsca, gdzie na równi z żołnierzami służbę pełnią również inżynierowie machine learning, analitycy czy architekci danych. Są potrzebni, aby nadać sens danym, które są pozyskiwane z różnych kanałów – np. internetu, satelitów i urządzeń telekomunikacyjnych – zarówno w skali lokalnej, jak i globalnej. Dostarczane przez nich rekomendacje pomagają lepiej rozumieć zachowanie ruchów antypaństwowych, przewidywać potencjalne ataki terrorystyczne, a nawet minimalizować liczbę poniesionych ofiar w wyniku operacji wojennych.

Gdzie zatem data scientist sprawdza się najbardziej, gdy chodzi o zapewnienie bezpieczeństwa zewnętrznego państwa?

Analitycy jako „oczy i uszy” żołnierzy i agentów

Możliwości zaawansowanych czujników, które wykorzystują drony zwiadowcze i aparaty połączonych ze sobą telefonów, mają prawie nieograniczone możliwości w dostarczaniu informacji na temat ruchu interesującego nas obiektu lub sytuacji w określonym terenie. Problemem jest znalezienie wykwalifikowanych specjalistów, którzy mogliby umiejętnie wykorzystać dane pozyskiwane z tych systemów.

Dlatego tak istotne staje się wykorzystanie rozwiązań opartych na uczeniu maszynowym. Dzięki nim specjaliści mogą przefiltrować strumienie danych i zidentyfikować potencjalnie niebezpieczne cele. Z kolei największą trudnością, której doświadczają specjaliści data science zatrudnieni w służbach, jest celowe zakłócanie procesu gromadzenia danych oraz ich fałszowanie przez przeciwnika. W tej chwili czołowe ośrodki badawcze przy siłach zbrojnych opracowują algorytmy, które mają skutecznie rozpoznawać tego typu działania.

Niebagatelne znaczenie w rozwoju technologii zwiadowczych ma Internet Rzeczy (ang. Internet of Things). Przykładowo wraz z pojawieniem się IoT pojazdy wojskowe i broń zyskały wbudowaną inteligencję i zdolności łączenia się w jedną sieć, przesyłając dane zarówno między sobą, jak i do rozproszonych bądź scentralizowanych baz danych. Monitorować działania przeciwnika w terenie pomagają także cywilne źródła: kamery miejskie, sieci komórkowe i bazy rejestrów publicznych. Kluczowym wyzwaniem w tym obszarze pozostaje połączenie automatycznego wykrywania zagrożeń z szybką i dokładną interpretacją przesyłanych danych, której dokonuje data scientist.

Natychmiastowe przesyłanie informacji wciąż wyzwaniem

Gromadzenie i ocena użyteczności danych z urządzeń to dopiero połowa sukcesu. Równie ważne jest dostarczenie w odpowiednim czasie insightów do żołnierzy i agentów działających w terenie. Trudności z podłączeniem jednostek do sieci zewnętrznych dostawców usług bledną w porównaniu ze złożonością szybkiego przesyłania między nimi danych w sytuacjach podwyższonego ryzyka.

Dlatego data science w obronności przykłada coraz większą wagę do projektowania systemów, które w czasie rzeczywistym będą w stanie przekształcać strumienie danych w wartościowe informacje. Celem tego jest doprowadzenie do poprawy świadomości sytuacyjnej osób bezpośrednio zaangażowanych w operacje specjalne.

Lepiej, gdy swoi „zaatakują” testowo

W dyskusji o bezpieczeństwie nie sposób pominąć cyberprzestrzeni. W świecie zdominowanym przez big data kluczowa dla zapewnienia stabilności funkcjonowania instytucji państwowych jest bowiem infrastruktura cyfrowa. Do jednego z najważniejszych zadań uczenia maszynowego, czyli najczęściej stosowanej w tym obszarze technologii, należy wykrywanie anomalii. Sęk w tym, że kod użyty do ataków hakerskich różni się od standardów, według których tworzy się ten „niegroźny”. Specjaliści w resortach obrony stale czuwają nad rozwojem takich modeli.

Kolejnym przykładem wykorzystania data science do wzmocnienia zasobów zapobiegających cyberprzestępczości są testy penetracyjne, albo inaczej pentesty. To symulowane ataki hakerskie na systemy informatyczne instytucji, a nawet całych państw. Rozwój narzędzi automatyzujących procesy oraz sposób, w jaki algorytmy machine learning się uczą, sprawia, że nie ma lepszego sposobu na odparcie potencjalnych zagrożeń, niż przetestowanie i dostosowanie bezpieczników chroniących całe struktury danych.

– W biznesie przetwarza się zbiory danych przy użyciu technik machine learning i kiedy uzyskuje się dobry efekt, coś na podstawie tej analizy powstaje. Natomiast w nauce ważny jest nie tylko ciekawy rezultat analizy – musimy zrozumieć, z czego to wynika. Potrzebujemy zwrotnej interpretacji danych, żebyśmy potrafili dać zrozumiałą diagnozę konkretnej sytuacji, w jakiej jest człowiek – zaznacza psychoterapeuta, prof. Mateusz Gola, w którego pracy badawczej data science stanowi podstawowe narzędzie.

Mateusz Gola to specjalista w zakresie neuronauki, uzależnień behawioralnych i zmiany nawyków. Zajmuje się m.in. uzależnieniami od pornografii, zachowań seksualnych, gier komputerowych i hazardu. Pracuje na stanowisku profesora w Instytucie Psychologii Polskiej Akademii Nauk, a także w Institute for Neural Computation na Uniwersytecie Kalifornijskim w San Diego. Założył firmę PredictWatch, która rozwija technologie pomagające uzależnionym w utrzymaniu abstynencji i przewidywaniu ryzyka nawrotów. W ramach tej działalności powstała aplikacja Nałogometr, zbierająca równocześnie dane do Ogólnopolskiego Badania Nałogów.

Co to znaczy, że dane są dobre jakościowo?

Z mojej perspektywy, jako naukowca, oznacza to przede wszystkim, że są rzetelnie zebrane – czyli znamy ich pochodzenie, wiemy, czego dotyczą oraz jesteśmy pewni, że w procesie zbierania nie zostały zniekształcone. Muszą odzwierciedlać zjawiska, które chcemy analizować. Ważne, żeby były spójne, a więc zebrane od wszystkich uczestników w ustandaryzowany sposób. I najlepiej, aby były pozbawione większych braków. Luki w zbiorach danych to częsty problem w badaniach psychologicznych.

A jak to wygląda w praktyce, kiedy gromadzicie dane do Ogólnopolskiego Badania Nałogów?

W naszym przypadku chodzi o kilka kategorii informacji. Np. dane, które zbieramy z MONAR-em są mocno homogeniczne. Mamy do czynienia z osobami, które korzystają z pomocy w ośrodkach terapii uzależnień, zatem wiemy, co się z nimi dzieje, kiedy rozpoczęły terapię i w którym momencie ją kończą, jak zostały zdiagnozowane przez psychiatrów. Dodatkowo, takie osoby mają nie tylko aplikację, która zadaje pytanie kilka razy dziennie, ale też smartwatche i active trackery, dzięki którym możemy zbierać informacje o aktywności fizycznej, czy jakości snu z dużą częstotliwością – w każdej minucie.

W jaki sposób dbacie o jakość danych, poza zbieraniem ich systematycznie i szeroko?

Robimy to na kilku etapach. Pierwszym jest projektowanie procesu badawczego i tutaj uwzględniamy modele teoretyczne, czyli określamy, jakiego rodzaju dane mają największe znaczenie opierając się na wynikach wcześniejszych badań. Następny etap wiąże się już ze zbieraniem informacji, zachęcamy użytkowników, żeby podawali nam ich określoną ilość w konkretnym czasie.

Na przykład w Nałogometrze jest ważne, żeby trzy razy dziennie odpowiedzieć na przypomnienia i mikroankiety. Jeżeli użytkownik nie zrobi tego z właściwą częstotliwością, nie będzie mógł dostać prognozy dla siebie. W kolejnym kroku, czyli podczas analizy, patrzymy bardzo dokładnie na charakterystykę konkretnych użytkowników i grup użytkowników. Zanim przejdziemy do właściwej analizy, staramy się zrozumieć strukturę danych, ich pochodzenie i grupy. Zadbanie o jakość zgromadzonych informacji i ich odpowiedni pre-preocessing jest bardzo ważne.

Moje doświadczenie biznesowe pokazuje, że w komercyjnej analityce to podejście jest mniej restrykcyjne niż w badaniach naukowych. Sprawdza się strukturę bazy danych, ale nie wnika się w sposób ich zbierania czy pochodzenie. Często korzysta się z różnych narzędzi, np. machine learning. Dzięki temu przetwarzamy zbiory danych i kiedy powstaje dobry efekt, to coś tworzy się na jego podstawie. A dla nas ma znaczenie nie tylko to, żebyśmy mieli ciekawe rezultaty analizy, mogli coś przewidzieć, my chcemy też zrozumieć, z czego te przewidywania wynikają. Zależy nam na zwrotnej interpretacji danych, a więc nie na samym oszacowaniu ryzyka nawrotu nałogu, ale na określeniu, z czego on wynika, żeby dać użytkownikowi zrozumiałą diagnozę jego sytuacji.

Jak data science poszerza możliwości radzenia sobie z nałogami? Co dodaje do tradycyjnych metod?

Nowoczesna psychiatria i psychologia kliniczna starają się lepiej wyodrębnić podtypy osób doświadczających danego problemu. Podam przykład uzależnienia od alkoholu. Tradycyjna psychiatria uzna, że ktoś jest uzależniony od alkoholu jeśli wpełni listę symptomów związanych z tym problemem. Ktoś dostaje taką diagnozę i może w ramach systemu ubezpieczeń skorzystać z terapii. Problem w tym, że trwałość efektów takiej terapii wynosi średnio poniżej 25%. Trzy na cztery osoby z uzależnieniem od alkoholu w rok po zakończeniu terapii wróci do nałogu. Dlaczego tak się dzieje?

Jednym z powodów jest to, że uzależnienie może mieć bardzo różnorodne obrazy kliniczne i funkcje. Owszem, wszyscy spełniają te same kryteria diagnostyczne, ale jak spojrzymy na bogatsze i większe zbiory danych, to widać w nich, że dla części osób uzależnionych od alkoholu jest to np. sposób na radzenie sobie z napięciem, a dla innych sposób na dostarczenie sobie większej stymulacji. Każda z tych podgrup ma inne mechanizmy mózgowe, na które trzeba zadziałać w terapii, aby była skuteczna. W nowoczesnej psychiatrii stosuje się podejście, w którym staramy się zebrać jak najwięcej danych i nie przejmować się etykietami wynikającymi z systemów diagnostycznych. Próbujemy podejść od strony data driven, tzn. patrzymy, co nam wychodzi z klastrowania danych i jak możemy podzielić zaburzenia na różne podkategorie.

I w czym to pomaga?

Tradycyjne podejście psychiatryczne polegające tylko na diagnozie objawowej nie  przewiduje, czy ktoś skorzysta z danego typu terapii, lub jak szybko będzie miał nawrót zaburzenia. Nawet nie daje wskazówek, żeby wybrać, jaki sposób terapii i leczenia będzie dla danej osoby najwłaściwszy. I tu poza wyodrębnieniem podtypów osób z uzależnieniem i możliwością ustalenia do jakiej grupy należy dana osoba, pojawia się drugie zastosowanie data science. Dzięki analizie danych możemy również zaproponować najbardziej efektywną formę pomocy.

W przypadku uzależnień od nikotyny jest kilka bardzo ciekawych projektów opartych o big data. Da się np. szybko, w oparciu o analizę informacji, zdecydować, czy dla kogoś lepsza będzie terapia indywidualna, grupowa czy plastry antynikotynowe czy np. digital therapeutics. To jest też coś, co próbujemy zrobić w PredictWatch w kontekście uzależnień behawioralnych i uzależnień od substancji. Na podstawie sprofilowania danej osoby możemy przewidzieć ryzyko nawrotu – i właśnie w aktualnej edycji Ogólnopolskiego Badania Nałogów zbieramy dane, dzięki którym staramy się oszacować, jakie interwencje będą najbardziej skuteczne dla danych osób w konkretnej sytuacji.

Jak pan profesor ocenia potencjał Ogólnopolskiego Badania Nałogów i Nałogometru do realnego wpływu na skalę problemu w Polsce? Np. w odniesieniu do choroby alkoholowej.

To, co robimy, nie zmniejszy raczej odsetka osób uzależnionych od alkoholu, ale pomoże uzależnionym lepiej radzić sobie z trudnościami. Lata pokazują, że alkoholizm utrzymuje się na dość stabilnym poziomie. Wyjątkiem był okres pandemii, np. w Stanach Zjednoczonych o 20% wzrosła liczba osób sięgających systematycznie po alkohol. Rolą naszej technologii jest wspomaganie osób, które wychodzą z nałogu, tak aby zmniejszyć ryzyko nawrotu. Liczymy, że w przypadku alkoholu nasza technologia sprawi, że wzrośnie liczba osób, które skutecznie wyjdą z nałogu.

Ale działania w miękkich zakresach nie wpłyną na generalne statystyki?

Mogą, ale tylko w niektórych obszarach. Przykładowo, jeśli chodzi o alkohol, metaamfetaminę czy inne stymulanty, nie miałbym złudzeń, że będziemy w stanie zaoferować skuteczną profilaktykę. Tutaj celujemy w zwiększenie efektów terapii. Większe szanse widzę w odniesieniu do uzależnień behawioralnych czy substancji takich jak marihuana, które nie powodują tak silnego uzależnienia fizjologicznego.

Mamy teraz do czynienia z legalizacją marihuany w coraz większej liczbie państw, w konsekwencji wiele osób będzie sięgało po nią po raz pierwszy lub po raz pierwszy zacznie używać jej regularnie. Rolę digital therapeutics widzę we wsparciu nie tylko osób, które już weszły w problematyczny wzorzec korzystania, ale takich, które zamierzają robić to okazjonalnie, a chciałyby zadbać o swoje bezpieczeństwo. W ten sposób będziemy mogli zapobiegać wchodzeniu w problematyczne wzorce lub uzależnienia i odpowiednio wcześnie o nich ostrzegać. Tak może być w przypadku wspomnianej marihuany, ale też gamingu.

Od 2022 roku Światowa Organizacja Zdrowia uwzględnia uzależnienie od gier komputerowych. Gaming disorder jest bardzo szerokim zjawiskiem, gra ponad 90% nastolatków, a 6-14% ocenia, że stanowi to dla nich problem, który utrudnia codzienne funkcjonowanie. I w tym przypadku widzę szansę wpływania na globalne statystyki. Tym bardziej, że wkrótce uruchomimy specjalne wersje aplikacji zaprojektowane pod kątem marihuany oraz gier. Rozpowszechnimy wersje anglojęzyczne, zatem pojawi się możliwość szerszego oddziaływania. Aplikacja poświęcona marihuanie jest już w fazie produkcyjnej, musi przejść jeszcze testy i dostosowania kulturowe – zamierzamy opublikować ją w 2023 roku. Dalej będzie gaming, kompulsywne zachowania seksualne, pornografia, o kolejności jeszcze decydujemy.

Jakich narzędzi i technik używają państwo w pracy z danymi zbieranymi w ramach Ogólnopolskiego Badania Nałogów?

W naszych analizach stosujemy podejście hybrydowe. Z jednej strony korzystamy z klasycznej wielozmiennowej analizy regresji, która pozwala nam na analizy top down, oparte na wcześniejszej wiedzy naukowej, czyli jak poszczególne czynniki uzależnienia funkcjonują. Z drugiej strony korzystamy z dwunastu różnych metod machine learning (np. LSTM, random forest, SVM, LGBM, XGB). Niektóre z nich po odpowiedniej modyfikacji sprawdzają się lepiej w odniesieniu do konkretnych uzależnień i klastrów użytkowników, inne w odniesieniu do konkretnych typów danych.

Poszczególne metody machine learning dobieramy empirycznie do danej podgrupy i tworzymy algorytm, który może to robić automatycznie w miarę napływania nowych danych. Na potrzeby machine learning wyodrębniamy wiele cech naszych danych, poza uzyskaniem na ich podstawie predykcji zachowań ryzykownych staramy się też zwrotnie je zinterpretować, ponieważ  chcemy dawać użytkownikom informację, z czego wynika dotyczące ich ryzyko. Trudnością jest opisanie wniosków w sposób, który będzie zrozumiały dla użytkownika, metody machine learning nie dostarczają nam raportów w takiej postaci. Dlatego używamy różnych tool boxów, które umożliwiają przetłumaczenie efektu analizy big data na jasne rekomendacje.

To jest obszar, którym w PredictWatchu zajmuje się zespół AI/ML. Podobno szukacie nowej osoby na stanowisko data scientist.

Zgadza się, potrzebujemy wsparcia od października, bo wtedy skończy się zbieranie danych w ramach najnowszej edycji Ogólnopolskiego Badania Nałogów. Mamy już ponad 20 tys. użytkowników i chcemy w oparciu o dane, które nam udostępnili stworzyć nowe wersje modeli ryzyka, ale również opracować metodę skutecznego przewidywania – które interwencje będą dla danej osoby najbardziej pomocne.

Technologie są obszarem, który rozwija się szybko i w sposób trudno przewidywalny. Podobnie jest z dziedziną analityki danych. Eksperci uważają, że przyrost informacji jest tak duży, że zaraz będziemy potrzebowali nowych metod, nowych koncepcji i innego podejścia strukturalnego. Jak pan patrzy na przyszłość pracy z danymi?

Zgadzam się z tą oceną. Zarówno w naszym badaniu, jak i w tych, które prowadzą inni naukowcy, widać, że dane spływają tak szybko i w takich ilościach, że ciężko jest je na bieżąco integrować i analizować. Na pewno potrzebujemy ujednolicenia formatów zbierania i przetwarzania różnych danych oraz narzędzi do ich automatycznej lub przynajmniej półautomatycznej metaanalizy.

Ma pan na myśli standaryzację?

Tak, chodzi o standaryzację, a zatem o to, żeby można było bazy danych ze sobą integrować i analizować połączone zbiory za pomocą podobnych metod. Jeśli chodzi o badania neuronaukowe, takie standardy są powoli wypracowywane. Udało się to już zrobić w odniesieniu do badań mózgu z wykorzystaniem rezonansu magentycznego, natomiast w przypadku EEG – dopiero zaczynają powstawać takie formaty. Potrzebujemy nowych metod analizy danych, ale też nowych metod, które po zanalizowaniu będą pozwalały zwrotnie te wyniki zinterpretować i zrozumieć. To jest nadal duży problem – potrafimy za pomocą data science stworzyć prognozy, ale mamy kłopoty z określeniem, z czego zakładany scenariusz wynika. Mamy pięćdziesiąt tysięcy różnych cech, które dają nam jakąś predykcję. Tylko co one oznaczają? Jak je przedstawić zwrotnie użytkownikowi? Jak na ich podstawie zbudować modele zrozumiałe dla człowieka i postawić nowe hipotezy? To pozostaje dużym wyzwaniem w analityce big data.

Eksploracyjna analiza danych i wykrywanie anomalii, techniki wydobywania wiedzy z danych, procesy przetwarzania języka naturalnego i wskazówki do rozmowy kwalifikacyjnej. O tym przeczytacie nie tylko na Reddit czy innych stronach skupiających miłośników data science. Na rynku wydawniczym nie brakuje bowiem publikacji, które pomogą odnaleźć się w gąszczu narzędzi i dobrych praktyk data science.

W rzeczywistości postępującego rozwoju narzędzi cyfrowych i kompetencji niezbędnych do pracy w data science może się wydawać, że wiedza książkowa o i dla branży technologicznej szybko się dezaktualizuje. Owszem, popularne dziś frameworki do pracy z aplikacjami nie wyglądają tak jak kiedyś, a od liczby dostępnych na rynku platform zaczyna się kręcić w głowie. Faktycznie trendy w tych obszarach przemijają, jednak jedno pozostaje niezmienne – fundamenty pracy z danymi, które do realiów rynku dostosowują zarówno te starsze, jak i nowsze publikacje. Przedstawiamy Wam 7 książek o data science, które są najpopularniejsze wśród użytkowników Amazon.com.

1. Ace the data science interview: 201 Real Interview Questions Asked By FAANG, Tech Startups, & Wall Street

To przewodnik nie tylko dla osób już pracujących w data science i szukających ścieżek awansu, ale także dla adeptów zawodu i tych, którzy myślą o zmianie branży. Autorami są Kevin Huo i Nick Singh – dwaj byli pracownicy Facebooka, którzy w jednym miejscu zebrali ponad 200 realnych pytań z rozmów rekrutacyjnych na stanowiska związane z data science, analityką danych i machine learning. Huo i Singh przekonują, że książka przybliży kandydata do zdobycia wymarzonej pracy w strukturach tzw. FAANG (Facebook, Apple, Amazon, Netflix i Google), startupów technologicznych i gigantów rynku finansowego z Wall Street.

Szczegóły tutaj.

2. SQL QuickStart Guide: The Simplified Beginner’s Guide to Managing, Analyzing, and Manipulating Data With SQL

Rosnąca rola big data we współczesnym świecie oznacza, że bardziej niż kiedykolwiek odczuwamy palącą potrzebę magazynowania, dostępu i zrozumienia zawartości ogromnych baz danych. Tu z pomocą przychodzi SQL – podstawa nowoczesnego zarządzania i interpretacji danych. Dlatego Walter Shields kieruje książkę przede wszystkim do początkujących. Autor zaznacza, że język ten wciąż pozostaje najszerzej stosowanym i najbardziej niezawodnym, gdy chodzi o zarządzanie bazami danych.

„SQL QuickStart Guide” przybliża podstawową strukturę baz danych, sposoby wykorzystania SQL do lepszego rozumienia danych bez względu na skalę, a także kluczowe umiejętności, które pomogą opanować ten język. Atutem publikacji jest poziom przekazywanej wiedzy – jest ona bowiem wykorzystywana na akademickim szczeblu edukacyjnym, a jednocześnie pozostaje przystępna w zrozumieniu dla osób wciąż niewtajemniczonych w świat data science.

Szczegóły tutaj.

3. Data Science from Scratch: First principles with Python

Nauczenie się data science to nie tylko opanowanie narzędzi – bibliotek, frameworków i modułów. Ważne jest zrozumienie zasad będących fundamentami dziedziny. Dlatego Joel Grus łączy podstawy matematyki i programowania, uczenia maszynowego i przetwarzania języka naturalnego, żeby kompleksowo pokazać data science od środka.

Z książki dowiesz się o wykorzystaniu algebry liniowej, statystyki i koncepcji prawdopodobieństwa, pracy inżyniera danych od A do Z, implementowaniu modeli i sieci neuronowych, a także działaniu popularnych systemów rekomendacji i tych służących do przetwarzania języka naturalnego.

Szczegóły tutaj.

4. Practical Statistics for Data Scientists: 50+ Essential Concepts Using R and Python

Skoro o statystyce mowa, to chcemy przytoczyć zdanie Petera i Andrewa Bruce’ów oraz Petera Gedecka, autorów tytułowej książki: „metody statystyczne są kluczowym elementem w data science, mimo że niewielu data scientistów ma wykształcenie kierunkowe z tego obszaru”. Dlatego trzej eksperci wydali przewodnik, który dostarcza przykładów wykorzystania statystyki oraz pokazuje, jak można uniknąć mniej i bardziej popularnych błędów. Co ważne, cała wiedza jest przedstawiona z punktu widzenia data scientistów.

Odbiorcami publikacji są specjaliści, którzy już znają języki R lub Python, ale brakuje im perspektywy statystyków. Autorzy utrzymują, że czytelnik lepiej opanuje eksploracyjną analizę danych, metody regresji do wykrywania anomalii, kluczowe techniki klasyfikacji i nienadzorowanego uczenia maszynowego.

Szczegóły tutaj.

5. Hands-on Machine Learning with Scikit-Learn, Keras & TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems

Drążymy głębiej i to dosłownie, bo ta książka traktuje o… deep learning. Aurélien Géron przekonuje, że wykorzystanie wydajnych narzędzi do implementacji programów i aplikacji jest dziś proste jak nigdy. Autor wykorzystuje konkretne przykłady i dwa gotowe frameworki na bazie Pythona – Scikit i TensorFlow – do zobrazowania koncepcji i rozwiązań do budowania uczących się systemów.

Z publikacji można się dowiedzieć, jak zwykła regresja liniowa i głębokie sieci neuronowe sprawdzają się w uczeniu maszynowym. Publikacja obfituje w ćwiczenia po każdym rozdziale, żeby lepiej utrwalić przyswojoną wiedzę. Wszystko, czego potrzeba na start, to minimum doświadczenia w pracy z kodem.

Szczegóły tutaj.

6. Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking

Napisana przez uznanych ekspertów w data science – Fostera Provosta i Toma Fawcetta. Książka ta wyposaża czytelnika w techniki i kompetencje, które są kluczowe do wydobycia użytecznej wiedzy z gromadzonych przez organizacje danych. Do zilustrowania korzyści z podejmowania decyzji opartych na faktach, autorzy wykorzystują przykłady rzeczywistych wyzwań biznesowych, z którymi się mierzyli albo oni sami, albo ich klienci.

„Data Science for Business” podpowiada również, jak usprawnić komunikację między klientami, kadrą zarządzającą a data scientistami. Wyjaśnia też, jak wdrożenie procesów data science pozwala uzyskać przewagę konkurencyjną i co zrobić, aby podejście analityczne i eksploracja danych dały najlepsze rezultaty w przedsiębiorstwie.

Szczegóły tutaj.

7. Data Science

Na zakończenie przedstawiamy książkę o jakże wymownym tytule! I choć została wydana dopiero cztery lata temu, to bardzo możliwe, że zyska miano jednej z publikacji ponadczasowych. Dlaczego tak myślimy? Spójrzmy na opis: „to zwięzłe wprowadzenie do wschodzącej dziedziny data science, które tłumaczy jej ewolucję, relację z machine learning, obecne możliwości zastosowania, kwestie infrastruktury danych oraz wyzwania etyczne i prawne”.

O randze publikacji świadczy również stojące za nią wydawnictwo, czyli MIT Press. Powierzyło ono Johnowi D. Kelleherowi i Brendanowi Tierneyowi opisanie m.in. kwestii integracji danych z wielu źródeł, stosowania algorytmów uczenia maszynowego, a także podejścia do zapewnienia prywatności w pracy z danymi.

Szczegóły tutaj.

– Proces real-time decisioning polega na zbudowaniu modelu opartego na pętli decyzyjnej. Ważna jest segmentacja, czyli podział klientów na kilka segmentów, aby można było spersonalizować obsługę. Do tego potrzebne są badania reprezentatywne, więc używamy zaawansowanych technik z zakresu analizy wielowymiarowej i uczenia maszynowego nienadzorowanego – o kulisach pracy analityka w branży badań marketingowych mówi Radosław Puakowski, wykładowca kierunku Data Science w Collegium da Vinci w Poznaniu.

Radosław Puakowski jest absolwentem ekonometrii ze statystyką na Uniwersytecie Gdańskim. Od dwudziestu lat pracuje jako analityk danych w agencjach badań marketingowych i konsumenckich. Wykłada również na kierunku Data Science w Collegium da Vinci w Poznaniu. Doświadczony menedżer zespołu przetwarzania danych – na koncie ma setki zrealizowanych projektów. Zainteresowania zawodowe koncentruje na analityce i programowaniu ze szczególnym uwzględnieniem zastosowań analizy conjoint. W zarządzaniu zespołem wykorzystuje techniki scrum i kanban.

Nie od dzisiaj wiemy, że firmy stosują coraz bardziej zaawansowane narzędzia analityczne do zrozumienia potrzeb, ale też lepszego poznania swoich klientów. Czy dzięki data science możemy zajrzeć do umysłów naszych klientów?

Całe swoje zawodowe życie poświęciłem badaniom konsumenckim. Kiedy zaczynałem pracę 20 lat temu, to było jeszcze tzw. badanie rynku i opinii publicznej. W agencji badawczej, w której pracowałem, mieliśmy dział realizacji takich badań. Co ciekawe, do dyspozycji były w zasadzie dwie metody. Pierwsza to face-to-face, zwaną też metodą PAPI (ang. Paper and Pencil Interview). Polegała ona na tym, że ankieter szedł do konsumenta albo do niego dzwonił z call center. I to właściwie było wszystko, co można było w tym momencie zrobić. Drugą opcją były ankiety pocztowe albo samospisy, ale te rozwiązania wykorzystywano w mniejszym stopniu.

Natomiast teraz mamy prawdziwą rewolucję, która nie miałaby miejsca, gdyby nie rozwój internetu i wszystkich metod zbierania danych z nim związanych. Bardzo popularną metodą dziś jest CAPI (ang. Computer-Assisted Personal Interviewing). Przy czym najczęściej wykorzystywane są urządzenia mobilne – za pomocą telefonu lub tabletu respondent sam wypełnia formularz, ewentualnie odpowiada bezpośrednio w przeglądarce internetowej.

Co przyniosła taka zmiana?

Dla badań marketingowych – ogromne możliwości. Kiedyś forma kwestionariusza musiała być z góry ustalona, jak również cała struktura i wszystkie pytania. Właściwie rolę algorytmu pełnił ankieter. To on był odpowiedzialny za to, kiedy i które pytania zada, a które są mniej skuteczne czy potrzebne. W tym momencie możemy to wszystko zaprogramować.

A w jakim kierunku idą badania marketingowe? Czy możemy już mówić o etapie przyspieszenia procesu decyzyjnego?

Zdecydowanie tak. Proces data collection, który kiedyś był wyraźnie podzielony na zbieranie, kodowanie, a potem analizę danych, teraz został skompresowany. Kiedyś analityk musiał dokonać ekstrakcji danych, później ich transformacji, obliczeń i tabularyzacji wyników. W tej chwili właściwie wszystko może się odbywać w ramach jednego rozwiązania. System zbiera informacje, a pętla decyzyjna ulega skróceniu.

Z mojej perspektywy coraz więcej czasu i uwagi firmy poświęcają dzisiaj procesom, które umownie nazywamy tzw. blackboxem. Oznacza to, że tworzymy przysłowiową skrzynkę, do której wpadają dane. Zbieramy je na różne sposoby i mamy dane wsadowe, albo inaczej wejściowe. I naszym zadaniem jest, aby tego tę czarną skrzynkę urządzić przy pomocy narzędzi, które znamy – czy to będą pakiety statystyczne, czy obecnie szeroko rozpowszechnione narzędzia, jakimi są języki R lub Python. Te ostatnie zresztą idealnie nadają się do programowania analiz.

Natomiast klasyczna analityka, gdzie specjalista wyciągał dane, a następnie je udostępniał do dalszych analiz, trochę się wyczerpuje. Dziś kluczem jest system, który pozwoli specjalistom data science obsłużyć narzędzie do zbierania danych, zaprogramować bazę i stworzyć narzędzie obliczania. Te informacje trafią bezpośrednio do interesariusza, decydenta czy klienta już w sposób zagregowany. I będzie to miało znaczący wpływ na proces decyzyjny w firmie.

Jakich narzędzi używa się, aby ten proces decyzyjny przyspieszyć?

Jednym z najczęściej wykorzystywanych przeze mnie jest analiza conjoint. Dzięki niej proces zbierania danych, konfiguracji produktu czy analiz cenowych można bardzo skutecznie optymalizować. To też główny obszar moich zainteresowań zawodowych.

Mógłby Pan opisać analizę conjoint od kuchni?

W tym przypadku mierzymy się z dwoma kluczowymi wyzwaniami. Po pierwsze, pozyskiwanie danych w sposób komercyjny, w postaci badań marketingowych, zawsze będzie skuteczne, choć dużo droższe. Mamy do dyspozycji cały wachlarz narzędzi do obserwacji konsumenta czy użytkownika. Z drugiej strony jest skuteczność, którą mierzylibyśmy w sposób rynkowy. Przykładowo jest bardzo dużo analiz cenowych, którymi się zajmowałem, ale najbardziej zaawansowana, którą znam, to właśnie wspomniana analiza conjoint.

Jeśli wypuszczamy nowy produkt na rynek, to chcielibyśmy go skonfigurować, określić niszę i parametry, które powinien spełniać. Musimy też jasno zdefiniować jego cenę i oszacować popyt, na który rzeczywiście możemy liczyć. Konkretnych odpowiedzi na te pytania dostarcza właśnie analiza conjoint, czyli łączny pomiar preferencji.

W zasadzie do naszego celu mamy dwa podejścia. Jedno z nich, bardziej klasyczne, to podejście kompozycyjne. Mając swój zdefiniowany produkt, określamy jakieś cechy i warianty tych cech, które możemy zmierzyć. Choćby za pomocą skali Likerta. Uzyskamy w ten sposób zestaw niezależnych od siebie odpowiedzi. Na ich podstawie możemy modelować preferencje. Niestety nie ma tutaj ujęcia całościowego, w związku z czym później powstało ujęcie odwrotne, zwane dekompozycyjnym.

Zakłada ono, że konfigurujemy i przedstawiamy konsumentowi cały koszyk cech. Powstaje produkt o określonych parametrach, a konsument odpowiada, czy by go kupił, czy też nie. Analiza conjoint pozwala poprzez różnorodne, techniczne parametry modyfikować zakres zastosowań. Przy pomocy aparatu statystycznego, analizy regresji czy analizy bayesowskiej dokonujemy dekompozycji tych wyborów i rozkładamy na poszczególne czynniki.

Czy tego typu analizy pozwalają firmom czytać w myślach klientów?

Mam wrażenie, że to jest bardziej czytanie w zamiarach – pomiar preferencji, odczytywanie intencji i symulacja przyszłej sytuacji zakupowej. Dzięki temu nasz klient może zdefiniować swoją strategię. I odpowiedzieć na pytanie, czego właściwie chce: zająć jakiś pewien segment rynku i optymalizować zysk, a może zdobyć rynek i poszerzyć niszę. Wszystko zależy od celu i strategii firmy, dlatego analizy, takie jak conjoint, nadal są rozwijane. Pojawiają się tu nawet rozwiązania coraz lepiej symulujące decyzje zakupowe, takiej jak np. virtual shelf . Natomiast osoba, która kiedyś te dane wyciągnęła, przekształciła, policzyła i dostarczyła, z analityka danych ”awansowała” na pozycję data scientist.

Jakie umiejętności taki data scientist powinien posiadać?

Z pewnością te w zakresie programowania. Myślę, że stało się ono ważniejsze dla osób pracujących z danymi. Potrzebna jest znajomość już bardziej wyrafinowanych technik analizy wielowymiarowej i uczenia maszynowego. Jeżeli w odpowiedni sposób ustawimy sobie system i wykorzystamy techniki uczenia maszynowego, zbudujemy do tego sieci neuronowe, to stworzymy system, który będzie cały czas zbierał dane i się uczył.

Natomiast dziś korzystamy z tak ogromnej liczby źródeł, gdy chodzi o zarządzanie danymi dotyczącymi zachowań konsumentów…

Tak, to prawda. Poza danymi analizowanymi już wcześniej, wśród kanałów pozyskiwania są media społecznościowe, wyszukiwarki, strony internetowe czy aktywność w aplikacjach mobilnych.To oczywiste, że w takiej sytuacji może pojawić się tzw. szum ze względu na brak pełnej informacji o działaniach konsumenta. Da się go jednak odfiltrować i prawidłowo odczytać. Można korzystać z narzędzi typu data lake. Dzięki nim możemy „wlewać” sobie dowolne dane i łączyć na dowolne sposoby, aby odczytać więcej informacji. Mając do dyspozycji coraz lepsze komputery oraz metody badawcze, a także techniki uczenia maszynowego razem z sieciami neuronowymi, myślę, że będziemy rozwiązywać coraz bardziej złożone problemy.

Czy analiza danych marketingowych różni się w zależności od branży?

Od strony technicznej i w zakresie obszaru, jakim się zajmujemy, nie ma to znaczenia. Różnica może jednak wynikać z podejścia. Często słyszałem w swojej pracy, że analityk to osoba, która pracuje z danymi. I ja się z tym nie do końca zgadzam.

Analityk to osoba, która pracuje z osobami, które potrzebują danych. I skoro mam klientów z różnych branż, to staram się skoncentrować i zrozumieć ich potrzeby. Możemy mieć wiele ciekawych projektów badawczych z zakresu data science czy uczenia maszynowego, ale one muszą do czegoś prowadzić. Jeżeli źle określimy cel biznesowy, nie zrozumiemy klienta lub jego branży do końca, to wykonamy swoją pracę na darmo.

Ale mimo wszystko trudno być człowiekiem orkiestrą.

Zgadzam się. Właśnie dlatego tworzymy zespoły, gdzie pracują różnorodni specjaliści z wielu dziedzin – czy to będą analitycy danych, czy analitycy biznesowi, specjaliści data science lub inżynierowie danych. Tylko tak jesteśmy w stanie przełożyć wartość techniczną na wartość biznesową. I oczywiście zespół musi ze sobą współpracować.

Przez długi czas byłem kierownikiem zespołu przetwarzania danych. Wówczas kluczowe były dla mnie techniki zarządzania danymi takie jak scrum i kanban. Są one dość specyficzne, wymagające bardzo elastycznego podejścia. W scrumie nie mamy właściwie już do czynienia z kierownikiem zespołu, lecz mamy scrum mastera i product ownera. Innymi słowy, inaczej rozkładają się role osób odpowiedzialnych za produkty.

Praca z różnymi klientami i problemami wymagała dużo elastyczności i scrum mi w tym pomógł. Pozwala osiągnąć taki poziom interakcji w zespole, aby móc szybko reagować na zmieniającą się rzeczywistość.

Jak wiele jest dziś data science w analizie danych marketingowych? Standard czy nadal innowacja?

Przechodzimy bardzo dużą rewolucję. Natomiast nie powiedziałbym, że wszyscy analitycy danych zajmujący się analizami marketingowymi korzystają z zaawansowanych metod, zespołów czy specjalistów.

Kiedy 20 lat temu zaczynałem pracę, to stanowisko, na które aplikowałem, nazywało się specjalista ds. analiz statystycznych. Mając za sobą tak dużo różnych ścieżek, poszedłem w stronę data science. Czyli specjalisty, który już posiada znajomość zagadnień z zakresu uczenia maszynowego, sieci neuronowych i sztucznej inteligencji, a w dodatku potrafi te procesy wspomagać.

Czy uważa Pan, że data science pozwoli zbudować trwały i bezpieczny most pomiędzy oczekiwaniami klienta a koniecznością maksymalizacji zysków ze strony firm?

Data science jest przede wszystkim nauką, która pozwala wygenerować pewną wartość. Na tej wartości można budować wspomniane połączenie. Jednak zarządzanie tym procesem zostawiłbym specjalistom od marketingu i sprzedaży, a nie data science.

Data science może natomiast dostarczyć amunicji do działu marketingu czy sprzedaży. Możemy zbudować systemy, które będą zbierały informacje, przetwarzały, a następnie przekładały na rekomendacje czy decyzje dla biznesu.

Biznes ma zaufanie do tych metod?

Czasem decydenci bardzo mocno oponują przed wprowadzaniem pewnych zmian, szczególnie jeśli dane marketingowe zebrane dzięki data science przeczą ich dotychczasowej polityce. Oczywiście są sytuacje, w których dokonujemy „odkrycia Ameryki” dla klienta i mówi on: „dokładnie tego potrzebowałem”. Częściej jednak musimy szukać porozumienia pomiędzy oczekiwaniami klienta a efektami naszych analiz.

Co istotne, personel agencji badawczych specjalizujących się w prezentacjach i relacjach z klientem zawsze próbuje zrozumieć drugą stronę i jeszcze głębiej przeanalizować problem. Profesjonalna firma staje po stronie klienta, rozumie jego zastrzeżenia i chce je wyjaśnić. To daje o wiele lepsze efekty niż twarde stawianie sprawy.

Dużo się mówi o tzw. real-time decisioning, czyli podejmowaniu decyzji na ścieżce zakupowej klienta w czasie rzeczywistym. Jak data science może pomóc w tym obszarze?

Takie efekty są możliwe i stosowane już dzisiaj. Wszystko polega na zbudowaniu modelu opartego na pętli decyzyjnej. Niezwykle ważną kwestią jest wtedy segmentacja, czyli podział klientów na rynku na kilka segmentów, aby można było spersonalizować obsługę. Do tego potrzebne są badania reprezentatywne, używamy więc zaawansowanych technik z zakresu analizy wielowymiarowej, uczenia maszynowego nienadzorowanego. Dochodzi do tego kwestia analiz skupień hierarchicznych.

Wszystkie te działania są oparte o pytania, czyli wymiary. Zazwyczaj ich liczba zredukowana jest do pięciu. Jeśli prawidłowo przeprowadziliśmy cały proces, to można z wysoką pewnością przypisać klienta do danego segmentu. To tak zwana metoda złotych pytań. Można ją wdrożyć w jakimkolwiek momencie – czy to w call center, algorytmie lub bocie, który będzie działał na stronie.

Jakiś przykład?

Na przykład gdy kupuję hulajnogę, to firmom jest bardzo łatwo proponować mi reklamy z osprzętem czy ubiorem dopasowanym do tej formy aktywności. Jako klient jestem od tego momentu cały czas „rozgrywany”, a mój popyt może być stale stymulowany. Chyba że sobie wyczyszczę ciasteczka w przeglądarce.

Natomiast system analizuje preferencje użytkownika za pomocą 5 pytań. Dzięki temu dowiaduje się, czy jest to klient bardziej tradycyjny w zakupie jakiegoś dobra, czy nie. Następnie pozycjonuje go w jednym z segmentów. W tym momencie możemy już w pełni personalizować ofertę, jak i komunikację. W procesie zakupowym metody real-time decisioning są dosyć proste do wykonania.

Jaka więc przyszłość czeka tę branżę?

Specjaliści nadal będą obecni na rynku, ale nawet dziś może ich brakować. Będą jednak musieli wykazywać się innymi kompetencjami niż dotychczas. Zbieranie i przetwarzanie danych będzie odbywało się w ramach systemu, nad którym pieczę będzie miał data scientist. On również będzie go rozbudowywał. Procesy zbierania informacji i dostarczania wyników będą szybsze, choć coraz bardziej skomplikowane. Mocniej będzie rozwijała się wielokanałowość, czyli zwiększy się liczba miejsc, w których będziemy zostawiać dane. Z drugiej strony, będziemy obserwowani na różne sposoby i stymulowani przez różne marketingowe rozwiązania.

Z kolei modele do analizy będą coraz bardziej wyrafinowane i tworzone za pomocą technik uczenia maszynowego. W analizie marketingowej kluczowe wydają się narzędzia big data, czyli zbierania i przetwarzania dużych zbiorów danych. To pozwoli na wyszczególnienie nowych segmentów i tworzenia strategii marketingowej. Kluczowa będzie w tym obszarze współpraca z interesariuszami, aby spełniać ich zróżnicowane potrzeby informacyjne.

Udostępnij link

https://www.datasciencerobie.pl/data-science-ma-wplyw-na-modele-procesow-decyzyjnych-k/