Uczenie maszynowe pozwala zobaczyć w danych nieoczywiste zależności
– Opierając się na danych przetworzonych i ustrukturyzowanych oraz dzięki zastosowaniu metod uczenia maszynowego, odkrywamy zależności, które są nieoczywiste lub niewykrywalne tradycyjnymi metodami statystycznymi. Żeby przeanalizować setki zmiennych, musimy sięgać po nowoczesne narzędzia – tłumaczy Paulina Parfieniuk, kierownik Zespołu Data Science w Getin Noble Banku.
Paulina Parfieniuk zajmuje się analityką i modelowaniem danych w bankowości. Prowadzi zespół odpowiedzialny za szeroko rozumianą analitykę klienta na potrzeby personalizacji komunikacji i oferty w celu budowy pozytywnych doświadczeń i wspierania zaangażowania klientów banku. Wcześniej pracowała w Kancelarii Premiera, koncentrując się na ilościowej ocenie skutków regulacji, wdrażanych w ramach polityki fiskalnej i ubezpieczeń społecznych. Studiowała ekonomię, informatykę i ekonometrię na Uniwersytecie Warszawskim.
Profesja data science pojawia się w wielu prognostycznych zestawieniach jako jeden z zawodów przyszłości. A jak zostaje się specjalistą data science, jaka była pani ścieżka?
Zaczęłam studia w czasach, kiedy jeszcze nie było mowy o data science. Raczej mówiło się o metodach ilościowych czy o ekonometrii. W ramach mojego kierunku wybrałam taką specjalizację i udało mi się potem podążać tą drogą zawodowo. Swoją karierę jako analityk zaczęłam zaraz po studiach – w administracji publicznej w niewielkiej, ale działającej prężnie komórce analitycznej w Kancelarii Premiera. Prowadziliśmy analizy ilościowe tak w ujęciu mikro, jak i makroekonomicznym dla celów polityki gospodarczej oraz na potrzeby ilościowej oceny skutków regulacji. Chodziło o sprawdzanie, w jakim stopniu i jakie grupy dotknie dana polityka oraz jaki to będzie miało skutek dla finansów publicznych. Budowaliśmy modele symulacyjne i optymalizacyjne do wyliczenia skutków w systemie podatkowym, ubezpieczeń społecznych czy też w sektorze energetycznym, gdzie wyznaczaliśmy najlepszy w sensie kosztowym miks energetyczny dla Polski.
Żeby być specjalistą w zakresie data science, trzeba skończyć matematykę albo inny pokrewny kierunek czy może rodzaj wykształcenia nie jest kluczowy, a liczy się bardziej profil intelektualny lub osobowościowy?
Data science to jest ściśle matematyka (statystyka, rachunek prawdopodobieństwa), ale użyta wprost do opisu świata i zjawisk z różnych dziedzin. W moim przypadku studia i solidne podstawy matematyczne pomogły mi zainteresować się tym tematem, chociaż to nie była stricte matematyka jako kierunek, tylko ekonomia. Niemniej, język matematyki musi być dla analityka danych zrozumiały. Data science, jako dziedzina pokazująca jak uczyć się z danych, wywodzi się tak naprawdę z potrzeby badania wpływu, mierzenia go, wyjaśniania przyczyn i współwystępowania zjawisk. Patrząc przez pryzmat ekonomii: może to dotyczyć jednostek (osób, klientów), albo wielkości agregatowych, jak np. PKB, sprzedaż, wpływy budżetowe. Uczyłam się klasycznych metod i takich, które obecnie przy wielkim wolumenie danych często już bywają nieadekwatne. Nadal jednak metody klasyczne mogą stanowić pewien punkt wyjścia, bo trochę programują myślenie na temat tego, jak w ogóle oceniać ilościowe związki między zmiennymi.
A jak wygląda bankowe data science? Jak wykorzystują państwo analitykę w praktyce?
To droga pomagająca lepiej poznać klienta, żeby dopasować usługi i produkty do jego indywidualnych potrzeb. Staramy się zrozumieć, na podstawie relacji z nim, jak funkcjonuje i jaki ma styl życia. Im lepiej uda nam się poznać klienta, tym lepiej dopasowaną propozycję produktu lub usługi otrzyma. Mając dane z różnych obszarów interakcji klienta z bankiem, możemy lepiej zrozumieć cele dla których klient jest w banku, a przy tym, jakie preferuje produkty, czym jest zainteresowany, jak chciałby być obsługiwany. Staramy się wspierać poszczególne kanały sprzedaży i komórki biznesowe w projektowaniu produktów i procesów komunikacji najlepiej dopasowanych do klienta na każdym etapie naszej relacji.
Jakie narzędzia i metody są tu przydatne?
Korzystamy z różnorodnych metod do budowy modeli predykcyjnych i segmentacyjnych. Zdarza się nam projektować rozwiązania autorskie, by jak najlepiej dostosować je do zagadnienia. Ważną kwestią jest swoboda i elastyczność programistyczna, jeśli chodzi o przetwarzanie danych w całym procesie modelowym: od zaprojektowania zbioru treningowego, po budowę modelu, walidację i uprodukcyjnienie. Szczególną rolę odgrywają narzędzia wizualizacyjne. Przy operowaniu na dużych zbiorach danych możliwość ich przedstawienia na wykresie daje poczucie kontroli, pozwala zauważyć i zdiagnozować problemy, które trzeba rozwiązać by móc pójść dalej.
Wśród klientów dość popularny jest pogląd, że nie powinno się udostępniać firmom swoich danych, bo staniemy się ofiarami agresywnego marketingu. Czasem nawet internauci wprowadzają fałszywe dane, żeby zmylić twórców profili. Jest też grupa, która uważa, że dzielenie się danymi o sobie pozwala firmom dostarczać lepszą ofertę, czyli jest w naszym interesie. Jak pani na to patrzy?
Wydaje mi się, że to wszystko zależy od relacji, jaką chcemy zbudować z danym usługodawcą. Jeżeli nie chcemy, by ta relacja trwała, to rzeczywiście nie warto się dzielić danymi, natomiast, tak jak w przypadku banku, jeśli łączy nas trwała, pozytywna relacja, ma to sens. My jako bank chcielibyśmy, żeby klienci otrzymywali ofertę pasującą do ich potrzeb i preferencji, a nie losową reklamę. Jeżeli nie chcemy bankowi nic mówić na swój temat, po prostu trafi do nas więcej masowej komunikacji, która nas raczej nie zainteresuje.
Ostatnio mówi się często, że przyrost danych, który i tak jest znaczny, jeszcze przyśpieszy i że dzisiejsze metody analityczne za chwilę mogą być nieefektywne. Mówi się, że jest potrzebne nowe podejście do data science.
W banku radzimy sobie z aktualnym wolumenem danych. W tej chwili dysponujemy odpowiednimi strukturami baz danych i przetwarzamy je do postaci dla nas użytecznych, a zatem zagregowanych do poziomu klienta. Korzystamy ze wsparcia zespołu hurtowni danych, który dba o ich jakość oraz zapewnia niezbędny stopień przetworzenia z poziomu danych surowych spływających wprost z systemów bankowych. Opierając się na danych przetworzonych i ustrukturyzowanych oraz dzięki zastosowaniu metod uczenia maszynowego, odkrywamy zależności, które są nieoczywiste lub niewykrywalne tradycyjnymi metodami statystycznymi. By przeanalizować setki zmiennych, które mamy do dyspozycji, obserwowanych nie tylko przekrojowo, ale i w czasie, musimy sięgać do metod wspomaganych maszynowo. Pomagają nam one zredukować ten wymiar, zachowując jednocześnie moc predykcyjną. Trochę inaczej może być w przypadku platform społecznościowych, gdzie interakcji jest więcej, lub gdy będziemy prognozować w trybie real time, gdzie potrzebne będą dane z bieżących, spływających z wysoką częstotliwością zdarzeń – tam może pojawić się potrzeba nowego podejścia.
Na podstawie pani doświadczeń zawodowych w sferze państwowej i komercyjnej – co instytucje i firmy robią źle w pracy z danymi?
Odpowiem tak – o dojrzałości organizacji w korzystaniu z danych świadczy oddzielenie zespołów odpowiedzialnych za raportowanie od zespołów analitycznych wykorzystujących data science. Chodzi o to, by osoby odpowiedzialne za data science nie zajmowały się codziennym raportowaniem. Na przykład u nas funkcjonuje specjalny departament raportowy, który zasila odpowiednie platformy na potrzeby biznesu do bieżącego monitorowania wskaźników. Natomiast mój zespół dopiero jako punkt wyjścia wykorzystuje to, co jest raportowane przez platformy Business Intelligence. Jesteśmy proszeni, żeby pogłębić badania określonych trendów, na przykład schodząc do poziomu homogenicznych grup klientów i dopiero wnioski płynące z takich pogłębionych analiz czy modeli pozwalają projektować pewne rozwiązania biznesowe.
Dlaczego raportowanie i analityka powinny być rozdzielone?
Dlatego że jedno i drugie pochłania bardzo dużo czasu, ale też wymaga nieco innych kompetencji i de facto realizuje inne cele. W zespole, w którym pracuję, staramy się odnaleźć w danych zależności i docelowo zamknąć je w model, by móc uogólnić informacje na inne grupy o nieujawnionych dotąd charakterystykach interesującego nas zjawiska, czyli prognozować. Dla danego problemu analitycznego poszukujemy najbardziej adekwatnej metody, ale też walidujemy znane techniki i szukamy najlepszych. Jest to proces, który zajmuje sporo czasu, ale też wymaga kreatywnego podejścia. Chcemy by model najlepiej reagował na postawiony problem biznesowy. W komórkach raportowych natomiast przygotowywane są zestawienia, pozwalające śledzić na bieżąco rozwój biznesu, analizować trendy, konwersje. To zatem różne specjalizacje i najefektywniej jest prowadzić je osobno, w rozdzielonych zespołach.