Data science robi się zespołowo. Dopiero połączenie wszystkich perspektyw pozwala zobaczyć całość
– Zabawa i praca z danymi jest trochę jak gra w windowsowego sapera. Przynosi frajdę wtedy, gdy poznasz zasady. To takie samonapędzanie się i motywacja, że gdzieś tam, za linijkami kodu czy obliczeń, czeka na nas nagroda.
Tak mówi Bartosz Jabłoński – z wykształcenia matematyk, z zawodu „przetwarzacz danych”, z pasji wykładowca akademicki. Na co dzień ekspert w dziale Anti-Money Laundering (AML) w Citibank Europe PLC. W pracy native speaker języka SAS. W sieci – potrójny SaSensei. Wie, że to dzięki ludziom, dla których praca z danymi jest pasją, możliwe jest uczenie wytrwałości i cierpliwości. To ci sami, którzy twierdzą też, że od rozwiązywania problemów nasz mózg jest gotowy się uzależnić.
Piszesz w opisie na swoim profilu w LinkedIn, że bawisz się danymi. Co to oznacza?
Amerykanie ukuli takie zabawne powiedzenie: „data wrangling”, czyli „żonglowanie danymi". Zabawa i praca z danymi za każdym razem może oznaczać co innego. Raz polega na przykład na wizualizacji, a innym razem na sprawdzaniu, czy dane, z którymi pracujemy, trzymają się w ryzach jakiejś statystyki. Czasem jest to testowanie lub optymalizacja wydajności fragmentu kodu przetwarzającego dane z postaci A do B. Każdorazowo jest to praca z liczbami albo tekstem, ale fakt – cały proces jest bardziej złożony od strony czysto technicznej.
Działka, w której pracuję, ten fragment AML, polega w pewnym stopniu na tym, że „przyglądamy się” systemowi do monitorowania transakcji bankowych. Ma on w sobie pewien zestaw podstawowych reguł i założeń. Na podstawie wpasowywania się w reguły wyłania się obraz potencjalnych oszustów. W dużym uproszczeniu: chodzi o wskazywanie zachowań, które pasują do wzorca. Fascynujące jest jednak to, że w naszym zespole pracują najróżniejsi specjaliści: od ekonomii przez statystykę czy prawo. Każdy z nas jest jak pojedynczy element lego. Każdy klocek ma inny kształt, a dopiero jak się je wszystkie złączy, to wychodzi cały model. Dopiero razem tworzymy coś, co można nazwać zespół „robiący data science”.
Czy można być fanem wybranego języka programowania – w takim samym znaczeniu jak być fanem Ewy Chodakowskiej, Gry o tron czy The Rolling Stones?
Oczywiście! Żeby to wyjaśnić, użyję analogii – na przykład sportowe Porsche Carrera 911. Cudowny samochód, marzenie niemal każdego fana motoryzacji. Gdybym miał wybierać, to chciałbym właśnie takie auto. Spełnia część moich potrzeb, ale oczywiście nie jest scyzorykiem szwajcarskim. Pewnie nie nadawałoby się do przewożenia mebli albo jazdy w terenie.
Podobnie jest w świecie analityki. Dobór narzędzia powinien być adekwatny do potrzeb. Ja akurat jestem zwolennikiem i entuzjastą rozwiązań SAS, bo łączą w sobie wszystkie funkcjonalności, które są niezbędne w mojej codziennej pracy. Nie można ich traktować jak wyroczni, ale pozwalają na wiele w dziedzinie przetwarzania, zarządzania, eksploracji i analizy danych. Do tego dochodzi bardzo prężna i otwarta społeczność skupiona wokół SAS. Języki programowania to narzędzia, a narzędzia należy kolekcjonować. Nie wyrzuca się kombinerek, bo kupiło się młotek, prawda? Zwłaszcza jak się te kombinerki lubi.
Jesteś koordynatorem PolSUG, czyli jednej ze społeczności, które zrzeszają inżynierów, analityków i programistów SAS. Jak bardzo ważne jest, żeby ludzie z branży wymieniali się ze sobą doświadczeniami?
Obecnie narzędzia programistyczne są na tyle duże i skomplikowane, że jeden człowiek nie jest w stanie wiedzieć wszystkiego. Stąd „co dwie głowy, to nie jedna”. Dzięki aktywności, jaką prowadzimy w ramach Polish SAS Users Group, możemy uczyć się od siebie nawzajem nowych rzeczy. Zaczynaliśmy od niewielkiego spotkania, później dołączali następni użytkownicy. Teraz tworzymy kanał, forum dyskusyjne i jesteśmy całkiem sporą społecznością. Możliwość dzielenia się informacjami i wymiana doświadczeń mogą być pomocne w rozwiązaniu problemu, np. ustaleniu, dlaczego kod nie działa. Może akurat jest ktoś, kto zmaga się z tymi samymi trudnościami i jest np. o jeden dzień dalej w poszukiwaniu rozwiązania. Ten wspólny intelektualny wysiłek pozwala zaoszczędzić czas i nerwy. Trochę na zasadzie hackathonów – rozwiązujemy problemy, ale nasza społeczność ze sobą nie konkuruje, raczej współpracuje. Razem próbujemy rozwiązać wybrany problem informatyczny czy matematyczny, ale nie ma tutaj wyścigu szczurów i pogoni za nagrodami.
Jednym z elementów Waszej aktywności jest quiz – SaSensei. Ma wyłonić tego, który najlepiej posługuje się językiem SAS?
Nie, absolutnie nie. SaSensei (zbitka słów SAS i sensei [jap. nauczyciel]) to przede wszystkim zabawa. To gra sieciowa, a dokładniej quiz interaktywny stworzony przez Allana Bowe na temat znajomości języka SAS i programowania w nim. To taki niby-konkurs, ale z góry zakładamy, że robimy to dla frajdy. Poprawne odpowiedzi na pytania dają punkty, kolejne punkty to następne „poziomy wtajemniczenia”. Każdy, kto dąży do bycia SaSensei, kolejno zdobywa odpowiednią rangę – podobnie jak pasy we wschodnich sztukach walki.
Przede wszystkim SaSensei odgrywa rolę edukacyjną. W quizie dzielimy się wyjaśnieniami konkretnego zadania. Rozwijamy bazę pytań i odpowiedzi. Uczymy się nowych funkcjonalności albo nieznanych nam wcześniej możliwości programowania czy analizy danych. Choć element „gamingowy” związany z rywalizacją i najlepszym wynikiem na pewno działa motywująco.
Jesteś nie tylko czynnym zawodowo analitykiem, ale też nauczycielem akademickim. Piszesz: „dążę do zarażania innych swoją pasją”. Czy zabawa i praca z danymi to coś, do czego łatwo zachęcić innych?
Zabawa to z założenia coś przyjemnego. A żeby dobrze się bawić, trzeba znać reguły gry. Praca z danymi może przynosić ekscytujące rezultaty, ale żeby przeżyć tę frajdę, trzeba spełnić warunek – poznać zasady, nauczyć się fachu. Gra w windowsowego sapera jest świetna, ale dopiero wtedy, gdy odkryjemy, jak można flagować pola i zdobywać punkty. Zaznaczam swoim studentom, że w analizie danych nie ma miejsca na robienie czegoś z grubsza. Nie ma półśrodków. Przypomina to skok na głęboką wodę, w której można się poruszać, tylko jeśli potrafisz doskonale pływać.
Często podaję przykład weekendowych kursów programowania albo nauki nowego języka w dwadzieścia cztery godziny. To tak nie działa. Bo to nie jest tylko kwestia nauczenia się słów kluczowych i przysłowiowego „Hello World”. To kwestia przestawienia się na inny sposób myślenia. W jednym języku patrzy się na dane w pionie, a w innym w poziomie. Wymagane jest przełączenie sposobu myślenia, co nie przychodzi tak łatwo. Ze studentami jest tak, że tych, którzy mieli styczność z analizą, właściwie nie ma co przekonywać do tego, że praca z danymi jest ekscytująca. Reszta to ci, którym trzeba przede wszystkim uświadomić, że zdobycie zestawu umiejętności pozwalających na to, żeby w swobodny sposób poruszać się w świecie danych, będzie wymagać od nich pracy i wysiłku. A one zawsze się opłacą.
Jakie są według ciebie największe wyzwania w kształceniu specjalistów od data science?
Wyzwaniem jest to, żeby poziom kształcenia był wysoki. To z kolei jest uzależnione od osób, które przekazują wiedzę. Wiele zależy też od tego, czy przekazują tę wiedzę z pasją. Bo młodym ludziom trzeba wyjaśnić, że studia w tej dziedzinie nie należą do najłatwiejszych, a jednocześnie pokazać, że są naprawdę fascynujące. Dlatego przekazywanie wiedzy musi iść w parze z nauczeniem, jak zaakceptować to, że czasami w naszej pracy zderzamy się ze ścianą, że nie wszystko da się łatwo rozwiązać. To kształtowanie cierpliwości, wytrwałości.
Sytuacja z życia – kod nie działa. Wtedy co? Mam rzucić klawiaturą? Nie. Wtedy trzeba na chwilę odpuścić, przewietrzyć głowę, pójść na spacer, spojrzeć na problem szerzej. Czasem nad rozwiązaniem pracuje się trzy dni i pustka. Jednak w końcu przychodzi pomysł i sprawa rozwiązana. To takie codzienne „hartowanie ducha” i ćwiczenie silnej woli. Kiedyś słyszałem na jednej z branżowych konferencji, że każda dobra lekcja wiąże się z odrobiną bólu. I dopiero wtedy ma ona swoją wartość.
Czy praca z danymi, którą wykonujesz, jest dla Ciebie ekscytująca? A może emocjonująca?
Bardzo często buzują w nas emocje. Czasami jest tak, że zmagamy się z problemami, które na pierwszy rzut oka wydają się nierozwiązywalne w łatwy sposób. Na samym początku nie widać, że odpowiednie rozwiązanie znajdziemy po dniu, dwóch, czasem po tygodniu. Kiedyś w końcu się uda.
To takie samonapędzanie się i motywacja, że gdzieś tam, za linijkami kodu czy obliczeń, czeka na nas nagroda. Jestem pewien, że powie to każdy analityk, programista czy matematyk. Kiedy udaje się sfinalizować jakieś zadanie, udowodnić twierdzenie albo dojść do rozwiązania, to czuje się ogromną, czasem nieporównywalną z niczym innym frajdę. To taka dzika satysfakcja. Rollercoaster ekscytacji. Poczucie spełnienia, że kolejny raz pokonało się nie tylko maszynę, ale też samego siebie i własne ograniczenia. Od takiej przyjemności nasz mózg jest gotowy się uzależnić. W dobrym tego słowa znaczeniu.