Praca jako data scientist? Dziel się wiedzą i daj się zauważyć
– Wrzucajcie swoje kody na GitHuba. Zrobiliście coś – opiszcie i wrzućcie. Jeżeli będziecie mieć później lepsze projekty, to te początkowe zawsze można ukryć albo usunąć To, co zostaje na GitHubie, pokazuje, jak piszemy i że umiemy coś zrobić, a nie tylko to, że mamy coś wpisane w CV. Praca jako data scientist to dzielenie się wiedzą – zapewnia Magdalena Cebula, junior data scientistka z firmy Aviva.
Magdalena Cebula pracuje jako data scientistka w grupie ubezpieczeniowo-finansowej Aviva. Prowadzi warszawską grupę WMMData, edukując wszystkich chętnych w zakresie data science i opowiadając, od czego zaczyna się praca jako data scientist. Autorka kanału „Niesztuczna inteligencja” na YouTube.
Jaka była Pani droga do data science – szybka ścieżka czy raczej pełna bugów?
Moja ścieżka była dosyć wyboista, ponieważ bardzo długo szukałam odpowiedzi na pytanie, czym w ogóle chcę się zajmować. Jestem po studiach informatycznych. Kiedy pierwszy raz miałam styczność z data science, machine learning był jednym z wielu przedmiotów. Zapytałam wtedy wykładowcę: „Wow, i to jest ten słynny ML?”. Wtedy nie wiązałam żadnej przyszłości z tą dziedziną. Chciałam iść w stronę programowania.
Coś jednak Panią skusiło?
W pewnym momencie w mojej pracy pojawił się pierwszy projekt związany z data science. Szło mi całkiem nieźle, pomyślałam – wygląda to fajnie. Stwierdziłam, że w tym właśnie chcę się rozwijać. I wtedy wzięłam udział w pierwszym wyzwaniu uczenia maszynowego w ramach Data Workshop. Ale nadal wiele było przede mną. Musiałam nauczyć się wszystkich rzeczy związanych z data science. Trochę rozwinąć programowanie, ponieważ Python nie był moim pierwszym językiem.
A czym się Pani zajmowała na początku w pracy jako data scientist?
Szukając pracy, najpierw trafiłam do firmy na stanowisko specjalisty do spraw walidacji modeli. Nie zajmowałam się więc ich tworzeniem, ale sprawdzaniem. Wtedy stwierdziłam, że chcę jednak być po drugiej stronie barykady. Pracować jako data scientist, tworzyć te modele. W ten sposób zaczęłam szukać kolejnej pracy. I tu zaczyna się kwestia wyboistej drogi, o której mówiłam wcześniej. Rozpoczęłam szukanie pracy wraz z wybuchem pandemii koronawirusa.
Ten czas nie był najlepszy dla żadnej branży. Hype na pracowników z branży technologicznej miał miejsce trochę później…
W momencie, kiedy pojawił się COVID, sytuacja na rynku pracy wyglądała tak, że nagle ludzie przestali rekrutować… Nikt nie wiedział, jak rozwinie się sytuacja. Nie było nawet gdzie wysyłać CV. Wtedy zaczęłam bezpośrednio pisać do rekruterów na LinkedIn i za którymś razem udało mi się dostać się na rozmowę kwalifikacyjną, przejść ją pozytywnie i od półtora roku pracuję jako junior data scientist.
Trafia Pani do branży data science i co dalej? Jak wyglądało zderzenie się z rzeczywistością?
Okazało się, że rzeczywistość jest dużo ciekawsza i zawiera dużo więcej obszarów, niż mogło się na początku wydawać. Kiedy zaczynamy przerabiać pierwsze kursy dotyczące data science, to bardzo często mamy podstawy Pythona, SQL-a, trochę statystyki i od razu wchodzimy w modele machine learning, a później sieci neuronowe.
Jako specjalista ds. walidacji modeli nie miała Pani takich możliwości?
Wcześniej pracowałam w banku, a tam modele ML niekoniecznie są tak samo popularne jak w innych branżach. Powiem więcej – zazwyczaj nie są one używane, ponieważ wymagana byłaby pełna transparentność tych modeli. Musimy być w stanie wytłumaczyć na każdym kroku, co i dlaczego się dzieje. Musimy wiedzieć, dlaczego model zwraca takie, a nie inne wyniki, więc po prostu wygodniej jest użyć modeli statystycznych i ekonometrycznych, gdzie mamy tę „wytłumaczalność” zapewnioną.
Czy w nowej pracy rzeczywistość okazała się bardziej złożona?
Dowiedziałam się, że nie będę tworzyć tylko modeli, ale też będzie bardzo dużo analiz, przygotowywania danych, tworzenia rozwiązań dla biznesu bardziej od strony IT, ale z naciskiem na pracę z danymi. Praca jako data scientist to nie tylko modele, bo to dość szeroka specjalizacja. Oczywiście zakres obowiązków na tym stanowisku zależy od pracodawcy, projektów i roli poszczególnych członków zespołu.
Każdy, kto będzie stawiał kroki w data science, powinien nastawić się raczej na pracę interdyscyplinarną niż wąską specjalizację. Dobrze rozumiem?
Jako data scientist bardzo często będziemy pracować przy projekcie od samego początku – od zrozumienia problemu, spotkań z klientami czy przygotowania danych. Później przychodzi czas na zbieranie danych i podjęcie decyzji, czy z takim zasobem danych możemy już tworzyć model. Zarówno z mojego doświadczenia, jak i z rozmów z innymi data scientistami wynika, że praca jako data scientist jest bardziej uniwersalna. Czasem wiele kompetencji się przenika i role w zespołach się zmieniają, więc trzeba być na to przygotowanym.
Wiele osób zapewne zastanawia się, czy praca jako data scientist wygląda jak w przypadk sapera. Ma prawo popełniać błędy?
Błędy będą się zdarzać na każdym etapie tej drogi. Natomiast chcę podkreślić, że w momencie, gdy pracujemy w zespołach, często ma miejsce tzw. code review, czyli sprawdzenie naszej pracy na wielu etapach. Nawet jeżeli popełnimy jakiś błąd, to go prędzej czy później znajdziemy. Wiadomo, że najlepiej jest się starać, żeby tych błędów było jak najmniej. Ale niestety często jesteśmy ograniczeni choćby poziomem wiedzy czy doświadczenia. Początki bywają trudne, ale nie wolno się zniechęcać, tylko szukać rozwiązania.
Załóżmy, że w praktyce jednak popełniłem ten błąd. Co dalej?
Popełnianie błędów jest standardem, do tego trzeba się przyzwyczaić. Powiem więcej – dzięki trudnościom i wyzwaniom, które pojawiają się w pracy, uczymy się i później wiemy, gdzie i jak szukać odpowiedzi. Świetnym źródłem do tego jest choćby Google, albo serwisy dla specjalistów z branży technologicznej takie jak GitHub.
W kontekście GitHub uważam, że warto wrzucać swój kod na ten serwis, dawać komuś do sprawdzenia. Zawsze możemy poprosić, aby jakiś specjalista, osoba z większym doświadczeniem zerknęła na kod i powiedziała, co możemy w nim poprawić. Tutaj też bardzo wiele korzyści mogą dać projekty open source. Kiedy zaangażujemy się w taki projekt, to zwykle standardem jest feedback albo wspomniany code review, czyli informacja zwrotna. Trzeba się przygotować, że na początku popełnimy masę błędów. Ale jest to jak najbardziej dopuszczalne.
Powiedziała Pani o specjalistach, osobach z większym doświadczeniem. Zastanawiam się, czy data scientist to taki samotny wilk w morzu projektó? Czy może jednak praca jako data scientist w agile’owym zespole i korzystanie z mentoringu to jego prawdziwe przeznaczenie?
Jak dla mnie obie te formy się przenikają. Jeśli chcemy być dobrym data scientistem, musimy włożyć bardzo dużo własnej pracy. Jednak nie ma się co oszukiwać, że przerobimy jeden kurs czy przeczytamy jedną książkę i nagle będziemy w stanie poradzić z zadaniami w pracy. Natomiast właśnie korzystanie z feedbacku, z różnych programów mentoringowych, z możliwości współpracy z innymi ludźmi dla mnie jest bardzo ważne.
Data scientist musi dobrze rozumieć biznes. Ja często mówię, że nie sztuką jest wrzucić dane do modelu, i cieszyć się, że coś nam wyszło. Tylko pytanie, czy to, co wyszło, rzeczywiście ma sens. Czy dane, które wrzuciliśmy, są dobrze przygotowane. Czy na koniec otrzymamy efekt w postaci skutecznego rozwiązania.
Jeżeli ktoś chce pracować jako data scientist i wychodzi z założenia, że nie będzie musiał współpracować z ludźmi, tylko może się zamknąć w swoim świecie, dostarczać produkty i najchętniej nie rozmawiać z innymi ludźmi, to spieszę z wiadomością – tak się po prostu nie da. Wszystkie projekty, wszystkie rozwiązania zaczynają się od rozmów, zrozumienia potrzeb.
Weszliśmy na obszar współpracy z biznesem, rozmów. Jakie umiejętności wymaga praca jako data scientist?
Możemy to podzielić na dwie części. Pierwsza z nich związana jest z umiejętnościami technicznymi. Znajomość Pythona i SQL to podstawa. Jeśli znamy R, to jeszcze lepiej. Później wchodzą odpowiednie dla danego zespołu technologie. Druga część to umiejętności miękkie, w szczególności odwaga zadawania pytań, tak by zrozumieć biznes i zrozumieć dane. Najlepsze pytanie, z którym powinniśmy się zaprzyjaźnić, to „dlaczego”.
Jeżeli startujemy jako Junior DS i chcemy znaleźć pierwszą pracę, staż czy praktyki, warto też mieć portfolio. Musimy mieć świadomość, że na rynku jest wielu ludzi po studiach, albo takich, którzy chcą się przebranżowić. A jeszcze są osoby po campach, kursach bądź samoucy. Musimy się jakoś wyróżnić.
Jak?
Najlepiej kodem na GitHubie. To jest zresztą moja osobista lekcja, jaką wyciągnęłam z ostatnich lat. Zawsze wychodziłam z założenia, że ścieżka do portfolio wygląda tak: mam projekty na studiach, studia się kończą, więc tworzę portfolio. Nic z tych rzeczy. Po studiach nie ma na to czasu. Zaczyna się praca i czasu na naukę własną nie ma już tak dużo.
Jeśli mogłabym coś podpowiedzieć osobom, które zaczynają się uczyć w tym kierunku – wrzucajcie wszystkie swoje kody na GitHuba. Zrobiliście coś – opiszcie i wrzućcie. Jeżeli będziecie mieć później lepsze projekty, to te początkowe zawsze można ukryć albo usunąć To, co zostaje na GitHubie, pokazuje, jak piszemy i że umiemy coś zrobić, a nie tylko to, że mamy coś wpisane w CV. Zachęcam też do udziału w projektach open source. To daje szansę, że możemy się pochwalić czymś większym w odróżnieniu od drobnych kodów wieszanych na GitHubie.
Ponadto bardzo mi pomógł LinkedIn i publikowanie na nim. Pozwala pokazać, że jesteśmy aktywni w tym co robimy, zaprezentować siebie, czego się nauczyliśmy i zbudować sieć ważnych dla naszego rozwoju kontaktów. Efektem jest zarówno możliwość znalezienia pracy, jak i wsparcie w rozwiązywaniu kwestii związanych z naszymi projektami. Warto być dostrzeżonym.
Dlatego zdecydowała się Pani również na tworzenie treści na YouTube?
To jedna z przyczyn. Dzięki temu mogę pokazać to, co robię, a także podzielić się tym, co mam do przekazania. I nawet jeśli będą to proste rzeczy, to pamiętajmy, że one są proste dla nas. Ale dla osób, które są początkujące, to ogromne źródło wiedzy. Niestety w sieci nadal brakuje materiałów wideo w języku polskim z obszaru data science. Za to jest więcej blogów. Wynika to z faktu, że standardem branżowym jest używanie języka angielskiego. Większość kursów jest w tym języku i to jest jedna strona medalu.
Widzi Pani taką potrzebę edukacji w obszarze machine learning, data science?
Potrzeba edukacji jest coraz większa. Przede wszystkim dlatego, że szeroko pojmowana sztuczna inteligencja coraz bardziej wchodzi z butami w nasze życie. Największe uniwersytety zajmują się kwestiami etyki sztucznej inteligencji. A „za drzwiami” stoi cały obszar metawersum i związanych z tym wyzwań i możliwości, nie mówiąc już o zainteresowaniu działaniem algorytmów Facebooka i innych firm.
Coraz więcej osób ma świadomość działania tych algorytmów, a zatem chce wiedzieć o nich więcej. Użytkownicy sieci wolą sami decydować o ewentualnym korzystaniu lub nie z danej technologii. Tego nie da się przeprowadzić bez rzetelnej wiedzy i poznania pewnych obszarów nauki odpowiedzialnych za te rozwiązania. Stąd konieczność edukacji w tym zakresie. Tak w obszarze bardzo zaawansowanych zagadnień technologicznych, jak i prostych mechanizmów, jakie wokół nas funkcjonują.
Brzmi bardzo mentorsko. Jak Pani widzi swoją przyszłość w pracy jako data scientist?
Chciałabym się wyspecjalizować w obszarze data science, zająć się bardziej specjalistycznymi tematami. Choćby w kontekście modeli sieci neuronowych, modeli grafowych opartych na prawdopodobieństwie. To są tematy, które będę chciała bardziej zgłębić, także w obliczu planowanego doktoratu.
Mam też nadzieję, że nadal będę mogła łączyć pracę zawodową z działalnością edukacyjną, popularyzatorską. Nie sądziłam, że tak wiele radości przyniesie mi prowadzenia kanału na YouTube o data science. To niesamowita rzecz, kiedy można się dzielić swoją wiedzą, odpowiadać na pytania widzów kanału. To bardzo mnie cieszy i inspiruje. Niezwykle ważne dla mnie jest też prowadzenie grupy WMMData w ramach DataWorkshop Foundation.
Porozmawiajmy o tym chwilę. Jak Pani trafiła do tego projektu?
To było na początku mojej zawodowej przygody z data science. Podczas pierwszego projektu w pracy, kiedy stwierdziłam, że chcę robić data science. Wtedy też wzięłam udział w wyzwaniu machine learning zorganizowanym przez DataWorkshop. Początkowo miało to być jedno wyzwanie, ale osoby w grupie opowiedziały się za tym, aby tych wyzwań było dużo więcej.
Oczywiście pojawiła się tez kwestia koordynowania spotkań w ramach grupy. Pomyślałam, że jestem na etapie, kiedy mam nieco więcej czasu i mogę się temu poświęcić. Przebiegło to na tyle sprawnie, że po kilku tygodniach udało się zorganizować warsztaty w ramach grupy. Następnie powstała idea stworzenia dużego projektu.
Na czym polegały te wzywania?
Jednym z zadań, jakie sobie nakreśliliśmy, było stworzenie modelu odpowiadającego za przewidywanie poziomu smogu. W Polsce akurat była zima, więc temat absolutnie na czasie. Kolejnym projektem było przewidywanie na podstawie historii pacjenta, czy zechce przyjść na umówioną wizytę. Problem zresztą bardzo poważny, ponieważ wielu pacjentów nie stawia się na wizyty. Potem pojawił się kolejny projekt, tym razem związany z przetwarzaniem języka naturalnego. Teraz stoimy przed wyborem kolejnego projektu.
Czy jest to jest zamknięta grupa pasjonatów machine learning?
Absolutnie nie. Nasza grupa jest dla wszystkich. Można dołączyć nawet jako wolny słuchacz, zadawać pytania. Co więcej, te pytania są dla nas bardzo ważne, ponieważ tworzą ogromną przewagę nad czymś, co moglibyśmy nazwać samodzielną realizacją projektu. Kiedy spotykamy osoby z różnych środowisk, ekspertów z różnych dziedzin o zróżnicowanym poziomie doświadczenia, to oni swoimi pytaniami zwracają naszą uwagę na rzeczy, o których byśmy nigdy nie pomyśleli. Nasza grupa jest miejscem, w którym można popełniać błędy. Ba, błędy te są przyczynkiem do rozwiązywania wielu problemów na różnych etapach projektu.
W Pani przypadku to chyba nie tylko praca jako data scientist, ale i pasja.
Bardzo dużo pasji. Fascynuje mnie połączenie części biznesowej, analitycznej i programistycznej. Lubię pracować z ludźmi, więc dla mnie możliwość spotkania się z ludźmi biznesu i zrozumienie, jakie mają potrzeby, jest zawsze na plus. Potem trzeba to przeanalizować, w czym pomagają tworzone modele machine learning, które w zasadzie skradły moje serce. A przy okazji mogę to zaprogramować, więc odzywa się moja potrzeba związana z obszarem IT.
Data science to także możliwości rozwoju. Mamy różnorodność zadań i technologii, jakie wykorzystujemy. Nie mówiąc już o modelach. Nie muszę się skupiać wyłącznie na samym ML, mogę się nauczyć sieci. Co więcej, same sieci to też jest bardzo szeroki temat – od takich, które przetwarzają obrazy, przez takie, które opierają się na prawdopodobieństwie. Mówię tu o sieciach grafowych, które są dla mnie niezwykle ważne.
Mentorzy objaśniający ludziom świat czy po prostu dobrzy rzemieślnicy budujący narzędzia dla biznesu – jak Pani widzi data scientistów?
Muszę przyznać, że ta techniczna działka jest bardzo ważna. Bez tego mamy tylko samą ideę. Możemy dużo mówić, ale wszystko trzeba zaprojektować, zaprogramować i przygotować. Nie należy też zapominać, że data science jest o tyle specyficzne, ponieważ jest osadzone w biznesie. Nie ma data science bez biznesu, inaczej byłaby to sztuka dla sztuki. Data scientiści mają w firmach rozwiązywać konkretne problemy.
Na początku problem trzeba znaleźć, później technicznie go rozwiązać, a następnie jeszcze przedstawić i przekonać ludzi do siebie. Proszę pamiętać, że nie wszyscy lubią zmiany. Jeżeli coś robiliśmy przez pięć lat w jeden sposób, a tu przychodzi jakieś nowe rozwiązanie, to najczęściej użytkownicy napotykają liczne trudności. A my musimy je przełamywać, czasu na same idee nie wystarczy.