Artykuły w serwisie - Data Science robię

Analitycy danych w nadchodzących miesiącach zmierzą się z wyzwaniami, które dotyczą automatyzacji, zapewnienia bezpieczeństwa łańcuchów dostaw, a także ochrony środowiska i danych osobowych. Ale to nie jedyne zagadnienia, nad którymi będą pracowali. Przedstawiamy trendy data science o największym wpływie na światową gospodarkę i działalność firm w 2022 roku.

W ostatnich latach obserwowaliśmy rozwój technologii, które sprawiają, że żyjemy w jeszcze bardziej połączonym świecie. Za nami czas dynamicznej cyfryzacji wielu branż i narzędzi ułatwiających podejmowanie decyzji w czasie rzeczywistym. Teraz firmy mocno postawią na kwestie związane z zapewnieniem bezpieczeństwa, przy jednoczesnym poszukiwaniu sposobów na zwiększenie swojej konkurencyjności, głównie za pomocą analityki danych. Poznaj trendy data science w 2022 roku.

1. Etyczna AI

Głównym wyzwaniem 2022 roku jest okiełznanie sztucznej inteligencji i sprawienie, aby algorytmy uczenia maszynowego uwzględniały ludzki system wartości i działały bardziej etycznie. Zadanie to nie jest proste, ponieważ mamy ograniczony wpływ na to, jak będą zachowywały się modele, które tworzone są na podstawie dużych zbiorów danych. Z tego powodu kluczową kwestią jest weryfikacja, czy w wyniku zastosowania AI nie dochodzi do dyskryminacji pewnych grup społecznych, co ma szczególne znaczenie na przykład w przypadku rynku finansowego i szacowania zdolności kredytowej.

2. Demokratyzacja AI i data science

Wraz z rozwojem technologii i przenoszeniem infrastruktury do chmury obliczeniowej, dostęp do zaawansowanych algorytmów, modeli i źródeł danych staje się coraz łatwiejszy. W efekcie z zaawansowanych narzędzi analitycznych może korzystać praktycznie każdy, a w wielu wypadkach dzięki aplikacjom typu no code i low code, analiza danych nie wymaga już znajomości programowania. To oczywiście pociąga za sobą konieczność skupienia się na szkoleniu nowych adeptów analizy danych, aby potrafili wykorzystać potencjał drzemiący w coraz łatwiejszych, a jednocześnie zaawansowanych narzędziach analitycznych.

3. Automatyzacja

Demokratyzacja AI i data science nie byłaby możliwa bez automatyzacji procesów. Do tej pory były one wykonywane przez wyspecjalizowane zespoły zajmujące się przygotowaniem i analizą danych. W nadchodzących miesiącach i latach możemy spodziewać się, że kolejne zadania, które wymagają żmudnej i czasochłonnej pracy, będą przejmowane przez sztuczną inteligencję. Dzięki temu eksperci znajdą czas na wizualizację i ocenę wyników oraz jeszcze bardziej precyzyjne przedstawianie wniosków osobom odpowiedzialnym w przedsiębiorstwach za podejmowanie strategicznych decyzji.

4. Doświadczenie użytkownika

Przewidywanie zachowań klienta jest kluczowe dla zwiększania konkurencyjności. Już nie wystarczy odpowiadać na potrzeby odbiorców – należy je aktywnie kreować. Do tego najlepiej nadadzą się zbierane dane. Silniki rekomendacji są potężnym narzędziem, dzięki nim firmy mogą oferować produkty lepiej dopasowane do konkretnych odbiorców.

Do tej pory pozyskiwanie danych o użytkownikach było relatywnie proste, ale zaczyna się to powoli zmieniać za sprawą zaostrzania polityki dotyczącej ochrony danych osobowych przez kolejne państwa Unii Europejskiej. W styczniu austriacki urząd ochrony danych osobowych stwierdził, że wykorzystanie ciasteczek na stronach internetowych przez Google Analytics łamie zapisy RODO. Niedługo potem francuska Narodowa Komisja ds. Informatyki i Wolności orzekła podobnie. Dlatego wiele wskazuje na to, że twórcy narzędzi i analitycy danych będą musieli znaleźć nowe sposoby pozyskiwania informacji, które uwzględnią prawo użytkowników do prywatności.

5. Rozpoznawanie deep fake’ów i fake newsów

Żyjemy w świecie opartym na danych, których jednak nie możemy traktować bezkrytycznie. Nieprawdziwe i błędne informacje nierzadko rozprzestrzeniają się szybciej od tych rzetelnie sprawdzonych i bazujących na faktach. Z rozwoju portali i aplikacji społecznościowych korzystają też przestępcy i agencje wywiadowcze zajmujące się dezinformacją – dzięki nim mogą łatwo rozpowszechnić wiadomości służące wyłudzeniom pieniędzy czy wpływaniu na wyniki wyborów.

Za pomocą zaawansowanych narzędzi do tworzenia nieprawdziwych informacji powstają realistyczne filmy z nieprawdziwymi wypowiedziami znanych osób (tzw. deep fake’i). Walka z fake newsami i deep fake’ami z pewnością wpisze się w trendy data science 2022 roku. To ogromne wyzwanie nie tylko dla służb państwowych, ale także dla całej branży zajmującej się przetwarzaniem danych – czyli tak naprawdę wszystkich.

6. Zabezpieczenie łańcuchów dostaw

Ubiegły rok pokazał, jak bardzo światowa gospodarka uzależniona jest od przepływu towarów, a jednocześnie jak niewiele potrzeba, by sparaliżować handel na całym globie. Nie tylko globalna pandemia, ale też takie punktowe zdarzenia jak blokada Kanału Sueskiego przez kontenerowiec Ever Given spowodowały poważne zakłócenia w dostawach towarów. Ich skutki można było ograniczyć, jednak wymagałoby to przeanalizowania ogromnej ilości danych na temat łańcuchów dostaw i tras, po których przewożone są produkty. Zapewne tym razem biznes odrobi lekcję i z pomocą nowych technologii powstaną zabezpieczenia i alternatywne plany organizacji dostaw produktów pomiędzy państwami i kontynentami.

7. Blockchain

Technologię blockchain w ostatnich latach wykorzystywano m.in. przy zawieraniu kontraktów pomiędzy klientami i dostawcami energii, a także do śledzenia informacji w łańcuchach dostaw. W przyszłości znajdzie dużo szersze zastosowanie także w innych obszarach, w których istotna jest walidacja danych. Blockchain można traktować jak rozproszoną strukturę danych, która w przeciwieństwie do relacyjnych baz danych zapewnia niezmienność informacji. To powoduje, że na takich wiadomościach można dużo bardziej polegać i łatwiej zarządzać danymi. Dodatkowo technologia łańcuchów blokowych umożliwia łatwe śledzenie pochodzenia informacji, dzięki czemu będzie używana w przetwarzaniu transakcji finansowych, czy w medycynie, do bezpiecznego współdzielenia informacji o pacjentach.

8. Rozpoznawanie obrazów

Sztuczna inteligencja potrafi wykrywać twarze i klasyfikować obiekty pojawiające się w kadrze, dzięki czemu możliwe jest m.in. tworzenie inteligentnych fabryk, w których ludzie pracują razem z autonomicznymi robotami. Technologia computer vision zapewnia bezpieczeństwo, w odpowiednim momencie pozwalając wykrywać potencjalnie groźne sytuacje. Obecnie głównym wyzwaniem w obszarze przetwarzania obrazów jest zapewnienie wydajnych algorytmów do analizy w czasie rzeczywistym danych o wysokiej rozdzielczości.

9. Obliczenia kwantowe

Analiza dużych zbiorów danych wymaga coraz więcej mocy obliczeniowej, z czym coraz gorzej sobie radzą klasyczne komputery bazujące na logice dwuwartościowej. Dlatego obok znanej od kilkudziesięciu lat architektury, naukowcy pracują nad urządzeniami działającymi w alternatywny sposób.

Komputery kwantowe do reprezentacji danych wykorzystują mechanikę kwantową i tzw. kubity. Ewolucja stanu kwantowego takiego układu pozwala na dużo szybsze obliczenia złożonych problemów, takich jak prognozowanie pogody, analiza rynków finansowych czy opracowywanie nowych leków. Mimo że ta technologia wciąż pozostaje na stosunkowo wczesnym etapie rozwoju, to w kolejnych miesiącach i latach będziemy obserwować coraz więcej jej komercyjnych zastosowań oraz to, jak kształtuje trendy data science.

10. Odpowiedzialność biznesu (ESG)

Poza kwestiami związanymi z ochroną danych osobowych, firmy i analitycy danych powinni zwrócić również uwagę, aby ich działania były zgodne z ESG (z ang. Environmental, Social, Corporate Governance), czyli ładem środowiskowym, społecznym i korporacyjnym. Z jednej strony, odpowiedzialność biznesu w tych obszarach ma kluczowe znaczenie z powodów regulacyjnych. Z drugiej zaś uwzględnienie i eksponowanie działań wpisujących się w ideę ESG pozwala budować dobry wizerunek marki.

– Jeszcze w 2008 roku nie było ani jednej osoby na LinkedIn, która przedstawiała się jako specjalista w obszarze Big Data. W 2013 roku użytkowników utożsamiających się z tym obszarem było już ponad 3,3 tysiąca. Dziś takich stanowisk są dziesiątki tysięcy. Nie mówmy więc, czy kobiety w data science są aktywne. Mówmy o tym, jaki wpływ mają na branżę i jaką wartość do niej wnoszą.

Na pytania odpowiadają Wioletta i Adrianna Klimczak, data scientistki z SAS Institute, założycielki fundacji IT Girls – organizacji wspierającej kobiety w data science, a także dziewczęta i młodzież w rozwoju pasji i kariery w obszarze technologicznym. Wioletta skończyła informatykę na Wydziale Elektroniki i Technik Informacyjnych Politechniki Warszawskiej. Adrianna zaś jest na ostatnim semestrze studiów magisterskich na kierunku Data Science prowadzonym przez Wydział Matematyki i Nauk Informacyjnych Politechniki Warszawskiej.

Skąd pomysł na fundację IT Girls?

Wioletta Klimczak: Zrodził się na początku pandemii. Obie stwierdziłyśmy, że chciałybyśmy wnieść coś więcej do świata IT poza własną pracą czy nauką. Dzięki doświadczeniu i bacznemu obserwowaniu aktualnej sytuacji widzimy, jakie są problemy na rynku. Wiemy, jak bardzo brakuje dziewczynom przestrzeni do budowania pewności siebie. Zauważyłyśmy również, że często niskie poczucie wartości i brak wiary w siebie jest czynnikiem, przez który kobiety nie wybierają ścieżki technologicznej.

Kobiety często same nie wierzą, że dadzą radę, a wspierających ich organizacji nie ma zbyt wiele. A jeśli są, to najwyraźniej nie daje to widocznych rezultatów. Być może dlatego liczba kobiet w sektorze technologicznym przez ten okres tak naprawdę nie wzrosła. Ani na uczelniach, ani w branży. I to był chyba główny impuls do założenia fundacji. To był też moment, kiedy zaczęłyśmy szukać raportów, badań, przejrzałyśmy ich setki. Chciałyśmy poznać od środka zarówno stan aktualny, jak i przyczyny tej sytuacji.

Adrianna Klimczak: Tworzenie fundacji to był dłuższy proces. Pomysły dojrzewały w nas dość długo. Od momentu decyzji do stworzenia fundacji minął prawie rok. Nie ukrywamy, że prawnie było to dla nas skomplikowane. Proces zakładania organizacji pozarządowych w Polsce wcale nie jest taki prosty.

Na samym początku myślałyśmy, że skupimy się na studentkach, ale z każdym raportem i rozmowami przeprowadzonymi z ekspertami wynikało, że musimy zacząć wspierać kobiety na dużo wcześniejszym etapie rozwoju. Docelowo trzeba zacząć pracę z przedszkolakami, bo tam właśnie rodzi się problem stereotypów i wierzenia w nie. My jednak zaczęłyśmy od szkół podstawowych.

WK: Nasz sztandarowy projekt, od którego zaczęłyśmy prace fundacji, to IT Girls School. Zapraszamy do niego dzieciaki z 7. i 8. klas szkół podstawowych. Trzygodzinne warsztaty mają za zadanie spełnić kilka celów. Główny z nich to pokazanie, jak dziś wygląda informatyka i świat technologii, jakie ciekawe i ambitne to są wyzwania.

AK: Nazywamy to odczarowywaniem informatyki. Pokazujemy, że to nie jest tylko Excel i programowanie, a całe spektrum możliwości. Obalamy mity. Nie lubisz siedzieć osiem godzin przed komputerem i programować? Też się możesz odnaleźć w świecie IT!

Jak wyglądają organizowane przez Was warsztaty?

WK: Na zajęciach staramy się pokazywać, że kobiety są bardzo aktywne w tym zawodzie. Dlatego na każde warsztaty zapraszamy gości specjalnych. To są inspirujące kobiety w data science, które dzielą się z młodzieżą swoimi osiągnięciami, umiejętnościami i ścieżką zawodową. Niedawno zaprosiłyśmy data scientistkę, naukowczynię, która pracuje nad projektem systemu wspierającego kardiologów w szpitalu. Opowiadała młodzieży, jak wygląda praca kobiety w data science, jak dużo analityka może dać światu.

Zapraszane przez nas ekspertki prezentują także swoje badania oraz ich wpływ – ten realny, namacalny wpływ na obszary biznesu, zdrowia czy technologii. To są też warsztaty dla osób, które stoją przed wyborem drogi zawodowej. Dla nas było niezwykle ważne, aby ta grupa była pierwszą, do jakiej skierujemy naszą ofertę wsparcia.

Czy zajęcia są tylko dla kobiet, dziewczynek?

AK: Na te warsztaty przychodzą całe klasy, więc to nie są tylko dzieci zainteresowane informatyką. Również na tym poziomie zdarzają się osoby, które mają za sobą jakąś styczność z programowaniem. Nie wchodzimy jednak na wyższy poziom abstrakcji. Chcemy, aby to było przystępne dla wszystkich.

Na warsztaty przychodzą także chłopcy, co jest zgodne z polityką naszej fundacji: „inclusive, not exclusive”. Zachęcamy ich do zainteresowania się informatyką, pokazując jednocześnie, że każdy może pracować w branży technologicznej. Także kobiety, w tym ich rówieśniczki. To może pomóc wykorzenić choć część stereotypów.

Jesteście już po pierwszej edycji warsztatów IT Girls School. Jakie wrażenia?

WK: Widzimy, że to naprawdę przynosi efekt. Po warsztatach podchodzą do nas dzieciaki i mówią: „Dziewczyny, bardzo dziękuję! Do tej pory nie zdawałam sobie sprawy, że jeśli lubię matematykę, to mogę w życiu robić wiele rzeczy i wykorzystywać tę wiedzę w sferze związanej z danymi”.

Druga kwestia to ankiety po zajęciach. Prosimy dzieci o zaznaczenie, na ile rozważały dalszą edukację w kierunkach informatycznych. A następnie pytamy, czy po naszych warsztatach się to zmieniło. W skali 5-punktowej różnica w odpowiedziach potrafi wynosić od 2 do 3 punktów. To dla nas ogromna radość i satysfakcja. Bo to, co robimy, może mieć sens i może właśnie w ten sposób przyczynimy się do wzrostu popularyzacji ścieżek technologicznych wśród kobiet.

AK: Szczególnie, że rośnie zapotrzebowanie na specjalistów w obszarach technologicznym i informatycznym. Mam wrażenie, że ten popyt będzie się dalej zwiększał. Chyba, że dojdziemy do momentu, w którym sztuczna inteligencja będzie robić więcej niż my sami. Ale to na pewno jeszcze parę lat przed nami.

WK: Poza warsztatami ważne jest dla nas także budowanie pewności siebie wśród młodych kobiet. Widzimy nie tylko w raportach, ale i po naszych spotkaniach, że istotne są zarówno nauka technologii, jak i budowanie pewności siebie wśród dziewczyn. Staramy się wspierać dzieci, ale także ich rodziców, aby rozwijać pasje i umiejętności.

Dlatego zdecydowałyśmy się na dodatkowe warsztaty dla bardziej zaawansowanych osób. Ich tematem jest wstęp do data science. To cykliczne, 4-godzinne spotkania wprowadzające w świat analizy danych, tworzenia kodu i modeli.

Rozmawiamy dziś o tym, jak kobiety w data science zmieniają branżę, choć jeszcze kilka lata temu zastanawialiśmy się nad przyszłością kobiet w IT. Najwyraźniej wiele zmieniło się w tym świecie, niegdyś postrzeganym jako męski?

WK: Bardzo nas cieszy, że jako kobiety w data science jesteśmy aktywne w branży. W tej dziedzinie pracuję od prawie ośmiu lat, Ada – od trzech. Ten rynek szybko się rozwija. Dotarłyśmy do badań, które wskazywały, że jeszcze w 2008 roku nie było ani jednej osoby na LinkedIn, która podawała się jako specjalista w obszarze Big Data. Natomiast w 2013 roku już ponad 3,3 tys. użytkowników LinkedIn utożsamiało się zawodowo z tym obszarem. Obecnie takich stanowisk są dziesiątki tysięcy.

Na szczęście dziś nie mówimy już o tym, czy kobiety są aktywne w branży. Mamy bowiem wiele wspaniałych przykładów kobiet, które były nagradzane za swoją pracę naukową w obszarze data science. Mówimy więc o tym, jaki wpływ kobiety mają na branżę IT oraz jaką wartość wnoszą do tej branży.

A ile kobiet pracuje dziś w branży technologicznej?

AK: Statystyki wskazują, że kobiety w data science stanowią blisko 17 proc. polskich specjalistów w tym obszarze. Wśród programistów ten wskaźnik jest dużo mniejszy, bo około 4 proc.

Z czego wynika większa reprezentacja kobiet w data science niż w programowaniu?

AK: Mam wrażenie, że branża data science jest po prostu bardziej atrakcyjna dla kobiet. Tutaj potrzeba nie tylko umiejętności programistycznych, ale również bardzo mocno analitycznych czy matematycznych, statystycznych. A gdy spojrzymy na te kierunki na uczelniach, to mamy tam zdecydowanie więcej kobiet. Stąd więc kobiety w data science są liczniej reprezentowane.

Trzeba przyznać, że branża technologiczna to rynek pracownika. Potwierdzicie, że specjaliści data science są rozchwytywani?

AK: Raczej nie mają oni problemu ze znalezieniem pracy. Wiem natomiast, że próg wejścia dla osób spoza branży jest wyższy, zwłaszcza, gdy chce się przebranżowić. To nie jest łatwa materia, bo ma się tu do czynienia z matematyką, analizą matematyczną.

WK: Dziś nie brakuje ofert osób, które są na samym początku drogi w data science. Ale dla tych, co się przebranżawiają, jest ich stosunkowo mało. Firmy coraz częściej szukają osób na bardzo wczesnym etapie, 1-2 rok studiów. Wydaje mi się, że firmy coraz mocniej angażują się w promocję swoich marek wręcz wśród licealistów. Po to, by osoby, które idą na studia, już kojarzyły markę. Żeby wiedziały, że to firma świadcząca usługi związane z analizą danych i modelami sztucznej inteligencji.

AK: Poza tym na rynku jest nadal bardzo mało osób wykształconych w tym kierunku. Jest wielu samouków, ale mało osób po studiach. Na moim kierunku jest raptem 40 studentów. Tyle osób mogłoby iść maksymalnie do dwóch dużych firm. Pomijam też fakt, że osoby studiujące w Polsce są rozchwytywane przez firmy zagraniczne. Pandemia i praca zdalna jeszcze bardziej wydrenowały rynek ze specjalistów do firm zachodnich.

Jako kobiety w data science nadal jesteście nieliczną grupą. Powiedzcie, jakie umiejętności pomagają Wam dobrze funkcjonować w branży technologicznej?

WK: Przede wszystkim są to skrupulatność i komunikatywność. Na przykład informatycy to osoby, które często cenią sobie pracę samodzielną. Komunikatywność to obszar, nad którym na pewno powinni jeszcze popracować. Z kolei kobietom ta cecha przychodzi naturalnie. Dzięki niej właśnie są bardzo cenione i potrzebne w obszarze data science.

AK: Komunikatywność jest także istotna w obszarze analitycznym. Zespoły tych specjalistów są coraz większe, a danych i pracy z nimi będzie przybywać. Komunikatywność jest bardzo istotna zwłaszcza przy dużych projektach. Znam wiele przykładów, kiedy projekty zostały „położone” przez brak komunikacji w zespole.

Podczas pracy z projektami na studiach zauważyłam jeszcze jedną ważną cechę – kobiety wydają się mieć trochę lepszy zmysł wizualny. W pewnym momencie w data science, szczególnie na etapie przedstawiania danych, wizualizacja jest niezwykle ważna. Zdarza się, że pewne projekty są świetnie dopracowane pod względem kodu, aspekt techniczny jest na wysokim poziomie, ale niestety przejrzystość wizualizacji pozostawia wiele do życzenia.

WK: Zgadzam się z Adą, przy czym kwestia wizualizacji to trend globalny. Ludzie przestają czytać artykuły, lubią infografiki. Wolą obrazki niż dwie strony tekstu. Chcą prostych i szybkich wizualizacji. Można zrobić dobrą analizę danych i nie umieć tego przekazać. Kobiety to potrafią.

Czy Waszym zdaniem dziewczęta w Polsce otrzymują wystarczające wsparcie na etapie edukacji technicznej?

AK: Nam było zdecydowanie łatwiej. Rodzice zawsze byli dla nas pomocą i wspierali, kiedy czegoś nie rozumiałyśmy. Myślę, że dlatego też nie spotkałyśmy się z wieloma problemami na ścieżce edukacyjnej, z którymi na co dzień musiała się zmierzyć część moich koleżanek.

Znam przypadki, kiedy rodzina i znajomi odwodzili je od pójścia na studia techniczne. I to pomimo, że były świetne z matematyki czy fizyki i wszystko wskazywało na to, że to jest droga idealna dla nich. Pojawiały się komentarze, że „przecież studia humanistyczne czy lingwistyczne będą dla Was lepsze”. I to jest przykre.

WK: W ramach działań fundacji IT Girls dotarłyśmy do badań, z których wynika, że tylko co czwarta kobieta nie była odwodzona od pomysłu studiowania kierunków technicznych. I to wśród tych, które już się tam dostały.

Czy w branży technologicznej spotkałyście się kiedyś z przejawami ostracyzmu, seksizmu?

WK: Na uczelni doświadczyłam sporo takich zachowań, kiedy dziewczyny słyszały komentarze w stylu: „Po co przyszłyście na ten kierunek”, „I tak nie dacie rady” itd. Wykładowcy potrafili do auli zwracać się w formie męskiej, czyli „panowie”, pomimo że na sali były kobiety. To były drobne niedogodności, pomyłki czy też uszczypliwości, ale one pokazywały podejście do kobiet na uczelniach technicznych.

Dlatego wsparcie dla studentek jest niezwykle potrzebne. I to jest jedno z założeń naszej fundacji. Doszłyśmy też do wniosku, że w porównaniu z innymi wychowałyśmy się w luksusowych warunkach. W takiej bańce, gdzie nigdy nie słyszałyśmy od najbliższego otoczenia negatywnych słów na temat wyboru ścieżki zawodowej. Niestety jednak takie sytuacje spotkały nas na zewnątrz.

AK: Często zdarzało się słyszeć dziwne komentarze, kiedy przedstawiałam się i mówiłam, że studiuję informatykę i pracuję w data science. Wtedy padały odpowiedzi w stylu: „Naprawdę? Nie wyglądasz”. Nie wiedziałam nawet, jak w takich sytuacjach reagować. Co więcej, to nie są jednostkowe przypadki. Kiedy zaczęłam rozmawiać na ten temat z koleżankami, to oczywiście one też się z tym często spotykały.

WK: I to nie dotyczy tylko uczelni. Podczas jednego z eventów spotkałam wielu ludzi z branży. Był tam dyrektor działu IT jednej z firm. Gdy dowiedział się, że studiuję informatykę i pracuję w zawodzie, nie dowierzał i przez cały wieczór przeprowadzał test. Pytał o podstawowe terminy i technologie z obszaru informatyki. Takie sytuacje nadal się zdarzają.

Jak myślicie, skąd się biorą takie postawy? Niezrozumienie, ignorancja?

AK: Z jednej strony ignorancja, ale z drugiej – brak kobiet w kulturze i brak wystarczającej reprezentacji w tzw. obszarze STEAM (science – nauka, technology – technologia, engineering – inżynieria, arts – sztuka, mathematics – matematyka). Kobiet w tych dziedzinach jest po prostu bardzo mało, ale nie jest tak, że nie ma wcale. Niestety jest ich mało także w mediach, nie uczy się o nich w szkołach.

Kiedy na zajęciach fundacji dla szkół podstawowych pytamy uczestników o naukowczynie, to czasem trudno nawet dostać odpowiedź o Marii Skłodowskiej-Curie, która jest takim sztandarowym przykładem. W publikacjach medialnych mamy Steve’a Jobsa, Billa Gatesa czy Elona Muska. Natomiast jeśli chodzi o kobiece przykłady, to takie wzorce prawie w ogóle nie są eksponowane. Wiem, że kobiet ze świata technologicznego, które byłyby znane szerokiemu gronu, ze świecą szukać. Pamiętajmy jednak, że one są. Po prostu mało kto o nich mówi.

WK: Jako społeczeństwo jesteśmy mocno zakorzenieni w stereotypach, w sposobie wychowywania. Także w tym, że dziewczynki bardziej powinny zająć się profesjami uważanymi za te „kobiece”, czyli pielęgniarka bądź nauczycielka. I to nadal pokutuje w społeczeństwie. W fundacji natrafiłyśmy na jeden raport, który pokazuje zainteresowanie poszczególnymi zawodami wśród dzieci. Wśród dziewczynek próżno szukać takich pozycji jak menedżerka, informatyczka. Pomijam już fakt, że trudno nam korzystać z feminatyw w postaci „informatyczki” czy „data scientistki”. Dla wielu osób one nadal brzmią dziwnie, obco.

Być może ten „męski” świat trochę odrzuca, zniechęca kobiety?

WK: Przeświadczenie, że jest to praca w środowisku męskim, zdecydowanie nie pomaga. Dla wielu jest to bariera, ponieważ nie wszystkie kobiety dobrze się czują w środowisku typowo męskim. Faktem jest, że kobiet w zespołach informatycznych jest dość mało. Jeśli weźmiemy pod uwagę cały sektor IT, jest to 30 proc. Warto dodać, że te 30 procent to jest już z project managerkami, osobami organizacyjnymi. Ale gdy skupimy się stricte na programowaniu, to ta wartość spada do 4-6 proc.

Jest jeszcze inny ważny czynnik. Młodzieży wydaje się, że świat technologii jest trochę czymś innym, niż faktycznie jest. Na przykład na zajęciach z informatyki młodzi uczą się głównie Excela. A czasami nawet nie tyle samego Excela, ile tworzą o nim prezentacje. Nikt nie chciałby kończyć takiego kierunku i pracować w tym obszarze, gdyby ta nauka rzeczywiście tak wyglądała.

AK: Dlatego w ramach naszej fundacji staramy się pokazywać młodzieży, czym jest to przysłowiowe IT. Że to nie tylko programowanie, ale też np. data science. W jednym miesiącu możemy robić analizy w bankowości, a w drugim – w telekomunikacji, a później w branży paliwowej.

Można się zatem rozwijać nie tylko w obrębie jednej dziedziny i metod tam używanych. Taka praca daje dużo satysfakcji i buduje pewność siebie, poczucie własnej wartości.

Jakie macie plany na dalszy rozwój fundacji?

WK: Dziś staramy się reagować na potrzeby uczestników naszych warsztatów. Nie chcę jednak mówić, że za 2 lata będziemy miały szkołę, choć oczywiście tak wyobrażamy sobie naszą przyszłość. Docelowo chcemy mieć miejsce, gdzie dzieciaki będą mogły przyjść, uczyć się, rozwijać swoje umiejętności i poszerzać wiedzę.

AK: Przede mną decydujące pół roku i zakończenie studiów. W horyzoncie długoterminowym widzę siebie jako osobę rozwijającą naszą fundację i wspominane przez nas programy i projekty. Czuję, że odnalazłyśmy coś, co daje nam bardzo dużo satysfakcji. Mam wrażenie, że właśnie po to przeszłyśmy przez ciężką drogę studiów technologicznych, aby teraz dawać coś od siebie, a także zachęcać młodzież i dzieci do rozwoju w branży technologicznej. Nie zamykam się jednak na pracę w zawodzie. Mamy wiele pomysłów i niewykluczone, że kiedyś założymy startup.

Jak widzicie swoją przyszłość w kontekście data science?

WK: Kariera w nauce czy biznesie stoi przed nami otworem. Mamy w sobie determinację do dążenia za marzeniami. Wierzymy szczerze, że nie ma rzeczy niemożliwych. W filmie „14 szczytów” główny bohater postanowił w niecałe 7 miesięcy zdobyć wszystkie czternaście 8-tysięczników i właśnie w ten sposób chciał zainspirować ludzkość. Padają tam słowa, że “jeśli zainspirujesz nawet dwie osoby, to możesz zainspirować cały świat”. I to we mnie to zostało.

Wierzymy, że jesteśmy w stanie zainspirować polską młodzież. A w przyszłości może i cały świat. Obrany przez nas kierunek edukacji osób młodszych jest niezwykle istotny. Do rozwoju kolejnych projektów chcemy wykorzystać energię i inspiracje, które czerpiemy m.in. z warsztatów. Następne lata chciałabym spędzić na pracy w fundacji i mocno wierzę w to, że któraś z tych dziewczyn lub któryś z chłopców w przyszłości osiągnie poziom ekspercki jako data scientistka lub data scientist.

AK: Zawód data scientist ma sporo możliwości łączenia różnych dziedzin. Pokazuje, jak szybko zmienia się ten świat. Daje możliwość nadążania za wszystkimi technologiami. Dzięki różnorodności pracy w tym zawodzie, po skończeniu kierunków związanych z data science zawsze będziemy przygotowani do pracy w innym miejscu lub branży. To jest jeden z tych zawodów, który z jednej strony wymusza, a z drugiej daje szansę do ciągłego rozwoju.

Specjaliści data science woleliby poświęcać mniej czasu na przygotowanie danych, a więcej na opracowywanie modeli. Do budowy jak najmniej stronniczych algorytmów potrzebują m.in. więcej komunikacji w zespołach. W pracy najbardziej satysfakcjonują ich wyniki projektów analitycznych. Z raportu pt. „Accelerated digital transformation” wiemy też, jakie umiejętności warto rozwijać, kiedy już jest się wirtuozem danych ustrukturyzowanych.

Ostatnie miesiące były totalną harówką. Specjaliści data science robili, co mogli, żeby zwiększyć poziom współpracy pomiędzy osobami zbierającymi i przetwarzającymi dane. Jednych i drugich przekonywali, że efekty będą tym lepsze, im więcej wymienią między sobą dodatkowych informacji o analizowanych grupach. Później jeszcze brali udział w procesach rekrutacyjnych, żeby nowe osoby wnosiły do zespołu nie tylko umiejętności techniczne, ale też różne punkty widzenia w zakresie analiz.

Równocześnie prowadzili rozmowy z kierownictwem o nowych produktach i mieli nadzieję, że to ich zespoły będą pracować nad prototypem. W końcu po to szkolili się w zakresie zarządzania bazami danych. Co prawda nowe przedsięwzięcie oznacza kilkadziesiąt godzin mozolnego przygotowywania danych, ale zdaniem specjalistów produkt będzie hitem, więc tym bardziej warto. Kiedy w końcu włączyli Slacka, zobaczyli wiadomość od menadżera. Lekko drążącą ręką weszli w powiadomienie i… odetchnęli z ulgą. “Mamy ten projekt!”.

Zajmujesz się danymi, ale wiesz, że po włączeniu komunikatora i przeczytaniu analogicznej wiadomości poczujesz raczej frustrację niż radość na myśl o nadchodzących tygodniach? Nie przejmuj się, z naszymi bohaterami było podobnie. Tak samo, jak z większością innych data scientistów – zgodnie z informacjami z raportu pt. „Accelerated digital transformation” przygotowanym przez SAS Institute specjaliści zajmujący się danymi przyznają, że ich codzienność nie jest zbyt bliska ideału. Na szczęście można temu zaradzić.

Czy przygotowanie danych jest warte zachodu?

Zbieranie informacji, prowadzenie badań eksploracyjnych czy zarządzanie danymi to czynności, na które specjaliści najchętniej poświęciliby 40 proc. swojego czasu. W rzeczywistości udział tego etapu w całości pracy projektowej wynosi średnio 58 proc. Jak przyznają specjaliści data science, zaoszczędzone w ten sposób godziny mogliby przeznaczyć na tworzenie modeli. I tak zamiast 11 proc. czasu pracy nad projektem, budowa modeli powinna zająć ok. 21-24 proc. Ale czy na pewno?

Podejście skracające etapy związane z przygotowaniem danych kwestionują eksperci. Na przykład Kirk Borne z DataPrime zaleca, żeby myśleć o tych fazach pracy jak o pierwszej randce w długoterminowym związku. Z kolei Patrick Butler, lider Data Science Bootcamp, dodaje, że bez zarządzania danymi i ich wyczyszczenia modelowanie to jedynie matematyka. Analityczka danych medycznych Danielle Boyce uważa wręcz, że czyszczenie zebranych informacji to jedna z najważniejszych ról data scientistów. W przeciwnym razie nikt nie umiałby wyciągnąć z zestawów danych wartościowej informacji.

Jakie przeszkody w pracy napotykają specjaliści data science?

W ostatnim roku specjaliści data science napotkali średnio 5 przeszkód w swojej pracy. Najczęstsza, zgłaszana przez 46 proc. ankietowanych, dotyczy polityki firm, a także niedostatecznego wsparcia finansowego dla zespołów data science. Kolejna trudność pod względem częstotliwości występowania wiąże się z zanieczyszczonymi danymi. Niemal połowa specjalistów (42 proc.) ubolewa, że wyniki ich pracy nie są dostatecznie uwzględniane przez decydentów biznesowych, a dla 35 proc. nużąca jest konieczność tłumaczenia, czym tak naprawdę jest data science.

Respondenci zauważają niedostatki również w obszarach związanych z liczbą specjalistów data science, wykorzystywanymi narzędziami czy budżetami przeznaczanymi na zbiory danych ze źródeł zewnętrznych. To wszystko może prowadzić do frustracji. Żeby jej uniknąć, przywoływany już Kirk Borne radzi zacząć od małych kroków – w danym czasie skupić się na przezwyciężeniu jednej przeszkody, a dopiero potem przejść do kolejnej. Tylko pod żadnym pozorem nie można ignorować barier i myśleć, że jakoś to będzie. Nie będzie.

Specjaliści data science chcą wdrażać mniej stronnicze algorytmy

Podczas gdy 26 proc. organizacji stara się, żeby modele były sprawiedliwe i traktowały wszystkich odbiorców tak samo, 43 proc. nie przykłada wagi do etyki w kontekście danych. Badani specjaliści data science mówią, że sprawiedliwym i bezstronnym wynikom analizy nie służy przede wszystkim brak komunikacji pomiędzy tymi, którzy dane przetwarzają, a tymi, którzy je zebrali. Kłopotliwe jest również zgromadzenie dostatecznej liczby informacji na temat grup, które mogą być nieuczciwie potraktowane. Obie bariery uzyskały blisko 40 proc. wskazań.

Jak dowiadujemy się z odpowiedzi 28 proc. ankietowanych, niełatwo jest też wybrać odpowiednie metryki ocen. Z kolei 22 proc. zaznacza, że byłoby prościej, gdyby członkowie zespołu byli bardziej zróżnicowani. Data scientistom, którzy w pracy napotykają przeszkody w łagodzeniu uprzedzeń i dyskryminacji, Borne zaleca przygotowanie własnych modeli, dokumentowanie działań i wyliczeń, zarejestrowanie wyników i pokazanie tak przygotowanego projektu zarządowi.

Większy poziom satysfakcji z pracy

Wszyscy wiemy, że im szczęśliwszy pracownik, tym lepsza obsługa klientów, mniejsza rotacja w zespołach, większa produktywność i wyższy zysk. A jak wygląda satysfakcja data scientistów? Zapytani o poziom zadowolenia z wyników projektów analitycznych, wdrażania modeli i sposobu, w jaki firmy wykorzystują ich pracę, specjaliści przyznali, że największą satysfakcję odczuwają w związku z pierwszą kategorią, co zdaniem autorów raportu wiąże się z wyższymi poziomami kontroli w tym obszarze.

Z kolei gorsze wyniki w pozostałych obszarach mogą sygnalizować szersze problemy w organizacji i pokazywać, że firma nie jest w stanie nadążyć za rozwojem technologii, choćby przez brak szkoleń. Jeśli na co dzień nie jesteście zadowoleni ze sposobów, w jaki organizacje używają wyników waszej pracy, uwzględnijcie sugestię przedstawiciela DataPrime – Borne zaleca, żeby skupiać się nie tylko na budowaniu i wdrażaniu modeli, ale też stać się częścią procesu decyzyjnego, który z nich korzysta.

W jakim kierunku rozwijać swoje umiejętności?

Specjaliści data science nie powinni spoczywać na laurach – doskonałe umiejętności w zakresie zarządzania danymi ustrukturyzowanymi, komunikacji, statystyki, modelowania statystycznego, a nawet specjalistyczna wiedza w konkretnych dziedzinach to jeszcze nie wszystko. Z badania wynika, że specjaliści powinni przyjrzeć się możliwościom rozwoju w zakresie zarządzania produktami i usługami w chmurze, administrowania bazami danych, modelowania graficznego, a także statystyki w ujęciu bayesowskim.

Wpływ COVID-19

Badanie przeprowadzone przez SAS wśród 277 menadżerów i pracowników zwraca również uwagę na wpływ pandemii COVID-19 na pracę w obszarze data science. Nawet 45 proc. ankietowanych przyznaje, że dziś są bardziej produktywni w porównaniu z czasem przed pandemią. Ponadto, częściej pracują zespołowo i używają zdecydowanie więcej usług chmurowych. Co istotne, 91 proc. uważa, że ich praca jest równie ważna lub nawet ważniejsza niż wcześniej.

Pobierz raport „The impact of increased digitization on the data science field”: https://www.sas.com/gms/redirect.jsp?detail=GMS212147_295205.

– Wrzucajcie swoje kody na GitHuba. Zrobiliście coś – opiszcie i wrzućcie. Jeżeli będziecie mieć później lepsze projekty, to te początkowe zawsze można ukryć albo usunąć To, co zostaje na GitHubie, pokazuje, jak piszemy i że umiemy coś zrobić, a nie tylko to, że mamy coś wpisane w CV. Praca jako data scientist to dzielenie się wiedzą – zapewnia Magdalena Cebula, junior data scientistka z firmy Aviva.

Magdalena Cebula pracuje jako data scientistka w grupie ubezpieczeniowo-finansowej Aviva. Prowadzi warszawską grupę WMMData, edukując wszystkich chętnych w zakresie data science i opowiadając, od czego zaczyna się praca jako data scientist. Autorka kanału „Niesztuczna inteligencja” na YouTube.

Jaka była Pani droga do data science – szybka ścieżka czy raczej pełna bugów?

Moja ścieżka była dosyć wyboista, ponieważ bardzo długo szukałam odpowiedzi na pytanie, czym w ogóle chcę się zajmować. Jestem po studiach informatycznych. Kiedy pierwszy raz miałam styczność z data science, machine learning był jednym z wielu przedmiotów. Zapytałam wtedy wykładowcę: „Wow, i to jest ten słynny ML?”. Wtedy nie wiązałam żadnej przyszłości z tą dziedziną. Chciałam iść w stronę programowania.

Coś jednak Panią skusiło?

W pewnym momencie w mojej pracy pojawił się pierwszy projekt związany z data science. Szło mi całkiem nieźle, pomyślałam – wygląda to fajnie. Stwierdziłam, że w tym właśnie chcę się rozwijać. I wtedy wzięłam udział w pierwszym wyzwaniu uczenia maszynowego w ramach Data Workshop. Ale nadal wiele było przede mną. Musiałam nauczyć się wszystkich rzeczy związanych z data science. Trochę rozwinąć programowanie, ponieważ Python nie był moim pierwszym językiem.

A czym się Pani zajmowała na początku w pracy jako data scientist?

Szukając pracy, najpierw trafiłam do firmy na stanowisko specjalisty do spraw walidacji modeli. Nie zajmowałam się więc ich tworzeniem, ale sprawdzaniem. Wtedy stwierdziłam, że chcę jednak być po drugiej stronie barykady. Pracować jako data scientist, tworzyć te modele. W ten sposób zaczęłam szukać kolejnej pracy. I tu zaczyna się kwestia wyboistej drogi, o której mówiłam wcześniej. Rozpoczęłam szukanie pracy wraz z wybuchem pandemii koronawirusa.

Ten czas nie był najlepszy dla żadnej branży. Hype na pracowników z branży technologicznej miał miejsce trochę później…

W momencie, kiedy pojawił się COVID, sytuacja na rynku pracy wyglądała tak, że nagle ludzie przestali rekrutować… Nikt nie wiedział, jak rozwinie się sytuacja. Nie było nawet gdzie wysyłać CV. Wtedy zaczęłam bezpośrednio pisać do rekruterów na LinkedIn i za którymś razem udało mi się dostać się na rozmowę kwalifikacyjną, przejść ją pozytywnie i od półtora roku pracuję jako junior data scientist.

Trafia Pani do branży data science i co dalej? Jak wyglądało zderzenie się z rzeczywistością?

Okazało się, że rzeczywistość jest dużo ciekawsza i zawiera dużo więcej obszarów, niż mogło się na początku wydawać. Kiedy zaczynamy przerabiać pierwsze kursy dotyczące data science, to bardzo często mamy podstawy Pythona, SQL-a, trochę statystyki i od razu wchodzimy w modele machine learning, a później sieci neuronowe.

Jako specjalista ds. walidacji modeli nie miała Pani takich możliwości?

Wcześniej pracowałam w banku, a tam modele ML niekoniecznie są tak samo popularne jak w innych branżach. Powiem więcej – zazwyczaj nie są one używane, ponieważ wymagana byłaby pełna transparentność tych modeli. Musimy być w stanie wytłumaczyć na każdym kroku, co i dlaczego się dzieje. Musimy wiedzieć, dlaczego model zwraca takie, a nie inne wyniki, więc po prostu wygodniej jest użyć modeli statystycznych i ekonometrycznych, gdzie mamy tę „wytłumaczalność” zapewnioną.

Czy w nowej pracy rzeczywistość okazała się bardziej złożona?

Dowiedziałam się, że nie będę tworzyć tylko modeli, ale też będzie bardzo dużo analiz, przygotowywania danych, tworzenia rozwiązań dla biznesu bardziej od strony IT, ale z naciskiem na pracę z danymi. Praca jako data scientist to nie tylko modele, bo to dość szeroka specjalizacja. Oczywiście zakres obowiązków na tym stanowisku zależy od pracodawcy, projektów i roli poszczególnych członków zespołu.

Każdy, kto będzie stawiał kroki w data science, powinien nastawić się raczej na pracę interdyscyplinarną niż wąską specjalizację. Dobrze rozumiem?

Jako data scientist bardzo często będziemy pracować przy projekcie od samego początku – od zrozumienia problemu, spotkań z klientami czy przygotowania danych. Później przychodzi czas na zbieranie danych i podjęcie decyzji, czy z takim zasobem danych możemy już tworzyć model. Zarówno z mojego doświadczenia, jak i z rozmów z innymi data scientistami wynika, że praca jako data scientist jest bardziej uniwersalna. Czasem wiele kompetencji się przenika i role w zespołach się zmieniają, więc trzeba być na to przygotowanym.

Wiele osób zapewne zastanawia się, czy praca jako data scientist wygląda jak w przypadk sapera. Ma prawo popełniać błędy?

Błędy będą się zdarzać na każdym etapie tej drogi. Natomiast chcę podkreślić, że w momencie, gdy pracujemy w zespołach, często ma miejsce tzw. code review, czyli sprawdzenie naszej pracy na wielu etapach. Nawet jeżeli popełnimy jakiś błąd, to go prędzej czy później znajdziemy. Wiadomo, że najlepiej jest się starać, żeby tych błędów było jak najmniej. Ale niestety często jesteśmy ograniczeni choćby poziomem wiedzy czy doświadczenia. Początki bywają trudne, ale nie wolno się zniechęcać, tylko szukać rozwiązania.

Załóżmy, że w praktyce jednak popełniłem ten błąd. Co dalej?

Popełnianie błędów jest standardem, do tego trzeba się przyzwyczaić. Powiem więcej – dzięki trudnościom i wyzwaniom, które pojawiają się w pracy, uczymy się i później wiemy, gdzie i jak szukać odpowiedzi. Świetnym źródłem do tego jest choćby Google, albo serwisy dla specjalistów z branży technologicznej takie jak GitHub.

W kontekście GitHub uważam, że warto wrzucać swój kod na ten serwis, dawać komuś do sprawdzenia. Zawsze możemy poprosić, aby jakiś specjalista, osoba z większym doświadczeniem zerknęła na kod i powiedziała, co możemy w nim poprawić. Tutaj też bardzo wiele korzyści mogą dać projekty open source. Kiedy zaangażujemy się w taki projekt, to zwykle standardem jest feedback albo wspomniany code review, czyli informacja zwrotna. Trzeba się przygotować, że na początku popełnimy masę błędów. Ale jest to jak najbardziej dopuszczalne.

Powiedziała Pani o specjalistach, osobach z większym doświadczeniem. Zastanawiam się, czy data scientist to taki samotny wilk w morzu projektó? Czy może jednak praca jako data scientist w agile’owym zespole i korzystanie z mentoringu to jego prawdziwe przeznaczenie?

Jak dla mnie obie te formy się przenikają. Jeśli chcemy być dobrym data scientistem, musimy włożyć bardzo dużo własnej pracy. Jednak nie ma się co oszukiwać, że przerobimy jeden kurs czy przeczytamy jedną książkę i nagle będziemy w stanie poradzić z zadaniami w pracy. Natomiast właśnie korzystanie z feedbacku, z różnych programów mentoringowych, z możliwości współpracy z innymi ludźmi dla mnie jest bardzo ważne.

Data scientist musi dobrze rozumieć biznes. Ja często mówię, że nie sztuką jest wrzucić dane do modelu, i cieszyć się, że coś nam wyszło. Tylko pytanie, czy to, co wyszło, rzeczywiście ma sens. Czy dane, które wrzuciliśmy, są dobrze przygotowane. Czy na koniec otrzymamy efekt w postaci skutecznego rozwiązania.

Jeżeli ktoś chce pracować jako data scientist i wychodzi z założenia, że nie będzie musiał współpracować z ludźmi, tylko może się zamknąć w swoim świecie, dostarczać produkty i najchętniej nie rozmawiać z innymi ludźmi, to spieszę z wiadomością – tak się po prostu nie da. Wszystkie projekty, wszystkie rozwiązania zaczynają się od rozmów, zrozumienia potrzeb.

Weszliśmy na obszar współpracy z biznesem, rozmów. Jakie umiejętności wymaga praca jako data scientist?

Możemy to podzielić na dwie części. Pierwsza z nich związana jest z umiejętnościami technicznymi. Znajomość Pythona i SQL to podstawa. Jeśli znamy R, to jeszcze lepiej. Później wchodzą odpowiednie dla danego zespołu technologie. Druga część to umiejętności miękkie, w szczególności odwaga zadawania pytań, tak by zrozumieć biznes i zrozumieć dane. Najlepsze pytanie, z którym powinniśmy się zaprzyjaźnić, to „dlaczego”.

Jeżeli startujemy jako Junior DS i chcemy znaleźć pierwszą pracę, staż czy praktyki, warto też mieć portfolio. Musimy mieć świadomość, że na rynku jest wielu ludzi po studiach, albo takich, którzy chcą się przebranżowić. A jeszcze są osoby po campach, kursach bądź samoucy. Musimy się jakoś wyróżnić.

Jak?

Najlepiej kodem na GitHubie. To jest zresztą moja osobista lekcja, jaką wyciągnęłam z ostatnich lat. Zawsze wychodziłam z założenia, że ścieżka do portfolio wygląda tak: mam projekty na studiach, studia się kończą, więc tworzę portfolio. Nic z tych rzeczy. Po studiach nie ma na to czasu. Zaczyna się praca i czasu na naukę własną nie ma już tak dużo.

Jeśli mogłabym coś podpowiedzieć osobom, które zaczynają się uczyć w tym kierunku – wrzucajcie wszystkie swoje kody na GitHuba. Zrobiliście coś – opiszcie i wrzućcie. Jeżeli będziecie mieć później lepsze projekty, to te początkowe zawsze można ukryć albo usunąć To, co zostaje na GitHubie, pokazuje, jak piszemy i że umiemy coś zrobić, a nie tylko to, że mamy coś wpisane w CV. Zachęcam też do udziału w projektach open source. To daje szansę, że możemy się pochwalić czymś większym w odróżnieniu od drobnych kodów wieszanych na GitHubie.

Ponadto bardzo mi pomógł LinkedIn i publikowanie na nim. Pozwala pokazać, że jesteśmy aktywni w tym co robimy, zaprezentować siebie, czego się nauczyliśmy i zbudować sieć ważnych dla naszego rozwoju kontaktów. Efektem jest zarówno możliwość znalezienia pracy, jak i wsparcie w rozwiązywaniu kwestii związanych z naszymi projektami. Warto być dostrzeżonym.

Dlatego zdecydowała się Pani również na tworzenie treści na YouTube?

To jedna z przyczyn. Dzięki temu mogę pokazać to, co robię, a także podzielić się tym, co mam do przekazania. I nawet jeśli będą to proste rzeczy, to pamiętajmy, że one są proste dla nas. Ale dla osób, które są początkujące, to ogromne źródło wiedzy. Niestety w sieci nadal brakuje materiałów wideo w języku polskim z obszaru data science. Za to jest więcej blogów. Wynika to z faktu, że standardem branżowym jest używanie języka angielskiego. Większość kursów jest w tym języku i to jest jedna strona medalu.

Widzi Pani taką potrzebę edukacji w obszarze machine learning, data science?

Potrzeba edukacji jest coraz większa. Przede wszystkim dlatego, że szeroko pojmowana sztuczna inteligencja coraz bardziej wchodzi z butami w nasze życie. Największe uniwersytety zajmują się kwestiami etyki sztucznej inteligencji. A „za drzwiami” stoi cały obszar metawersum i związanych z tym wyzwań i możliwości, nie mówiąc już o zainteresowaniu działaniem algorytmów Facebooka i innych firm.

Coraz więcej osób ma świadomość działania tych algorytmów, a zatem chce wiedzieć o nich więcej. Użytkownicy sieci wolą sami decydować o ewentualnym korzystaniu lub nie z danej technologii. Tego nie da się przeprowadzić bez rzetelnej wiedzy i poznania pewnych obszarów nauki odpowiedzialnych za te rozwiązania. Stąd konieczność edukacji w tym zakresie. Tak w obszarze bardzo zaawansowanych zagadnień technologicznych, jak i prostych mechanizmów, jakie wokół nas funkcjonują.

Brzmi bardzo mentorsko. Jak Pani widzi swoją przyszłość w pracy jako data scientist?

Chciałabym się wyspecjalizować w obszarze data science, zająć się bardziej specjalistycznymi tematami. Choćby w kontekście modeli sieci neuronowych, modeli grafowych opartych na prawdopodobieństwie. To są tematy, które będę chciała bardziej zgłębić, także w obliczu planowanego doktoratu.

Mam też nadzieję, że nadal będę mogła łączyć pracę zawodową z działalnością edukacyjną, popularyzatorską. Nie sądziłam, że tak wiele radości przyniesie mi prowadzenia kanału na YouTube o data science. To niesamowita rzecz, kiedy można się dzielić swoją wiedzą, odpowiadać na pytania widzów kanału. To bardzo mnie cieszy i inspiruje. Niezwykle ważne dla mnie jest też prowadzenie grupy WMMData w ramach DataWorkshop Foundation.

Porozmawiajmy o tym chwilę. Jak Pani trafiła do tego projektu?

To było na początku mojej zawodowej przygody z data science. Podczas pierwszego projektu w pracy, kiedy stwierdziłam, że chcę robić data science. Wtedy też wzięłam udział w wyzwaniu machine learning zorganizowanym przez DataWorkshop. Początkowo miało to być jedno wyzwanie, ale osoby w grupie opowiedziały się za tym, aby tych wyzwań było dużo więcej.

Oczywiście pojawiła się tez kwestia koordynowania spotkań w ramach grupy. Pomyślałam, że jestem na etapie, kiedy mam nieco więcej czasu i mogę się temu poświęcić. Przebiegło to na tyle sprawnie, że po kilku tygodniach udało się zorganizować warsztaty w ramach grupy. Następnie powstała idea stworzenia dużego projektu.

Na czym polegały te wzywania?

Jednym z zadań, jakie sobie nakreśliliśmy, było stworzenie modelu odpowiadającego za przewidywanie poziomu smogu. W Polsce akurat była zima, więc temat absolutnie na czasie. Kolejnym projektem było przewidywanie na podstawie historii pacjenta, czy zechce przyjść na umówioną wizytę. Problem zresztą bardzo poważny, ponieważ wielu pacjentów nie stawia się na wizyty. Potem pojawił się kolejny projekt, tym razem związany z przetwarzaniem języka naturalnego. Teraz stoimy przed wyborem kolejnego projektu.

Czy jest to jest zamknięta grupa pasjonatów machine learning?

Absolutnie nie. Nasza grupa jest dla wszystkich. Można dołączyć nawet jako wolny słuchacz, zadawać pytania. Co więcej, te pytania są dla nas bardzo ważne, ponieważ tworzą ogromną przewagę nad czymś, co moglibyśmy nazwać samodzielną realizacją projektu. Kiedy spotykamy osoby z różnych środowisk, ekspertów z różnych dziedzin o zróżnicowanym poziomie doświadczenia, to oni swoimi pytaniami zwracają naszą uwagę na rzeczy, o których byśmy nigdy nie pomyśleli. Nasza grupa jest miejscem, w którym można popełniać błędy. Ba, błędy te są przyczynkiem do rozwiązywania wielu problemów na różnych etapach projektu.

W Pani przypadku to chyba nie tylko praca jako data scientist, ale i pasja.

Bardzo dużo pasji. Fascynuje mnie połączenie części biznesowej, analitycznej i programistycznej. Lubię pracować z ludźmi, więc dla mnie możliwość spotkania się z ludźmi biznesu i zrozumienie, jakie mają potrzeby, jest zawsze na plus. Potem trzeba to przeanalizować, w czym pomagają tworzone modele machine learning, które w zasadzie skradły moje serce. A przy okazji mogę to zaprogramować, więc odzywa się moja potrzeba związana z obszarem IT.

Data science to także możliwości rozwoju. Mamy różnorodność zadań i technologii, jakie wykorzystujemy. Nie mówiąc już o modelach. Nie muszę się skupiać wyłącznie na samym ML, mogę się nauczyć sieci. Co więcej, same sieci to też jest bardzo szeroki temat – od takich, które przetwarzają obrazy, przez takie, które opierają się na prawdopodobieństwie. Mówię tu o sieciach grafowych, które są dla mnie niezwykle ważne.

Mentorzy objaśniający ludziom świat czy po prostu dobrzy rzemieślnicy budujący narzędzia dla biznesu – jak Pani widzi data scientistów?

Muszę przyznać, że ta techniczna działka jest bardzo ważna. Bez tego mamy tylko samą ideę. Możemy dużo mówić, ale wszystko trzeba zaprojektować, zaprogramować i przygotować. Nie należy też zapominać, że data science jest o tyle specyficzne, ponieważ jest osadzone w biznesie. Nie ma data science bez biznesu, inaczej byłaby to sztuka dla sztuki. Data scientiści mają w firmach rozwiązywać konkretne problemy.

Na początku problem trzeba znaleźć, później technicznie go rozwiązać, a następnie jeszcze przedstawić i przekonać ludzi do siebie. Proszę pamiętać, że nie wszyscy lubią zmiany. Jeżeli coś robiliśmy przez pięć lat w jeden sposób, a tu przychodzi jakieś nowe rozwiązanie, to najczęściej użytkownicy napotykają liczne trudności. A my musimy je przełamywać, czasu na same idee nie wystarczy.

Prawdziwy profesjonalista jest przygotowany na wszystko i wyposażony w odpowiednią wiedzę i narzędzia do pracy. Nie inaczej jest w przypadku data scientistów czy analityków, którzy na co dzień pracują z danymi. Oto frameworki data science, które powinny przyjść z pomocą zarówno na początku drogi z tym zawodem, jak i osobom już pracującym w branży.

1. TensorFlow

Gdy chodzi o frameworki data science, to jednym z najczęściej polecanych jest biblioteka programistyczna TensorFlow – otwarta źródłowa biblioteka napisana przez Google Brain Team. Wykorzystywana jest w uczeniu maszynowym i głębokich sieciach neuronowych. Jest to podstawowa biblioteka typu open source ułatwiająca tworzenie i trenowanie modeli machine learning. Wykorzystuje wykresy przepływu danych do budowania modeli, a także umożliwia programistom tworzenie wielkoskalowych sieci neuronowych z wieloma warstwami.

2. Pandas

Kolejnym proponowanym przez ekspertów narzędziem jest Pandas. To popularne oprogramowanie do zarządzania danymi, które napisane jest w Pythonie. Idealnie nadaje się do pracy z tabelami liczbowymi i danymi szeregów czasowych. Zapewnia elastyczne struktury danych, które ułatwiają manipulację danymi. Jest podstawą silników rekomendacji Netflixa i Spotify. Pandas działa dobrze z niekompletnymi i nieoznakowanymi danymi oraz zapewnia narzędzia do kształtowania, scalania, przekształcania i wycinania zestawów danych.

3. PyTorch

Niezwykle popularne są open source’owe biblioteki programistyczne języka Python do zastosowania w uczeniu maszynowym, np. w systemach przetwarzających język naturalny. Jedną z takich platform, które służą do budowania i trenowania modeli uczenia głębokiego na podstawie sieci neuronowych, jest PyTorch. Biblioteka jest pozytywnie oceniana za wspieranie szybkich i elastycznych eksperymentów oraz płynne przejście do wdrożenia produkcyjnego. To narzędzie charakteryzuje prosty interfejs, a szczególnie pomocne okazuje się także w tworzeniu wykresów obliczeniowych.

4. SciKit-Learn

SciKit-Learn to biblioteka open source z gotowymi algorytmami ML, która została stworzona na bazie SciPy do zastosowań i służy m.in. do przetwarzania obrazu, klasyfikacji, clusteringu czy badania modeli. Scikit zapewnia narzędzia do analizy modeli, takie jak tablica pomyłek, żeby oceniać ich skuteczność. Jest zaprojektowany do współpracy z numerycznymi i naukowymi bibliotekami Pythona NumPy i SciPy.

5. Keras

Keras to biblioteka sieci neuronowych typu open source napisana w Pythonie. Działać także na innych popularnych bibliotekach niższego poziomu, takich jak Tensorflow, Theano i CNTK. Może okazać się przydatna zwłaszcza wtedy, gdy mamy do czynienia z dużą ilością danych i chcemy je wykorzystać do projektowania zaawansowanych rozwiązań sztucznej inteligencji. Keras pomaga zarówno w stworzeniu prostych zastosowań związanych z machine learning, jak i zaawansowanych modeli deep learningowych.

6. Theano

Biblioteka Theano służy do wspierania obliczeń numerycznych. Niektóre biblioteki, takie jak Pylearn2, używają Theano jako podstawowego komponentu do obliczeń matematycznych. Theano pomaga w efektywnym definiowaniu, optymalizacji i ocenie wyrażeń matematycznych obejmujących tablice wielowymiarowe. Biblioteka jest dobrze zoptymalizowana, ponieważ wykorzystuje zarówno procesory, jak i karty graficzne. Podczas jej tworzenia głównym założeniem było szybkie przetwarzanie algorytmów sieci neuronowych używanych w deep learning – właśnie do takich celów najczęściej jest używana.

7. Numpy

Numpy, czyli Numerical Python – podstawowy zestaw narzędzi, które umożliwiają zaawansowane obliczenia matematyczne na macierzach. Numpy to biblioteka open source, która zapewnia programistom wszechstronność w pracy z macierzami i wielowymiarowymi tablicami. Jest to standardowa biblioteka do obliczeń naukowych w Pythonie i zapewnia potężne narzędzia do integracji kodu C/C++ i Fortran.

Frameworki data science a open source? Niezmienny trend w data science

Przedstawiliśmy narzędzia i biblioteki, które pozwalają specjalistom z branży technologicznej opracowywać modele ML lub aplikacje uczenia maszynowego bez konieczności zagłębiania się w techniczny aspekt tworzenia algorytmów. To nie tylko oszczędność czasu, ale przede wszystkim możliwość pełnego skupienia się na problemie do rozwiązania.

Ważnym czynnikiem do odniesienia sukcesu w data science jest korzystanie z już gotowych narzędzi i modeli. Rozwiązania w otwartym dostępie nie tylko są trendem, ale i koniecznością. Dzisiaj organizacje w dużym stopniu zaczynają zależeć od rozwiązań open source’owych. Żeby były skuteczne, powinny spełniać podstawowy warunek – integrować się z innymi systemami za pośrednictwem otwartych interfejsów API i zapewniać nieskończoną skalowalność.

Z tym drugim jest gorzej. Podczas gdy narzędzia open source mogą być niezwykle cenne w codziennej pracy analityków, w przypadku budowania długoterminowej strategii firmy opartej na zaawansowanej analityce te rozwiązania stwarzają wyzwania związane z koordynacją, integracją i dostarczaniem wartości biznesowej.

Platformy łączą i odpowiadają na wyzwania

I w tym miejscu pojawiają się platformy integrujące narzędzia w otwartym dostępie. Jedną z nich jest np. SAS Viya – platforma, która umożliwia wykonywanie zaawansowanych zadań związanych z modelowaniem analitycznym. Począwszy od eksploracji danych, poprzez wykorzystanie zaawansowanych metod statystycznych, data mining, data science, prognozowanie, metody optymalizacyjne, aż po wdrożenie wyników analiz, zarządzanie wieloma modelami w środowisku produkcyjnym i raportowanie wyników.

Warto zaznaczyć, że SAS Viya daje też analitykom możliwość pracy w preferowanym przez nich języku programowania niezależnie od tego, czy wolą R, czy Python. Dodatkowo zapewnia zespołom narzędzia, których będą potrzebować do zarządzania, eksploracji, przetwarzania i optymalizacji danych. To jedna baza, która może służyć wszystkim użytkownikom biznesowym bez względu na ich rolę w procesie korzystania z danych, przetwarzając je w bezpiecznym i kontrolowanym środowisku.

Podczas tworzenia modeli platforma pozwala przechodzić z narzędzi open source do SAS i vice versa. Dzięki temu procesy analityczne w firmie stają się dostępne dla wielu użytkowników, niezależnie od ich wiedzy technicznej.