– Zabawa i praca z danymi jest trochę jak gra w windowsowego sapera. Przynosi frajdę wtedy, gdy poznasz zasady. To takie samonapędzanie się i motywacja, że gdzieś tam, za linijkami kodu czy obliczeń, czeka na nas nagroda.

Tak mówi Bartosz Jabłoński – z wykształcenia matematyk, z zawodu „przetwarzacz danych”, z pasji wykładowca akademicki. Na co dzień ekspert w dziale Anti-Money Laundering (AML) w Citibank Europe PLC. W pracy native speaker języka SAS. W sieci – potrójny SaSensei. Wie, że to dzięki ludziom, dla których praca z danymi jest pasją, możliwe jest uczenie wytrwałości i cierpliwości. To ci sami, którzy twierdzą też, że od rozwiązywania problemów nasz mózg jest gotowy się uzależnić.

Piszesz w opisie na swoim profilu w LinkedIn, że bawisz się danymi. Co to oznacza?

Amerykanie ukuli takie zabawne powiedzenie: „data wrangling”, czyli „żonglowanie danymi”. Zabawa i praca z danymi za każdym razem może oznaczać co innego. Raz polega na przykład na wizualizacji, a innym razem na sprawdzaniu, czy dane, z którymi pracujemy, trzymają się w ryzach jakiejś statystyki. Czasem jest to testowanie lub optymalizacja wydajności fragmentu kodu przetwarzającego dane z postaci A do B. Każdorazowo jest to praca z liczbami albo tekstem, ale fakt – cały proces jest bardziej złożony od strony czysto technicznej.

Działka, w której pracuję, ten fragment AML, polega w pewnym stopniu na tym, że „przyglądamy się” systemowi do monitorowania transakcji bankowych. Ma on w sobie pewien zestaw podstawowych reguł i założeń. Na podstawie wpasowywania się w reguły wyłania się obraz potencjalnych oszustów. W dużym uproszczeniu: chodzi o wskazywanie zachowań, które pasują do wzorca. Fascynujące jest jednak to, że w naszym zespole pracują najróżniejsi specjaliści: od ekonomii przez statystykę czy prawo. Każdy z nas jest jak pojedynczy element lego. Każdy klocek ma inny kształt, a dopiero jak się je wszystkie złączy, to wychodzi cały model. Dopiero razem tworzymy coś, co można nazwać zespół „robiący data science”.

Czy można być fanem wybranego języka programowania – w takim samym znaczeniu jak być fanem Ewy Chodakowskiej, Gry o tron czy The Rolling Stones?

Oczywiście! Żeby to wyjaśnić, użyję analogii – na przykład sportowe Porsche Carrera 911. Cudowny samochód, marzenie niemal każdego fana motoryzacji. Gdybym miał wybierać, to chciałbym właśnie takie auto. Spełnia część moich potrzeb, ale oczywiście nie jest scyzorykiem szwajcarskim. Pewnie nie nadawałoby się do przewożenia mebli albo jazdy w terenie.

Podobnie jest w świecie analityki. Dobór narzędzia powinien być adekwatny do potrzeb. Ja akurat jestem zwolennikiem i entuzjastą rozwiązań SAS, bo łączą w sobie wszystkie funkcjonalności, które są niezbędne w mojej codziennej pracy. Nie można ich traktować jak wyroczni, ale pozwalają na wiele w dziedzinie przetwarzania, zarządzania, eksploracji i analizy danych. Do tego dochodzi bardzo prężna i otwarta społeczność skupiona wokół SAS. Języki programowania to narzędzia, a narzędzia należy kolekcjonować. Nie wyrzuca się kombinerek, bo kupiło się młotek, prawda? Zwłaszcza jak się te kombinerki lubi.

Jesteś koordynatorem PolSUG, czyli jednej ze społeczności, które zrzeszają inżynierów, analityków i programistów SAS. Jak bardzo ważne jest, żeby ludzie z branży wymieniali się ze sobą doświadczeniami?

Obecnie narzędzia programistyczne są na tyle duże i skomplikowane, że jeden człowiek nie jest w stanie wiedzieć wszystkiego. Stąd „co dwie głowy, to nie jedna”. Dzięki aktywności, jaką prowadzimy w ramach Polish SAS Users Group, możemy uczyć się od siebie nawzajem nowych rzeczy. Zaczynaliśmy od niewielkiego spotkania, później dołączali następni użytkownicy. Teraz tworzymy kanał, forum dyskusyjne i jesteśmy całkiem sporą społecznością. Możliwość dzielenia się informacjami i wymiana doświadczeń mogą być pomocne w rozwiązaniu problemu, np. ustaleniu, dlaczego kod nie działa. Może akurat jest ktoś, kto zmaga się z tymi samymi trudnościami i jest np. o jeden dzień dalej w poszukiwaniu rozwiązania. Ten wspólny intelektualny wysiłek pozwala zaoszczędzić czas i nerwy. Trochę na zasadzie hackathonów – rozwiązujemy problemy, ale nasza społeczność ze sobą nie konkuruje, raczej współpracuje. Razem próbujemy rozwiązać wybrany problem informatyczny czy matematyczny, ale nie ma tutaj wyścigu szczurów i pogoni za nagrodami.

Jednym z elementów Waszej aktywności jest quiz – SaSensei. Ma wyłonić tego, który najlepiej posługuje się językiem SAS?

Nie, absolutnie nie. SaSensei (zbitka słów SAS i sensei [jap. nauczyciel]) to przede wszystkim zabawa. To gra sieciowa, a dokładniej quiz interaktywny stworzony przez Allana Bowe na temat znajomości języka SAS i programowania w nim. To taki niby-konkurs, ale z góry zakładamy, że robimy to dla frajdy. Poprawne odpowiedzi na pytania dają punkty, kolejne punkty to następne „poziomy wtajemniczenia”. Każdy, kto dąży do bycia SaSensei, kolejno zdobywa odpowiednią rangę – podobnie jak pasy we wschodnich sztukach walki.

Przede wszystkim SaSensei odgrywa rolę edukacyjną. W quizie dzielimy się wyjaśnieniami konkretnego zadania. Rozwijamy bazę pytań i odpowiedzi. Uczymy się nowych funkcjonalności albo nieznanych nam wcześniej możliwości programowania czy analizy danych. Choć element „gamingowy” związany z rywalizacją i najlepszym wynikiem na pewno działa motywująco.

Jesteś nie tylko czynnym zawodowo analitykiem, ale też nauczycielem akademickim. Piszesz: „dążę do zarażania innych swoją pasją”. Czy zabawa i praca z danymi to coś, do czego łatwo zachęcić innych?

Zabawa to z założenia coś przyjemnego. A żeby dobrze się bawić, trzeba znać reguły gry. Praca z danymi może przynosić ekscytujące rezultaty, ale żeby przeżyć tę frajdę, trzeba spełnić warunek – poznać zasady, nauczyć się fachu. Gra w windowsowego sapera jest świetna, ale dopiero wtedy, gdy odkryjemy, jak można flagować pola i zdobywać punkty. Zaznaczam swoim studentom, że w analizie danych nie ma miejsca na robienie czegoś z grubsza. Nie ma półśrodków. Przypomina to skok na głęboką wodę, w której można się poruszać, tylko jeśli potrafisz doskonale pływać.

Często podaję przykład weekendowych kursów programowania albo nauki nowego języka w dwadzieścia cztery godziny. To tak nie działa. Bo to nie jest tylko kwestia nauczenia się słów kluczowych i przysłowiowego „Hello World”. To kwestia przestawienia się na inny sposób myślenia. W jednym języku patrzy się na dane w pionie, a w innym w poziomie. Wymagane jest przełączenie sposobu myślenia, co nie przychodzi tak łatwo. Ze studentami jest tak, że tych, którzy mieli styczność z analizą, właściwie nie ma co przekonywać do tego, że praca z danymi jest ekscytująca. Reszta to ci, którym trzeba przede wszystkim uświadomić, że zdobycie zestawu umiejętności pozwalających na to, żeby w swobodny sposób poruszać się w świecie danych, będzie wymagać od nich pracy i wysiłku. A one zawsze się opłacą.

Jakie są według ciebie największe wyzwania w kształceniu specjalistów od data science?

Wyzwaniem jest to, żeby poziom kształcenia był wysoki. To z kolei jest uzależnione od osób, które przekazują wiedzę. Wiele zależy też od tego, czy przekazują tę wiedzę z pasją. Bo młodym ludziom trzeba wyjaśnić, że studia w tej dziedzinie nie należą do najłatwiejszych, a jednocześnie pokazać, że są naprawdę fascynujące. Dlatego przekazywanie wiedzy musi iść w parze z nauczeniem, jak zaakceptować to, że czasami w naszej pracy zderzamy się ze ścianą, że nie wszystko da się łatwo rozwiązać. To kształtowanie cierpliwości, wytrwałości.

Sytuacja z życia – kod nie działa. Wtedy co? Mam rzucić klawiaturą? Nie. Wtedy trzeba na chwilę odpuścić, przewietrzyć głowę, pójść na spacer, spojrzeć na problem szerzej. Czasem nad rozwiązaniem pracuje się trzy dni i pustka. Jednak w końcu przychodzi pomysł i sprawa rozwiązana. To takie codzienne „hartowanie ducha” i ćwiczenie silnej woli. Kiedyś słyszałem na jednej z branżowych konferencji, że każda dobra lekcja wiąże się z odrobiną bólu. I dopiero wtedy ma ona swoją wartość.

Czy praca z danymi, którą wykonujesz, jest dla Ciebie ekscytująca? A może emocjonująca?

Bardzo często buzują w nas emocje. Czasami jest tak, że zmagamy się z problemami, które na pierwszy rzut oka wydają się nierozwiązywalne w łatwy sposób. Na samym początku nie widać, że odpowiednie rozwiązanie znajdziemy po dniu, dwóch, czasem po tygodniu. Kiedyś w końcu się uda.

To takie samonapędzanie się i motywacja, że gdzieś tam, za linijkami kodu czy obliczeń, czeka na nas nagroda. Jestem pewien, że powie to każdy analityk, programista czy matematyk. Kiedy udaje się sfinalizować jakieś zadanie, udowodnić twierdzenie albo dojść do rozwiązania, to czuje się ogromną, czasem nieporównywalną z niczym innym frajdę. To taka dzika satysfakcja. Rollercoaster ekscytacji. Poczucie spełnienia, że kolejny raz pokonało się nie tylko maszynę, ale też samego siebie i własne ograniczenia. Od takiej przyjemności nasz mózg jest gotowy się uzależnić. W dobrym tego słowa znaczeniu.

Dla wielu osób termin „data science” brzmi enigmatycznie. Tymczasem temat zdobywania danych i informacji oraz ich wykorzystania do różnych celów jest tak ciekawy, że często sięgają po niego twórcy filmów i seriali. I to nie byle jakich – wśród setek tytułów znajdziemy takie kasowe hity jak “Raport mniejszości”, “Black Mirror” czy filmy o Bondzie. Przyjrzyjmy się zatem, jak scenarzyści i reżyserzy przedstawiają AI, big data i filmy o data science.

Dziesiąta muza w kontekście wykorzystania nowoczesnych technologii do pozyskania i analizy danych oferuje rozrywkę, naukę i sensację. Seriale czy filmy o data science znakomicie ukazują szanse i zagrożenia wynikające ze sprawnego wykorzystywania zgromadzonych informacji.

Przewagi konkurencyjne

Jednym z celów zaawansowanej analizy danych jest uzyskanie przewag konkurencyjnych, co znajduje odzwierciedlenie również w produkcjach filmowych. Analiza danych sportowych jest centralnym punktem fabuły “Moneyball”, w którym drużyna baseballowa zaczyna osiągać lepsze wyniki po zastosowaniu narzędzi analitycznych. Podobny użytek z big data na rynku finansowym robi główny bohater “Big Short” – dr Michael Burry, najpierw neurolog, a później menedżer kalifornijskiego funduszu hedgingowego Scion Capital. To oparta na prawdziwych wydarzeniach i nagrodzona Oscarem opowieść o analitykach giełdowych, którzy przewidzieli kryzys finansowy z 2007 roku i wykorzystali tę wiedzę do szybkiego wzbogacenia się.

Przemysł rozrywkowy i big data od lat idą w parze, czego najlepszym dowodem jest Netflix. Amerykańska platforma streamingowa nie tylko wykorzystuje informacje o gustach użytkowników, aby podpowiadać kolejne pozycje do obejrzenia. Netflix jako jeden z pierwszych poszedł o krok dalej i wykorzystał dane o preferencjach użytkowników przy planowaniu nowej produkcji. W ten sposób właściciele serwisu mogli przewidzieć, że zatrudnienie przy “House of Cards” Kevina Spacey’ego i Davida Finchera będzie komercyjnym sukcesem. Amerykańska platforma przeanalizowała dane 139 milionów użytkowników na całym świecie pod kątem tego, czym się interesują, jakiego rodzaju filmy oglądają, a także jacy aktorzy i reżyserzy przyciągają ich uwagę. W ten sposób big data ułatwiła przeprowadzenie castingów i w pewien sposób „podyktowała” scenariusz serialu.

Prognozowanie

Niestety jeszcze nie jesteśmy w stanie prognozować zjawisk pogodowych z taką dokładnością, jak zostało to pokazane w filmach katastroficznych Rolanda Emericha, choć powoli przybliżamy się do tego celu. Zarówno “Pojutrze”, jak i “2012” opowiadają o zbliżających się klęskach. Ludzkość dowiaduje się o nich dzięki analizie danych na temat klimatu i zdarzeń na Słońcu.

Równie trudnym zadaniem jak prognozowanie pogody jest przewidywanie przestępstw, co stanowi główną oś fabularną “Raportu mniejszości” z Tomem Cruise’em. Ekranizacja opowiadania Philipa Dicka o tym samym tytule pokazuje dystopijną przyszłość, w której za sprawą przetwarzania informacji i analizy obrazu policja i służby specjalne mogą zapobiegać przestępstwom, zanim te się wydarzą. Podobnie jak w “2001: Odysei Kosmicznej”, tak i tu technologia jest podatna na błędy, których konsekwencją może być ludzkie życie.

Bezpieczeństwo i potencjalne zagrożenia

Przetwarzanie danych w dużym stopniu wiąże się z kwestią bezpieczeństwa. Trudno się dziwić, że temat zagrożeń związanych z big data jest pożywką dla scenarzystów filmów akcji. Najlepszym przykładem są ostatnie filmy traktujące o przygodach agenta 007. Główny wątek “Spectre” dotyczy próby wyeliminowania programu szkolenia szpiegów, którą podejmuje C, szef Połączonych Wywiadów. Max Denbigh, w którego wciela się Andrew Scott, przekonuje brytyjski rząd do wejścia do “Komisji 9 Oczu”. To właśnie ta globalna inicjatywa za sprawą nowych technologii do inwigilacji obywateli miała zastąpić przestarzałe techniki stosowane przez agentów Jej Królewskiej Mości.

Przedsięwzięcie okazuje się przykrywką działań organizacji Spectre, której celem jest przejęcie władzy nad światem. Tytułowa grupa terrorystyczna analizuje informacje wywiadowcze zebrane online oraz obrazy z rozległej sieci kamer i baz danych w Saharan Crater Facility, sekretnej siedzibie Spectre zbudowanej wewnątrz krateru powstałego w wyniku uderzenia meteorytu w Północnej Afryce. Przeciwny działaniom C szef tajnych służb M podkreśla, że takie ruchy są receptą na stworzenie globalnej, przez nikogo niewybranej władzy. Tymczasem jego zdaniem decyzje o życiu i śmierci mogą podejmować tylko ludzie, a nie komputery.

Autonomiczne pojazdy

Skoro już jesteśmy przy Jamesie Bondzie, trudno nie wspomnieć o inteligentnych samochodach, pojawiających się w wielu częściach kultowej serii szpiegowskiej. Dziś są rzeczywistością, co nie byłoby możliwe bez AI trenowanej na dużych zbiorach danych. Tematyka autonomicznych pojazdów pojawia się również w nowszej i starszej części “Blade Runnera”, a także w wielu odcinkach serialu “Black Mirror”. W produkcji Netfliksa znajdziemy zarówno poruszające się samodzielnie auta, jak i wszelkiego rodzaju drony i roboty, włączając w to czworonożne maszyny czy roje mechanicznych pszczół, które zaczynają atakować ludzi. I, o zgrozo, ofiary wybierają na podstawie publicznie dostępnych danych – postów zamieszczanych w portalach społecznościowych.

Historia przetwarzania danych

Decydując się na filmy o data science, nie powinniśmy zapomnieć również o dwóch znakomitych filmach biograficznych postaci, bez których świat oparty na danych nie mógłby zaistnieć. Mowa o Alanie Turingu i Johnie Nashu, którzy zostali sportretowani w filmach “Gra tajemnic” i “Piękny umysł”. Turing był konstruktorem jednego z pierwszych komputerów, a jednocześnie ojcem sztucznej inteligencji. Z kolei John Nash miał ogromny wpływ na rozwój teorii gier, która stoi u podstaw m.in. sztucznej inteligencji.

– Wśród data scientistów jest takie powiedzenie: „rubbish in, rubbish out”. Oznacza, że jeżeli wrzucimy śmieciowe dane do modelu, to dostaniemy śmieci z powrotem. Dane danym są nierówne. Choć wciąż jesteśmy bardzo daleko od prawdziwego „artificial intelligence” jak z filmów science fiction, kluczowe jest uczenie maszynowe. Zamiast ciąć pacjenta, lepiej jest sprawdzić jego stan zdrowia w sposób nieinwazyjny za pomocą analizy komputerowej. Temu właśnie służy medycyna obliczeniowa – mówi dr inż. Karolina L. Tkaczuk, dyrektorka ds. rozwoju w Sano – Centre for Computational Personalised Medicine.

Dr inż. Karolina Tkaczuk jest biotechnolożką, bioinformatyczką i doświadczoną menedżerką, której zainteresowaniem jest medycyna obliczeniowa. Przez lata prowadziła badania naukowe i od wielu lat prowadzi projekty, których celem jest komercjalizacja wyników badań z dziedziny nauk medycznych. Zarządzała m.in. projektami innowacyjnymi o potencjale translacyjnym w BTM Innovations, a w Ardigen, spółce grupy Selvita, odpowiadała za rozwój biznesu bioinformatycznego oraz AI. Ocenia też projekty grantowe na badania wdrożeniowe dla licznych grantodawców, łącznie z rządem Hiszpanii.

Wykształcenie zdobyła w najlepszych krajowych ośrodkach akademickich – Politechnice Łódzkiej w Centrum Kształcenia Międzynarodowego oraz w Międzynarodowym Instytucie Biologii Komórkowej i Molekularnej. Pracowała też w Instytucie Biologii Doświadczalnej im. M. Nenckiego PAN. Spędziła 5 lat na Uniwersytecie w Wirginii w Charlottesville (USA), gdzie m.in. prowadziła badania naukowe w obszarze bioinformatyki i krystalografii białek, a także zarządzała projektami naukowymi. Przez lata współpracowała z amerykańskimi grupami kapitałowymi, które zajmują się ochroną własności intelektualnej i komercjalizacją.

Wyszukiwarka Google na hasło „medycyna obliczeniowa” wyświetla głównie linki do artykułów powiązanych z Sano – Centrum Zindywidualizowanej Medycyny Obliczeniowej w Krakowie, gdzie jest Pani dyrektorką ds. rozwoju. To nie tylko efekt dobrego SEO?

Absolutnie nie, tym się właśnie zajmujemy. Cieszy mnie ten fakt, ponieważ to znaczy, że zespół robi „dobrą robotę”.

Dlaczego w ogóle bioinformatyka, dlaczego medycyna obliczeniowa? Skąd fascynacja tym rodzajem badań?

Ja zawsze byłam osobą ciekawską. Z wykształcenia jestem biotechnologiem, ale rozwiązania z tego zakresu wykorzystujemy od dawna. Chciałam robić coś nowego, bardziej innowacyjnego, dlatego naturalnym kierunkiem rozwoju dla mnie była bioinformatyka strukturalna. To metody obliczeniowe, które umożliwiają projektowanie badań czy leków. Medycyna obliczeniowa może natomiast pomóc w tworzeniu systemów wspomagania decyzji, z których mogą korzystać lekarze, również w procesie diagnozowania.

Bycie dyrektorem ds. rozwoju to nie tylko codzienna praca z danymi, ale czasem pewnie nieco mniej fascynujące dla naukowca zajęcia?

Osobiście odpowiadam w Sano za organizowanie relacji zarówno z ośrodkami akademickimi (w tym sąsiadującą z Sano Akademią Górniczo-Hutniczą w Krakowie), jak i z poszczególnymi klinikami czy przedstawicielami przemysłu. Centrum realizuje też swoją misję popularyzatorską – rozpowszechniamy w mediach wiedzę na temat medycyny obliczeniowej. Efekty tej pracy widać również w Google, o czym mówiliśmy na początku. Jednakże głównym zadaniem mojego zespołu pozostaje poszukiwanie partnerów do współpracy dla naszych grup badawczych, działania komunikacyjne, brokerowanie wytwarzanych przez nas rozwiązań i pozyskiwanie funduszy na dalsze prowadzenie badań Sano.

Cóż, to całkiem pojemne pod względem zadań stanowisko, które obejmuje w zasadzie rozwój całego centrum na wielu płaszczyznach. A jakie cele postawiła Pani przed sobą, obejmując tę funkcję?

Najważniejszą kwestią dla mnie było stworzenie marki Sano Science, czyli wypromowanie Centrum jako nowej organizacji zajmującej się badaniami na najwyższym światowym poziomie w obszarze medycyny obliczeniowej na terenie Polski i Europy. Drugim równie ważnym celem było nawiązanie współpracy z uczelniami, przemysłem i sektorem medycznym, ponieważ bez nich nie istnieje w zasadzie ani medycyna obliczeniowa, ani dobra nauka.

Przyzna Pani jednak, że Sano to niejedyny ośrodek zajmujący się danymi w Polsce, także tymi medycznymi.

Oczywiście tak. Dlatego niezwykle ważna jest dla nas współpraca z sektorem akademickim oraz innymi podmiotami w celu łączenia sił. Z okresu mojej pracy w Stanach Zjednoczonych wyniosłam to, że siła tkwi w grupie. Nie ma więc sensu wyważać drzwi w pojedynkę, jeśli można to zrobić wspólnie.

Mówimy o medycynie obliczeniowej, ale to nie jest tylko analiza danych medycznych. Technologie te działają już z powodzeniem od wielu lat. Jak można scharakteryzować główne trendy tej dziedziny medycyny?

Na rozwój medycyny obliczeniowej można patrzeć w bardzo szerokim kontekście. To mogą być na przykład badania podstawowe nad zastosowaniem modeli obliczeniowych do badania przepływu płynów w organizmie. Takie projekty realizujemy właśnie w Sano. Mówimy tu o technologii stosowanej często choćby w kardiologii. Zamiast ciąć pacjenta, lepiej jest sprawdzić, czy da się ocenić jego stan zdrowia w sposób nieinwazyjny, chociażby dzięki analizie komputerowej.

Oczywiście to nie wszystko. Możemy wyszczególnić projektowanie czy poszukiwanie nowych biomarkerów, czyli takich cząsteczek, które pozwolą nam na wczesnym etapie stwierdzić, czy dana osoba cierpi na konkretną chorobę. Albo w znacznym stopniu wykluczyć takie ryzyko. Wtedy można zastosować dalsze metody diagnostyczne, już bardziej wyrafinowane, aby taką diagnozę postawić.

Kolejny obszar to analiza obrazów, która już dzisiaj usprawnia pracę wielu szpitali, szczególnie w nowoczesnej radiologii. Zajmujemy się też czymś, co nazywa się „personal health data science”. Ten zespół w Sano tworzy systemy, które badają wszystkie parametry zdrowotne pacjentów i na wczesnym etapie mogą wspierać lekarzy w dokonywaniu właściwych decyzji co do stylu życia, aktywności fizycznej czy diety. Pozwala to niwelować skutki ewentualnych złych zachowań, potencjalnie zwiększających ryzyko zachorowania. De facto jest to budowa swoistego asystenta zdrowotnego dla pacjentów, który podpowiada, co należy robić dziś, aby w przyszłości nie musieć się leczyć.

Sano Centrum prowadzi również badania w obszarze rzeczywistości wirtualnej oraz rzeczywistości poszerzonej, tzw. VR (virtual reality) i AR (augmented reality). Pewnie większości z nas trudno sobie wyobrazić zastosowanie takich technologii w praktyce, zwłaszcza medycznej. Dobrym przykładem są wirtualne trenażery dla chirurgów, którzy mogą doskonalić swoje umiejętności na robotach operacyjnych lub wykonywać operacje laparoskopowe.

Zajrzyjmy do działań Pani zespołu od kuchni. W jaki sposób podchodzicie do pracy z danymi?

Praca w zespole zajmującym się projektami z obszaru medycyny obliczeniowej to praca interdyscyplinarna. Nigdy nie jest tak, że pracują tu wyłącznie informatycy nad kodem. To są zespoły, które mają wielu specjalistów z kilku dziedzin. Potrzebny jest zarówno ktoś znający się na kodowaniu, jak i ten, kto ma styczność z biologią i rozumie te procesy. Nie obejdzie się tu też bez lekarza, który dokładnie wie, co może usprawnić jego pracę i jakie narzędzia będą najbardziej przydatne. Wie również, jakie problemy należy rozwiązać w pierwszej kolejności oraz w czym mogą mu pomóc nowoczesne technologie.

To nie koniec. Gdybyśmy spróbowali takie rozwiązanie stworzyć sami, bez udziału tzw. odbiorcy końcowego, czyli potencjalnego pacjenta albo lekarza, to szanse na powodzenie byłyby marne. To są osoby, które najdokładniej wiedzą, gdzie leży problem. Dlatego na poziomie koncepcyjnym pracujemy w grupach mieszanych. Później informatycy planują poszczególne kroki, co jakiś czas spotykamy się, żeby skonfrontować tę pracę z praktykami, czyli lekarzami. Musimy sprawdzić, czy te wyniki, które dostajemy, po prostu mają sens.

A jeśli nie mają sensu?

To nie tak. One nawet dla nas mogą mieć sens, ale dla lekarza niekoniecznie. Będą zbyt oczywiste lub będzie czegoś brakowało. Dlatego kluczowa jest współpraca właśnie z klinicystami.

Mówi Pani o jakości danych?

Oczywiście. Wśród data scientistów jest takie popularne powiedzenie: „rubbish in, rubbish out”. Oznacza ono, że jeżeli wrzucimy śmieci do środka, to dostaniemy śmieci z powrotem. Dane danym są nierówne. Nawet nie chodzi o to, że dane z jednego ośrodka są gorsze niż dane z innego ośrodka. Czasami dane w obrębie jednej przychodni potrafią się bardzo różnić z różnych powodów: mogą być stosowane różne urządzenia do pozyskiwania danych, mogą one być obsługiwane przez personel o różnych umiejętnościach, dochodzi też czynnik losowy. Zasadniczo nie ma idealnych zestawów danych, w których ich jakość będzie w stu procentach identyczna. To doskonale widać na etapie tworzenia takich rozwiązań. I wtedy wyskakuje nam coś zupełnie niezgodnego, niepodobnego do całej reszty.

I co wtedy?

Przyglądamy się danym bliżej. Jeśli to są zdjęcia histopatologiczne czy rentgenowskie, to mogą być rozmazane albo niekompletne. Ważnym etapem przy tworzeniu rozwiązań medycyny obliczeniowej jest sprawdzenie jakości danych na wejściu, zanim zaczniemy dalsze prace nad projektem.

No dobrze. To mamy już dane i musimy je przeanalizować. Z jakich technologii korzysta medycyna obliczeniowa?

W praktyce najczęściej używane są sieci neuronowe i uczenie maszynowe. Wciąż jesteśmy bardzo daleko od takiego prawdziwego „artificial intelligence”, jakie sobie możemy wyobrazić, oglądając filmy science fiction jak np. „Ex Machina”. Dziś sztuczną inteligencją może być określane wszystko, co zrobimy w obrębie obliczeń. Kluczowe jest jednak machine learning (ML). Dzięki niemu możemy wziąć dostępne dla projektu dane, wskazać pożądane i niepożądane rezultaty w obrębie danych, a później obserwować, jak system uczy się je rozpoznawać.

Czy może Pani zdradzić, nad czym aktualnie pracujecie? Na LinkedIn można przeczytać o projekcie analizy graficznej mózgu.

Ta grupa zajmuje się danymi obrazowymi w chorobach mózgu. Specjalizują się w chorobach neurodegeneracyjnych, jak np. choroba Parkinsona czy Alzheimera. Badania pomogą przybliżyć nam zrozumienie tego, co konkretnie może wywoływać te choroby.

W tym projekcie wykorzystujemy uczenie maszynowe do znajdowania połączeń pomiędzy procesami chemicznymi w mózgu. Mam nadzieję, że w przyszłości ta wiedza wspomoże badaczy i lekarzy pracujących nad tymi zjawiskami, dzięki czemu zaczną szybciej przewidywać, czy u danego pacjenta właśnie rozwija się alzheimer lub parkinson.

Zdaje się, że tego typu badania już funkcjonują od jakiegoś czasu. To gdzie tu medycyna obliczeniowa mogłaby znaleźć dla siebie miejsce?

Rzeczywiście w prasie naukowej jest dużo informacji na ten temat. Natomiast przyczyny pojawienia się alzheimera nadal nie są do końca znane. Wiemy, że jeśli w rodzinie była osoba chora, to prawdopodobieństwo wystąpienia choroby jest większe. Ale czy na pewno? Na razie nie możemy tego przewidzieć, zwłaszcza na wczesnym etapie, przed wystąpieniem objawów.

Zatem medycyna obliczeniowa ma za zadanie przyspieszenie badań, jak również diagnozy?

Z jednej strony pozwoli to na oszczędność czasu, a z drugiej – na przeprowadzenie badania mniej doświadczonemu personelowi. Osoba z dwuletnim doświadczeniem a taka, która jest w zawodzie od 20 lat, to zupełnie różni specjaliści. I jednym, i drugim chcemy dać narzędzia do usprawnienia pracy.

A jak długo trwa wdrożenie tych rozwiązań?

Chcielibyśmy, aby były implementowane od razu, ale na razie ta droga jest długa. Rozwiązania muszą przejść metody walidacji, czyli stwierdzenia, że ta metoda naprawdę działa i myli się nie częściej niż lekarz.

Jak to rozumieć?

Pomyłka systemu nie może być częstsza niż lekarza. To złoty standard obowiązujący dziś w medycynie obliczeniowej. Jeśli będzie równa lekarzowi to super, a jeśli będzie rzadziej się mylić – uznajemy to za ogromny sukces.

Ale lekarzy raczej nie zastąpicie?

Oczywiście nie, to nie są systemy do zastąpienia lekarzy. Choć często pojawia się niezrozumienie, nawet wśród personelu medycznego, co powoduje niechęć czy nieufność wobec medycyny obliczeniowej. My z kolei chcemy tych specjalistów tylko wspomóc. Lekarze bowiem często są przepracowani, przemęczeni, obciążeni mnóstwem obowiązków, również tych administracyjnych.

Mało tego, kolejnym krokiem jest certyfikacja, podczas której musimy wykazać, że taki system spełnia normy międzynarodowe, jest powtarzalny, że tam nie dzieje się nic przez przypadek. I dopiero wtedy są przeprowadzane badania kliniczne, czyli testowanie działania urządzenia bezpośrednio w klinice. Wtedy możemy porównać pracę lekarza i systemu, co pozwala dokładnie ocenić poprawność działania systemu. Pamiętajmy, że wszelkie decyzje czy plany dotyczące leczenia zawsze podejmuje specjalista. System ma tylko dostarczyć odpowiednie informacje, które mogą wspomóc podjęcie decyzji. Dlatego te systemy nazywamy systemami wspomagania decyzji (ang. decision support systems, DSS).

Porozmawiajmy też o efektach ubocznych, ponieważ mamy do czynienia ze zdrowiem i życiem człowieka.

Efekty uboczne to najbardziej kontrowersyjny temat zarówno wśród naukowców, pacjentów, jak i samych lekarzy, zwłaszcza gdy chodzi o stosowanie leków. Obecnie jest to temat szczególnie drażliwy w kontekście różnego rodzaju szczepionek. Podobne zarzuty kierowane są pod adresem medycyny obliczeniowej – czy wytwarzane systemy z udziałem sztucznej inteligencji i ich zastosowanie w praktyce klinicznej nie będą niosły za sobą efektów ubocznych. Kluczowe jest informowanie społeczeństwa o tym, jak działają takie systemy. Uświadomienie, że są one tylko pomocą dla lekarzy i pacjentów, nie podejmują samoistnie żadnych decyzji, gdyż leży to w gestii wysoko wyspecjalizowanego personelu medycznego, który takie decyzje podejmuje na bazie odpowiedniego zestawu informacji. A informacje te ma albo z badań laboratoryjnych czy specjalistycznych, albo uzyskał je za pomocą inteligentnych systemów informatycznych.

Powstała też koncepcja medycyny spersonalizowanej, która zakłada leczenie niejako każdego z pacjentów indywidualnie na podstawie osobniczych cech i parametrów zdrowotnych. Nigdy jednak nie da się wykluczyć efektów ubocznych w stu procentach. Przy takim podejściu holistycznym, nakierowanym na konkretną jednostkę, istnieje szansa, że te skutki możemy czy będziemy mogli zminimalizować.

Jaką przyszłość ma przed sobą medycyna obliczeniowa?

Wierzę, że przyszłością medycyny jest ta personalizacja albo inaczej zindywidualizowanie. W tej chwili leczymy pacjentów w modelu generycznym dla danej choroby. Natomiast wiemy nie od dziś, że nie każdy pacjent reaguje tak samo na dane leczenie czy konkretny lek. Mamy różne alergie, różne niepożądane skutki, które się zdarzają częściej lub rzadziej, w zależności od pacjenta. Dlatego o wiele lepsze jest leczenie pacjentów w bardziej spersonalizowany sposób, na podstawie tzw. make-upu genetycznego, czyli profilu cech genetycznych danego pacjenta.

Dziś jest to zupełnie niemożliwe, ponieważ nie mamy wystarczającej ilości ani danych, ani możliwości diagnozy i planowania leczenia, które umożliwiałoby lekarzowi takie podejście do pacjenta. Być może za kilka, kilkanaście lat to zacznie się zmieniać. W momencie gdy zdobędziemy większą wiedzę naukową i medyczną, a analizy genomów będą znacznie tańsze i możliwe będzie wykonywanie ich dla każdego pacjenta, wtedy będziemy w stanie zaproponować takie rozwiązania technologiczne, które pomogą przewidywać choroby i im zapobiegać znacznie wcześniej, niż ma to miejsce teraz.

Przyszłość medycyny obliczeniowej zależy też od usunięcia pewnych blockerów. Dotyczy to np. obaw części środowiska lekarskiego czy pacjentów, często wynikających z dezinformacji. Dlatego tak ważna jest edukacja i działania informacyjne, do których Sano również stara się dokładać swoją cegiełkę.

Druga sprawa to kwestia braku legislacyjnych rozporządzeń, jeśli chodzi o współdzielenie danych. Ale to nie jest problem polski, tylko globalny. Pozostaje jeszcze transparentność, jaką technologia musi się odznaczać. Pacjenci muszą wiedzieć, co się dzieje się z ich danymi, w jaki sposób są przetwarzane i analizowane, oraz otrzymać rzetelną informację, co mogą dzięki tym danym uzyskać.

– Powszechna wiedza głosi, że palenie szkodzi zdrowiu. To, że palenie prowadzi do raka płuc, zostało udowodnione za pomocą metod analizy statystycznej danych. Tego typu analizy pokazują jednoznaczny związek pomiędzy czynnikami ryzyka a chorobami. Podobnie było przy wskazaniu na azbest jako czynnika ryzyka dla raka płuca. To tylko skrawek tego, co biostatystyka dała światu. Daje nam wiedzę o potencjalnych niebezpieczeństwach, ale i pomaga w znalezieniu rozwiązań – wyjaśnia dr Tomasz Burzykowski, biostatystyk, bioinformatyk, pracownik Data Science Institute i wykładowca na Uniwersytecie w Hasselt.

Tomasz Burzykowski jest profesorem zwyczajnym w Data Science Institute na Uniwersytecie Hasselt w Belgii, którego głównymi obszarami badawczymi są biostatystyka i bioinformatyka statystyczna. Jest również wiceprezesem ds. badań w International Drug Development Institute (IDDI) w Louvain-la-Neuve. Jako statystyk pracował w Instytucie Onkologii, w Głównym Urzędzie Statystycznym oraz w MSOURCE Medical Development w Warszawie. Przez kilka lat był profesorem wizytującym w Instytucie Karolińskim (Szwecja). Obecnie jest profesorem wizytującym na Uniwersytecie Medycznym w Białymstoku (Polska). Członek Komitetu Wykonawczego i wiceprezes Międzynarodowego Towarzystwa Biostatystyki Klinicznej (ISCB). Współautor książki „Explanatory Model Analysis” napisanej wspólnie z dr. hab. Przemysławem Bieckiem z Politechniki Warszawskiej.

Czym tak dokładnie zajmuje się biostatystyk? Jak na co dzień wygląda taka praca i z czym mierzą się specjaliści tej dziedziny?

Można rozróżnić statystykę matematyczną – która bardziej łączy się z matematyką – i jej praktyczne zastosowania, którymi ja się zajmuję. Przy zastosowaniach kluczowa jest współpraca z innymi naukowcami. Dlatego czasami mówi się, że statystyk gra na wielu boiskach. Biostatystyka daje okazję pracować w genetyce, epidemiologii czy przy planowaniu i analizie prób klinicznych. Każda z tych dziedzin przynosi ze sobą dane, na których de facto pracujemy. W medycynie liczy się każda cyfra, bo jeden rekord, zapis czy fragment informacji może decydować o ludzkim życiu. Ważnym elementem pracy jest też interpretacja wyników analizy danych i umiejętność jej przekazania. To nie mogą być suche liczby i oszacowania współczynników modelu, ale też wyjaśnienie, co one w danym kontekście znaczą.

Najbardziej jaskrawym przykładem naszej pracy, który ostatnio jest bardzo widoczny, są szczepionki na COVID-19. Trzeba zdecydować, ilu potencjalnych uczestników powinno wziąć udział w próbie szczepionki. Statystykę wykorzystuje się do tego, żeby ocenić, czy szczepionka działa. Cały proces testowania leków może być odpowiednio skrócony między innymi przez wykorzystanie zaawansowanych metod analizy statystycznej. To przekłada się na szybsze wprowadzenie leków na rynek i szybsze dotarcie do pacjenta.

Co jeszcze świat zawdzięcza biostatystyce?

Mógłbym wymienić wszystkie leki, które powstały na przestrzeni ostatnich dziesięcioleci. Ich tworzenie, proces testowania i ocena w próbach klinicznych, a wreszcie dopuszczenie do praktyki klinicznej. W tym wszystkim swój udział ma właśnie m.in biostatystyka. Innym przykładem są np. ogromne osiągnięcia dotyczące wiedzy na temat związków między genami a chorobami zanotowane w ostatnich dwudziestu latach. Czy też postępy w analizie i modelowaniu chorób zakaźnych. We wszystkich tych przypadkach badania są odpowiednio planowane, dane są starannie gromadzone w bazach danych, a statystyka pozwala na formułowanie wniosków, które przekładają się na postęp w medycynie.

Powszechną wiedzę, że palenie szkodzi zdrowiu, zawdzięczamy statystyce. To, że palenie prowadzi do raka płuc, zostało udowodnione za pomocą metod analizy statystycznej danych. Pokazali to w badaniach kliniczno‑kontrolnych i kohortowych brytyjscy profesorowie Richard Doll, Bradford Hill i Richard Peto. Tego typu analizy pokazują jednoznaczny związek pomiędzy czynnikami ryzyka a chorobami. Podobne było przy wskazaniu na azbest jako czynnika ryzyka dla raka płuca. To tylko skrawek tego, co biostatystyka dała światu. Daje nam wiedzę o potencjalnych niebezpieczeństwach, ale i pozwala na znalezienie rozwiązań.

Czy w dziedzinie statystyki można coś jeszcze odkryć?

Z dzisiejszą wiedzą i dostępną mocą obliczeniową możemy konstruować metody statystyczne i modele, które jeszcze naście lat temu nie były możliwe. Wówczas nie byłoby technicznych szans, żeby np. oszacować współczynniki skomplikowanego modelu statystycznego. Drugi element to dostępność danych i to, że te olbrzymie zbiory informacji stale wymagają opracowywania nowych metod ich przetwarzania.

Statystyka jest również ważna z punktu widzenia kontrolowania algorytmów decyzyjnych, które już zostały stworzone i są stosowane w praktyce. Bez użycia pojęć statystycznych, takich jak obciążenie, zmienność, wariancja, nie można nadzorować supernowoczesnych i skomplikowanych narzędzi. Z jednej strony np. za pomocą metod uczenia maszynowego rozwijamy algorytmy, które stają się potężniejsze nawet od zastępu naukowców. Z drugiej strony to dzięki statystyce możemy odpowiedzieć na pytanie, czy decyzje generowane przez te algorytmy są poprawne i czy ich stosowanie jest dla nas bezpieczne. Myślę, że kontrolowanie technologii to ogromne pole do rozwijania analizy statystycznej i odkrywania jej zastosowań w ciągle rozwijających się systemach i bazach danych. Jeśli matematyka to królowa nauk, to statystyka jest z pewnością jej ukochaną córką i główną siłą napędową data science.

Wykłada Pan w Belgii. Jakie różnice dostrzega Pan w programach kształcenia specjalistów data science w Polsce i za granicą?

W Polsce uczenie statystyki i jej metod nadal jest mocno teoretyczne. Mamy modele statystyczne danych, student zna ich teoretyczne właściwości, ale gdy ma wyjść poza teorię i zastosować model do konkretnego zbioru danych, to zaczynają się schody. W wielu innych krajach punktem wyjścia są dane i próba odpowiedzi na pytanie o metodę analizy tych danych uwzględniającą ich strukturę. Student uczy się rozpoznawać różne struktury danych, musi samodzielnie wybierać odpowiednie metody oraz wiedzieć, jak się nimi posłużyć. Widzę to na co dzień w Belgii, gdzie wykładowcy czy pracownicy naukowi na uczelniach pracują także jako zewnętrzni konsultanci z zakresu analizy statystycznej. Ich klientami są firmy przemysłowe, farmaceutyczne, instytuty badawcze czy agendy rządowe. Wykładowcy mają tym samym styczność z praktycznym wykorzystaniem wiedzy i umiejętności – a to przekłada się na studentów i programy edukacyjne. Mam wrażenie, że ten komponent nauczania w Polsce jest nadal dość ograniczony.

Biostatystyka – jak się Pan nią zainteresował?

W czasach licealnych było dla mnie oczywiste, że mam zdolności matematyczne, ale interesowała mnie również medycyna i zastanawiałem się, czy nie dałoby się tych dwóch światów połączyć. Po maturze rozpocząłem studia matematyczne na Uniwersytecie Warszawskim. Rzecz w tym, że były one bardzo teoretyczne i nie dostawałem żadnych wskazówek, jak można matematykę połączyć z medycyną. To mnie nie zadowalało. Tuż po obronie pracy magisterskiej – czyli 30 lat temu – niespodziewanie pojawiła się możliwość studiowania biostatystyki w Belgii. Okazało się bowiem, że dwa lata wcześniej na Uniwersytecie w Hasselt uruchomiono studia magisterskie w biostatystyce. Oferowały połączenie matematyki (statystyki) z medycyną, czyli dokładnie to, co chciałem robić. Pojechałem do Hasselt i to był punkt zwrotny w moim życiu.

Notabene program magisterski w Hasselt działa do dzisiaj, a ja jestem jednym z jego wykładowców. A żeby studenci z Polski nie musieli, tak jak ja, wyjeżdżać za granicę. Aby biostatystyka była bardziej dostępna dla studentów w Polsce, pomogłem niedawno uruchomić program studiów w tym kierunku na Uniwersytecie Medycznym w Białymstoku.

Dlaczego statystyk to niekoniecznie data scientist? I czy specjalistę od danych można nazwać statystykiem?

Angielska Wikipedia podaje, że data science to dziedzina zastosowań statystyki. Cytuje też Nata Silvera, według którego data scientist to tylko nieco bardziej seksowna nazwa zawodu, który wykonuje statystyk. Moim zdaniem różnica leży w wiedzy informatycznej. Jeśli porównuję te dwie etykietki zawodów, to nie wyobrażam sobie, żeby data scientist nie znał technik statystycznych. Być może zakres stosowanych przezeń metod jest bardziej ograniczony, np. do technik uczenia maszynowego. Poza tym data scientist w swojej pracy używa więcej wiedzy informatycznej niż przeciętny statystyk, dzięki której może przetwarzać bardzo duże zbiory danych lub automatycznie pobierać je z internetu. Te dwie profesje się przenikają, częściej się uzupełniają, niż wykluczają.

Jasne jednak jest to, że data science to dziedzina, w której warto się kształcić i doskonalić. Cała gospodarka jest przecież oparta na danych i tak będzie również w przyszłości. Możemy powiedzieć z całą stanowczością, że cały świat to dane – w którym tzw. wearable devices gotowe są zbierać informacje o każdym naszym ruchu. To oznacza, że będzie przybywać zadań dla osób, które potrafią analizować takie informacje i wyciągać z nich wnioski. A to ostatnie przecież jest domeną statystyki: sztuka wyciągania wniosków z danych.

Jeśli założymy, że biostatystyka należy do rodziny data science, to czy specjalista w tym obszarze musi umieć programować?

W statystyce umiejętność programowania jest potrzebna. Chociażby dlatego, że istniejące programy do analizy statystycznej nigdy nie uwzględniają wszystkich możliwych sposobów podejścia do danych. Czasem trzeba wyjść poza schemat, dokonać dodatkowych wyliczeń, wyciągnąć coś z klasycznego outputu lub samemu zaprogramować nową metodę. Każdy zbiór danych do analizy trzeba umieć również przetworzyć, sprawdzić pod kątem braków, sprzecznych informacji. Jeśli myślę o data science, to ten element programowania i znajomości technik informatycznych jest – jak wspomniałem wcześniej – bardziej rozbudowany i odróżnia statystyka o klasycznym profilu od specjalisty data science.

To jeszcze kilka słów o Pana książce „Explanatory Model Analysis” napisanej wspólnie z dr. hab. Przemysławem Bieckiem. Kto jest jej głównym odbiorcą?

Przede wszystkim specjaliści z branży. Jest to monografia, która wyjaśnia i pokazuje funkcjonowanie uczenia maszynowego. A w szczególności przedstawia metody pozwalające na wyjaśnienie przyczyn, dla których algorytm zbudowany na podstawie modelu uczenia maszynowego zasugerował konkretną decyzję.

Problem w tym, że opisy takich metod są rozproszone po różnych artykułach naukowych, które nie zawsze są łatwo dostępne lub zrozumiałe. A dla praktyków jedna publikacja, w której znajdą przystępny opis dostępnych metod wyjaśniania decyzji algorytmów uczenia maszynowego, pozwoli zaoszczędzić czas i ułatwi – mam nadzieję – powszechniejsze użycie tych metod.

– Człowiek jest istotą społeczną – zauważył Arystoteles. Nie inaczej jest w przypadku adeptów data science. Choć ludzi z branży możesz spotkać w realu, to w świecie technologii najchętniej gromadzą się w sieci. Przedstawiciele „gatunku” rozmawiają, dzielą się wiedzą i pomagają wyciągać wnioski nawet z najbardziej przytłaczających ilości informacji. To od społeczności data science dowiesz się, jak zacząć przygodę z danymi, gdzie bywać i co czytać, żeby nie wypaść z obiegu, kiedy pochłaniają Cię kolejne projekty.

Chcesz dostać odpowiedzi na nurtujące pytania o zaawansowanej analityce danych czy uczeniu maszynowym? Sprawdź, gdzie pytać. Zrobiliśmy krótki przegląd społeczności data science. Zgłoś się do nich z głodem wiedzy, świetnymi pomysłami i problemami.

Data Science PL – największa grupa w Polsce

Najnowsze wydarzenia o analizie danych łatwo znajdziesz na Facebooku. Użytkownicy grupy Data Science PL codziennie zamieszczają informacje o konferencjach, meetupach, warsztatach i szkoleniach. Ale nie tylko. To także największa społeczność w polskim internecie skupiona wokół data science, co przekłada się na różnorodność (i mnogość) wpisów. Co poza wirtualnymi i stacjonarnymi spotkaniami? Pokłady informacji. Przechodząc na linkowane serwisy, poznasz podstawy korzystania z systemów zarządzania relacyjnymi bazami danych, warte przeczytania książki o AI i różnice między danologami a specjalistami machine learningu.

Warto zwrócić uwagę na inne miejsce w sieci przygotowane przez administratorów grupy. To Data Science PL – samopomoc. Zgodnie z nazwą znajdziesz tam wsparcie, jeśli masz kłopoty techniczne, chcesz zrozumieć działanie algorytmów albo dopytać o kurs lub kierunek studiów. Zalety? Tylko nieliczne posty pozostają bez odpowiedzi.

Porozmawiajmy po angielsku na Reddicie

Nie samym Facebookiem człowiek żyje, w końcu jest też Reddit z ponad 600 tys. użytkowników rozmawiających na subreddicie poświęconym data science. Z postów wyczytasz o odpowiednich typach baz danych i podejściach do rozwiązania problemów, a nawet sprawdzisz, co danolodzy myślą o swojej pracy.

Poza ogólną kategorią użytkownicy Reddita gromadzą się na węższych tematycznie subredditach. Wśród przydatnych forów w serwisie są: r/datasets/ z bazami do eksperymentowania i r/dataisbeautiful/ z propozycjami wizualizacji danych, które mogą się przydać na niejednym zebraniu, jeśli zechcesz przekonywać do swoich pomysłów danolaików. Wiadomo – bez SQL-a jak bez ręki, więc podyskutujesz o nim na r/SQL/. Z kolei wszelkie pytania o statystykę zadasz użytkownikom r/AskStatistics/.

Chyba że jesteś nieśmiały – Wykop.pl

Jeśli wolisz pytać po polsku i jednocześnie nie jesteś fanem podpisywania się imieniem i nazwiskiem, zajrzyj na… Wykop. To polski serwis będący z założenia odpowiednikiem Reddita. Zamiast subredditów są tagi (np. tag/datascience/), które co prawda nie zawsze działają, ale i tam warto porozmawiać z użytkownikami, a precyzyjnie – Mirkami i Mirabelkami, bo tak się określają. Wbrew pozorom przytoczone nazwy nie są wiedzą bezużyteczną – producent „Milionerów” wycenił ją niegdyś na 75 tys. złotych.

Z kolei jeśli na co dzień korzystasz z SAS, zajrzyj na Polsug.com – grupę skupiającą polskich użytkowników technologii. Zebrani tam analitycy i danolodzy dyskutują także na LinkedInie w Polish SAS Users Group, organizują cykliczne spotkania i są w kontakcie z użytkownikami SAS na całym świecie.

A może czas wyjść do ludzi? ML in PL

Zdobywanie i wymiana wiedzy online dla wielu to za mało. Poza tym rozmowy i projekty prowadzone na żywo nieraz skutkują nowymi pomysłami. Jeśli jesteś miłośnikiem uczenia maszynowego, możesz śmiało dołączyć do stowarzyszenia ML in PL. Organizacja propaguje wiedzę m.in. poprzez coroczną i jedną z największych w regionie konferencję poświęconą machine learningowi. Biorąc w niej udział, przekonasz się, co na temat ML mają do powiedzenia światowi eksperci. Rozglądając się za prężnie działającymi społecznościami, sprawdź też koła naukowe lokalnych uniwersytetów i uczelni technicznych – grupy działają m.in. na politechnikach Poznańskiej i Wrocławskiej.

Albo zmienić pracę?

Jeśli rozglądasz się za nowym zajęciem, zajrzyj do takich grup jak Analitycy/statystycy/Data Scientist – oferty pracy/staży z R/SQL/Python lub Praca Big Data/Data Science/ML/AI, które zgromadziły po kilka tysięcy osób szukających pracy i pracowników. Każdego miesiąca w obu kanałach przybywa ponad 150 ofert. To też dobre miejsce, jeśli dopiero zaczynasz. I nie chodzi wyłącznie o ogłoszenia dla juniorów – podrzucane propozycje pomagają łatwo się zorientować, które technologie są popularne wśród pracodawców.

Trudno wymienić wszystkie społeczności gromadzące pasjonatów data science. Powyższe to tylko początek przygody z nowymi informacjami, punktami widzenia i pomysłami na szybkie rozwiązywanie problemów, które wydawały się nie do rozwikłania.

Chcesz być na bieżąco z data science? Zaglądaj jeszcze tu:

Blog Piotra Migdała, administratora grupy Data Science PL i założyciela Quantum Flytrap, firmy specjalizującej się w interfejsach użytkownika dla obliczeń kwantowych i kryptografii kwantowej

– Serwis Big Data Passion poświęcony językom programowania, przetwarzaniu i wyszukiwaniu danych czy business intelligence

– Blog Radka Białowąsa DataScience in pl, na którym autor porusza m.in. kwestie syntezy mowy czy przetwarzania obrazów

– Grupa o bazach danych i SQL dla początkujących

– Społeczność skoncentrowana na nauce Pythona

– Podstrony serwisu Glassdoor i portalu Pracuj.pl z ogłoszeniami dla ekspertów data science w Polsce

Udostępnij link

https://www.datasciencerobie.pl/spolecznosci-data-science-warte-uwagi/