Biostatystyka daje wiedzę o potencjalnych niebezpieczeństwach

Biostatystyka daje wiedzę o potencjalnych niebezpieczeństwach

– Powszechna wiedza głosi, że palenie szkodzi zdrowiu. To, że palenie prowadzi do raka płuc, zostało udowodnione za pomocą metod analizy statystycznej danych. Tego typu analizy pokazują jednoznaczny związek pomiędzy czynnikami ryzyka a chorobami. Podobnie było przy wskazaniu na azbest jako czynnika ryzyka dla raka płuca. To tylko skrawek tego, co biostatystyka dała światu. Daje nam wiedzę o potencjalnych niebezpieczeństwach, ale i pomaga w znalezieniu rozwiązań – wyjaśnia dr Tomasz Burzykowski, biostatystyk, bioinformatyk, pracownik Data Science Institute i wykładowca na Uniwersytecie w Hasselt.

Tomasz Burzykowski jest profesorem zwyczajnym w Data Science Institute na Uniwersytecie Hasselt w Belgii, którego głównymi obszarami badawczymi są biostatystyka i bioinformatyka statystyczna. Jest również wiceprezesem ds. badań w International Drug Development Institute (IDDI) w Louvain-la-Neuve. Jako statystyk pracował w Instytucie Onkologii, w Głównym Urzędzie Statystycznym oraz w MSOURCE Medical Development w Warszawie. Przez kilka lat był profesorem wizytującym w Instytucie Karolińskim (Szwecja). Obecnie jest profesorem wizytującym na Uniwersytecie Medycznym w Białymstoku (Polska). Członek Komitetu Wykonawczego i wiceprezes Międzynarodowego Towarzystwa Biostatystyki Klinicznej (ISCB). Współautor książki „Explanatory Model Analysis” napisanej wspólnie z dr. hab. Przemysławem Bieckiem z Politechniki Warszawskiej.

Czym tak dokładnie zajmuje się biostatystyk? Jak na co dzień wygląda taka praca i z czym mierzą się specjaliści tej dziedziny?

Można rozróżnić statystykę matematyczną – która bardziej łączy się z matematyką – i jej praktyczne zastosowania, którymi ja się zajmuję. Przy zastosowaniach kluczowa jest współpraca z innymi naukowcami. Dlatego czasami mówi się, że statystyk gra na wielu boiskach. Biostatystyka daje okazję pracować w genetyce, epidemiologii czy przy planowaniu i analizie prób klinicznych. Każda z tych dziedzin przynosi ze sobą dane, na których de facto pracujemy. W medycynie liczy się każda cyfra, bo jeden rekord, zapis czy fragment informacji może decydować o ludzkim życiu. Ważnym elementem pracy jest też interpretacja wyników analizy danych i umiejętność jej przekazania. To nie mogą być suche liczby i oszacowania współczynników modelu, ale też wyjaśnienie, co one w danym kontekście znaczą.

Najbardziej jaskrawym przykładem naszej pracy, który ostatnio jest bardzo widoczny, są szczepionki na COVID-19. Trzeba zdecydować, ilu potencjalnych uczestników powinno wziąć udział w próbie szczepionki. Statystykę wykorzystuje się do tego, żeby ocenić, czy szczepionka działa. Cały proces testowania leków może być odpowiednio skrócony między innymi przez wykorzystanie zaawansowanych metod analizy statystycznej. To przekłada się na szybsze wprowadzenie leków na rynek i szybsze dotarcie do pacjenta.

Co jeszcze świat zawdzięcza biostatystyce?

Mógłbym wymienić wszystkie leki, które powstały na przestrzeni ostatnich dziesięcioleci. Ich tworzenie, proces testowania i ocena w próbach klinicznych, a wreszcie dopuszczenie do praktyki klinicznej. W tym wszystkim swój udział ma właśnie m.in biostatystyka. Innym przykładem są np. ogromne osiągnięcia dotyczące wiedzy na temat związków między genami a chorobami zanotowane w ostatnich dwudziestu latach. Czy też postępy w analizie i modelowaniu chorób zakaźnych. We wszystkich tych przypadkach badania są odpowiednio planowane, dane są starannie gromadzone w bazach danych, a statystyka pozwala na formułowanie wniosków, które przekładają się na postęp w medycynie.

Powszechną wiedzę, że palenie szkodzi zdrowiu, zawdzięczamy statystyce. To, że palenie prowadzi do raka płuc, zostało udowodnione za pomocą metod analizy statystycznej danych. Pokazali to w badaniach kliniczno‑kontrolnych i kohortowych brytyjscy profesorowie Richard Doll, Bradford Hill i Richard Peto. Tego typu analizy pokazują jednoznaczny związek pomiędzy czynnikami ryzyka a chorobami. Podobne było przy wskazaniu na azbest jako czynnika ryzyka dla raka płuca. To tylko skrawek tego, co biostatystyka dała światu. Daje nam wiedzę o potencjalnych niebezpieczeństwach, ale i pozwala na znalezienie rozwiązań.

Czy w dziedzinie statystyki można coś jeszcze odkryć?

Z dzisiejszą wiedzą i dostępną mocą obliczeniową możemy konstruować metody statystyczne i modele, które jeszcze naście lat temu nie były możliwe. Wówczas nie byłoby technicznych szans, żeby np. oszacować współczynniki skomplikowanego modelu statystycznego. Drugi element to dostępność danych i to, że te olbrzymie zbiory informacji stale wymagają opracowywania nowych metod ich przetwarzania.

Statystyka jest również ważna z punktu widzenia kontrolowania algorytmów decyzyjnych, które już zostały stworzone i są stosowane w praktyce. Bez użycia pojęć statystycznych, takich jak obciążenie, zmienność, wariancja, nie można nadzorować supernowoczesnych i skomplikowanych narzędzi. Z jednej strony np. za pomocą metod uczenia maszynowego rozwijamy algorytmy, które stają się potężniejsze nawet od zastępu naukowców. Z drugiej strony to dzięki statystyce możemy odpowiedzieć na pytanie, czy decyzje generowane przez te algorytmy są poprawne i czy ich stosowanie jest dla nas bezpieczne. Myślę, że kontrolowanie technologii to ogromne pole do rozwijania analizy statystycznej i odkrywania jej zastosowań w ciągle rozwijających się systemach i bazach danych. Jeśli matematyka to królowa nauk, to statystyka jest z pewnością jej ukochaną córką i główną siłą napędową data science.

Wykłada Pan w Belgii. Jakie różnice dostrzega Pan w programach kształcenia specjalistów data science w Polsce i za granicą?

W Polsce uczenie statystyki i jej metod nadal jest mocno teoretyczne. Mamy modele statystyczne danych, student zna ich teoretyczne właściwości, ale gdy ma wyjść poza teorię i zastosować model do konkretnego zbioru danych, to zaczynają się schody. W wielu innych krajach punktem wyjścia są dane i próba odpowiedzi na pytanie o metodę analizy tych danych uwzględniającą ich strukturę. Student uczy się rozpoznawać różne struktury danych, musi samodzielnie wybierać odpowiednie metody oraz wiedzieć, jak się nimi posłużyć. Widzę to na co dzień w Belgii, gdzie wykładowcy czy pracownicy naukowi na uczelniach pracują także jako zewnętrzni konsultanci z zakresu analizy statystycznej. Ich klientami są firmy przemysłowe, farmaceutyczne, instytuty badawcze czy agendy rządowe. Wykładowcy mają tym samym styczność z praktycznym wykorzystaniem wiedzy i umiejętności – a to przekłada się na studentów i programy edukacyjne. Mam wrażenie, że ten komponent nauczania w Polsce jest nadal dość ograniczony.

Biostatystyka – jak się Pan nią zainteresował?

W czasach licealnych było dla mnie oczywiste, że mam zdolności matematyczne, ale interesowała mnie również medycyna i zastanawiałem się, czy nie dałoby się tych dwóch światów połączyć. Po maturze rozpocząłem studia matematyczne na Uniwersytecie Warszawskim. Rzecz w tym, że były one bardzo teoretyczne i nie dostawałem żadnych wskazówek, jak można matematykę połączyć z medycyną. To mnie nie zadowalało. Tuż po obronie pracy magisterskiej – czyli 30 lat temu – niespodziewanie pojawiła się możliwość studiowania biostatystyki w Belgii. Okazało się bowiem, że dwa lata wcześniej na Uniwersytecie w Hasselt uruchomiono studia magisterskie w biostatystyce. Oferowały połączenie matematyki (statystyki) z medycyną, czyli dokładnie to, co chciałem robić. Pojechałem do Hasselt i to był punkt zwrotny w moim życiu.

Notabene program magisterski w Hasselt działa do dzisiaj, a ja jestem jednym z jego wykładowców. A żeby studenci z Polski nie musieli, tak jak ja, wyjeżdżać za granicę. Aby biostatystyka była bardziej dostępna dla studentów w Polsce, pomogłem niedawno uruchomić program studiów w tym kierunku na Uniwersytecie Medycznym w Białymstoku.

Dlaczego statystyk to niekoniecznie data scientist? I czy specjalistę od danych można nazwać statystykiem?

Angielska Wikipedia podaje, że data science to dziedzina zastosowań statystyki. Cytuje też Nata Silvera, według którego data scientist to tylko nieco bardziej seksowna nazwa zawodu, który wykonuje statystyk. Moim zdaniem różnica leży w wiedzy informatycznej. Jeśli porównuję te dwie etykietki zawodów, to nie wyobrażam sobie, żeby data scientist nie znał technik statystycznych. Być może zakres stosowanych przezeń metod jest bardziej ograniczony, np. do technik uczenia maszynowego. Poza tym data scientist w swojej pracy używa więcej wiedzy informatycznej niż przeciętny statystyk, dzięki której może przetwarzać bardzo duże zbiory danych lub automatycznie pobierać je z internetu. Te dwie profesje się przenikają, częściej się uzupełniają, niż wykluczają.

Jasne jednak jest to, że data science to dziedzina, w której warto się kształcić i doskonalić. Cała gospodarka jest przecież oparta na danych i tak będzie również w przyszłości. Możemy powiedzieć z całą stanowczością, że cały świat to dane – w którym tzw. wearable devices gotowe są zbierać informacje o każdym naszym ruchu. To oznacza, że będzie przybywać zadań dla osób, które potrafią analizować takie informacje i wyciągać z nich wnioski. A to ostatnie przecież jest domeną statystyki: sztuka wyciągania wniosków z danych.

Jeśli założymy, że biostatystyka należy do rodziny data science, to czy specjalista w tym obszarze musi umieć programować?

W statystyce umiejętność programowania jest potrzebna. Chociażby dlatego, że istniejące programy do analizy statystycznej nigdy nie uwzględniają wszystkich możliwych sposobów podejścia do danych. Czasem trzeba wyjść poza schemat, dokonać dodatkowych wyliczeń, wyciągnąć coś z klasycznego outputu lub samemu zaprogramować nową metodę. Każdy zbiór danych do analizy trzeba umieć również przetworzyć, sprawdzić pod kątem braków, sprzecznych informacji. Jeśli myślę o data science, to ten element programowania i znajomości technik informatycznych jest – jak wspomniałem wcześniej – bardziej rozbudowany i odróżnia statystyka o klasycznym profilu od specjalisty data science.

To jeszcze kilka słów o Pana książce „Explanatory Model Analysis” napisanej wspólnie z dr. hab. Przemysławem Bieckiem. Kto jest jej głównym odbiorcą?

Przede wszystkim specjaliści z branży. Jest to monografia, która wyjaśnia i pokazuje funkcjonowanie uczenia maszynowego. A w szczególności przedstawia metody pozwalające na wyjaśnienie przyczyn, dla których algorytm zbudowany na podstawie modelu uczenia maszynowego zasugerował konkretną decyzję.

Problem w tym, że opisy takich metod są rozproszone po różnych artykułach naukowych, które nie zawsze są łatwo dostępne lub zrozumiałe. A dla praktyków jedna publikacja, w której znajdą przystępny opis dostępnych metod wyjaśniania decyzji algorytmów uczenia maszynowego, pozwoli zaoszczędzić czas i ułatwi – mam nadzieję – powszechniejsze użycie tych metod.

Udostępnij link

https://www.datasciencerobie.pl/biostatystyka-sila-napedowa-data-science/