Inżynier danych medycznych przetwarza cyfrowe biomarkery

Inżynier danych medycznych przetwarza cyfrowe biomarkery

— Żeby umożliwić interpretację zbieranych informacji, potrzebni są inżynierowie, którzy budują tzw. ciąg przetwarzania danych. Data processing pipeline integruje szereg algorytmów dostarczonych przez analityków danych. To scalanie, filtrowanie, korekcja i synchronizacja informacji w taki sposób, by przekazać je osobom odpowiedzialnym za interpretowanie w przystępnej formie. Można powiedzieć, że inżynierowie danych działają na etapie pośrednim, pomiędzy gromadzeniem danych a ich interpretacją — opisuje swoje obowiązki data engineer w Roche Informatics, Michał Maciejewski.

Dr inż. Michał Maciejewski opracowuje platformy, które usprawniają proces projektowania i analizy złożonych systemów inżynierskich, takich jak m.in. akceleratory cząstek elementarnych. Przygotowuje też oprogramowanie do modelowania i analizy danych. Wcześniej był związany z Europejską Organizacją Badań Jądrowych CERN oraz ETH Zürich. Skończył Politechnikę Łódzką, a następnie uczestniczył w kursach podyplomowych: Top 500 Innovators na Uniwersytecie Stanforda oraz Program on Negotiation na Harvard Law School.

Co robi data engineer w firmie medycznej?

Roche Informatics jest spółką przedsiębiorstwa farmaceutycznego Roche. W międzynarodowych zespołach zajmujemy się rozwojem i utrzymaniem rozwiązań informatycznych w ramach badań nad nowymi lekami oraz piszemy oprogramowanie medyczne, z którego na co dzień korzystają lekarze i pacjenci na całym świecie. A ja jako inżynier danych jestem w zespole, który przygotowuje projekt cyfrowych biomarkerów.

Czym są cyfrowe biomarkery?

Najprościej mówiąc, to informacje zbierane głównie przez urządzenia mobilne w trakcie badań klinicznych. Urządzenia te wspierają gromadzenie i przetwarzanie danych zdrowotnych w taki sposób, aby zarówno pacjent, jak i wszystkie osoby zaangażowane w proces terapeutyczny miały wgląd w jego stan zdrowia, co przełoży się na bieżące i efektywne podejmowanie decyzji dotyczących leczenia. Mówimy tu o sprzęcie, jaki każdy z nas ma na co dzień przy sobie, jak telefony komórkowe czy zegarki, ale także np. sprzęt do ćwiczeń czy maty do spania. Cyfrowe biomarkery mogą pomagać w leczeniu pacjenta oraz w procesie diagnostycznym. Jakościowych danych medycznych dostarczają już proste aktywności, takie jak wykonanie zadania w aplikacji, napisanie tekstu, wypowiedzenie określonych słów lub wykonanie prostego ruchu.

Na czym polega rola inżyniera danych w procesie przetwarzania biomarkerów?

Danych pozyskanych ze wspomnianych urządzeń nie mógłby łatwo interpretować ani lekarz ani pacjent - ze względu na ich formę. Z uwagi na bezpieczeństwo, informacje mają postać zaszyfrowanej bazy danych. Aby umożliwić ich interpretację, potrzebni są inżynierowie, którzy tworzą ciąg przetwarzania danych (ang. data processing pipeline) integrujący szereg algorytmów dostarczonych przez analityków danych. To scalanie, filtrowanie, korekcja i synchronizacja informacji w taki sposób, by dostarczyć je osobom odpowiedzialnym za interpretowanie w przystępnej formie. Można powiedzieć, że inżynierowie danych działają na etapie pośrednim, pomiędzy pozyskaniem i gromadzeniem danych a ich interpretacją.  

Jaka jest rola cyfrowych danych, pozyskiwanych z urządzeń, w procesie leczenia?

Zarówno w Polsce, jak i na świecie od wielu lat mówi się o rosnącym znaczeniu narzędzi cyfrowych oraz dobrej jakości danych zdrowotnych. Ich rolę uwydatniła szczególnie pandemia COVID-19, która zmusiła do utrzymania funkcjonowania opieki nad pacjentami w sposób zdalny. Jednak, aby narzędzia cyfrowe faktycznie służyły pacjentom, opiekunom i społeczeństwu, potrzebna jest edukacja i budowanie świadomości o rozwiązaniach cyfrowych w zdrowiu. Jako firma od lat współpracująca z pacjentami, lekarzami i organizacjami pacjentów zdajemy sobie sprawę, że jedną z największych obaw budzi jest kwestia bezpieczeństwa danych oraz to, przez kogo i w jakim celu będą one wykorzystywane. Dlatego cieszy nas, że jesteśmy świadkami odgórnych inicjatyw mających prowadzić do ustrukturyzowania tych kwestii, m.in. za sprawą rozporządzenia ustanawiającego europejską przestrzeń danych zdrowotnych, którą przygotowuje Komisja Europejska. Z jednej strony zapewni to bezpieczeństwo i anonimowość pacjentom, możliwość kontrolowania, co dzieje się z ich danymi, z drugiej zaś umożliwi lekarzom i naukowcom korzystanie z danych przy użyciu zaufanych i bezpiecznych metod. Finalnie pozyskiwanie wartościowych, dobrej jakości danych zdrowotnych przyczyni się do lepszej opieki nad pacjentami.

I w jaki sposób pomogą w tym biomarkery?

Cyfrowe biomarkery, dostarczając jakościowe dane medyczne, mogą wspierać badania, diagnostykę czy postęp w terapii. Dlatego, obok wykorzystania w badaniach klinicznych, warto pracować nad ich rozwojem. Niejednokrotnie trudno ocenić, jakie informacje pozyskane z cyfrowych biomarkerów mogą mieć znaczenie medyczne. Tymczasem już sama zmiana aktywności ruchowej, czy też częstsze popełnianie błędów podczas pisania w telefonie mogą świadczyć o problemach zdrowotnych, którymi należy się zająć.

A jak one konkretnie działają?

Większość parametrów w naszym organizmie ma pewną zmienność zależną od samopoczucia, kondycji psychofizycznej, stresu, etc. W przypadku klasycznych badań wyszczególnia się parametry, które mogą świadczyć o chorobie (tzw. biomarkery), a następnie bada się je ponownie i na podstawie otrzymanych wyników lekarz wyciąga wnioski. Problemem jest fakt, że są one wykonywane dość rzadko i potrzeba więcej czasu, by zebrać statystycznie znaczące wyniki. Cyfrowe biomarkery, dla których wykazano korelację z klasycznymi biomarkerami, pozwalają natomiast zbierać te informacje regularnie, nawet każdego dnia, w komfortowych dla pacjenta warunkach bez konieczności wyjazdu do szpitala lub przychodni. Przykładem możliwości biomarkerów cyfrowych jest np. choroba Parkinsona. Pacjenci za pomocą telefonu trzymanego w ręce, przy użyciu wbudowanego akcelerometru mogą zmierzyć drżenie ręki i na tej podstawie da się ocenić, czy dochodzi do progresji drżeń.

Jakich narzędzi i technik używa pan w tym przedsięwzięciu do zadań analitycznych?

Programuję w języku Python, korzystając z bibliotek do przetwarzania danych (pandas, numpy, sqlalchemy), jak również z uczenia maszynowego (scikit learn i pytorch). W projekcie, o którym rozmawiamy, wykorzystujemy też bazy danych SQL (PostgreSQL) oraz NoSQL (MongoDB). W poprzednich projektach używałem natomiast technologii Apache: Spark, Hadoop i Airflow.

Dane danymi, ale przecież trzeba sprawić, że państwa rozwiązanie osiągnie odpowiednią dokładność. Co jest kluczowe z punktu widzenia data engineera w tym obszarze?

Interpretacja zadań w ramach badań z wykorzystaniem cyfrowych biomarkerów może być różna i aby zapewnić spójność oraz jakość danych – potrzebna jest edukacja osób korzystających z takich urządzeń bądź ich opiekunów. Ważne są np. długość wykonywania testu, sposób w jaki został zrealizowany czy jego kolejność. W tym momencie pozyskujemy dane spełniające określone kryteria i mogą one być wykorzystywane do dalszych analiz i obliczeń. Obecnie w branży taki trend nazywamy data-driven AI. To odejście od procesu skupionego na algorytmie, w którym przyjmowano, że zbiór danych jest stały i niezmienny, w efekcie czego dopracowywano algorytm w taki sposób, aby uzyskać najlepszą wydajność na tym konkretnym zbiorze danych. Jednak przy wzroście złożoności algorytmu sztucznej inteligencji – trudniej jest wytłumaczyć, dlaczego algorytm podjął taką, a nie inną decyzję. Spotykamy się już z tym na co dzień, kiedy algorytmy SI decydują, komu przyznać ubezpieczenie, w jakiej kwocie itd.

Tymczasem algorytmy powinny być wytłumaczalne?

Algorytmy powinny być w stanie wskazać, z czego wynika dana decyzja i jakie dane wejściowe na nią wpłynęły. Niemniej ten etap skupienia na algorytmie w rozwoju sztucznej inteligencji był bardzo ważny, jeśli chodzi o ich optymalizację czy wręcz tworzenie nowych architektur. Pojawiło się uczenie głębokie, uczenie głębokie ze wzmocnieniem czy tzw. reinforcement learning with human feedback, które możemy zaobserwować np. w działaniu ChatuGPT. Niemniej, jeśli spojrzymy z drugiej strony, czyli na komplementarną perspektywę, gdzie zbiór danych jest zmienny, rozszerzalny, uzupełniany o dobre dane, a algorytm jest w miarę stały – i jednocześnie ograniczamy rozmiar tego modelu, aby być w stanie zrozumieć jego właściwości – to okazuje się, że jest to równie dobre rozwiązanie. Należy przy tym jednak pamiętać o klasycznym problemie rubbish in, rubbish out – jeżeli na wejściu są niezbyt dobre dane wejściowe, to trudno cokolwiek sensownie na ich podstawie wywnioskować.

Jakie są największe zalety stosowania cyfrowych biomarkerów?

Realizacja badań klinicznych jest bardzo kosztowna. Jeżeli zbieramy informacje częściej, potrzeba mniej czasu, aby otrzymać dostateczną ilość danych, która pozwoli wesprzeć decyzję o zakończeniu konkretnych badań. To wpływa bezpośrednio na ich koszt końcowy. Z drugiej strony, jeżeli takie badania są skuteczne, to w momencie zgłaszania konkretnych terapii do agencji zajmujących się rejestracją leków, mamy dodatkowe potwierdzenie skuteczności określonej terapii. Wówczas zgłoszenie rozszerza się o raporty, które pokazują na grupie badawczej, jak mierzalnie pewne wskaźniki się poprawiły. Nie można też zapominać o potencjale detekcji pewnych zmian, zwłaszcza neurologicznych na podstawie korzystania z urządzeń mobilnych. Algorytmy są w stanie coraz lepiej wyłapywać wszelkie anomalie czy odstępstwa od normy w naszym zachowaniu, mowie, gestach, ruchach. Na koniec warto dodać, że rozwój tego typu analizy pozwala kontrolować stan zdrowia także osobom, które nie mają łatwego dostępu do opieki medycznej.

Udostępnij link

https://www.datasciencerobie.pl/inzynier-danych-medycznych-przetwarza-cyfrowe-biomarkery/