Data science pomaga szukać skuteczniejszych terapii antynowotworowych
— Mózg człowieka potrafi wyobrazić sobie dane w dwóch czy trzech wymiarach. Ale jeśli mamy kilkadziesiąt lub nawet kilkaset tysięcy wymiarów, wtedy wyłącznie za pomocą algorytmów możemy próbować zrozumieć, które grupy genów wpływają na dane procesy biologiczne — tłumaczy dr Marcin Tabaka z Międzynarodowego Centrum Badań Oka.
Dr Marcin Tabaka w International Centre for Translational Eye Research jest Liderem Zespołu Genomiki Obliczeniowej. Zajmuje się regulacją ekspresji genów, wysokoprzepustową genomiką pojedynczej komórki, reprogramowaniem komórkowym oraz patogenezą raka. ICTER skupia się na rozwijaniu diagnostyki i terapii chorób oczu.
Genomika pojedynczej komórki - na czym polegają te badania?
Historia zaczęła się w 2009 roku, kiedy po raz pierwszy udało się naukowcom z University of Cambridge zsekwencjonować RNA z pojedynczej komórki. Z biegiem czasu, kiedy opracowywano coraz lepsze metody genomiczne, czyli wyłapywania molekuł RNA, przepisywania ich na cDNA, a później sekwencjonowania, zaczęto analizować coraz więcej komórek w pojedynczych doświadczeniach. Ja zainteresowałem się dziedziną w 2013 roku, kiedy naukowcy byli w stanie sekwencjonować kilkadziesiąt komórek. W następnym roku ta liczba wynosiła około tysiąca, w 2015 — już kilkadziesiąt tysięcy, dzięki technologii opartej na mikrofluidyce. W obecnych projektach sekwencjonuje się miliony komórek. Co więcej, istnieje program Human Cell Atlas, który ma na celu skatalogowanie wszystkich typów komórek ludzkiego ciała. Docelowo zbiór ma zawierać nawet 2 miliardy komórek.
To będzie wystarczająca liczba, aby skutecznie prowadzić procesy badawcze?
I tak, i nie. To nadal niewiele w porównaniu z liczbą komórek w naszym ciele. Pomijając fakt, że każda ludzka komórka jest unikatowa, to przeciętny człowiek o wadze 70 kg i wzroście wynoszącym 170 cm ma ich ok. 30 bilionów. Jednak nawet sekwencjonowanie takiego małego ułamka wszystkich komórek pozwoli nam zbudować atlas, który przyczyni się do szybszego i łatwiejszego badania chorób. Budując atlas komórek danej tkanki, dowiadujemy się, które geny są aktywne dla danego typu oraz które z nich są odpowiedzialne za konkretne choroby. Co ważne, jesteśmy w stanie zrobić to dla wszystkich typów komórek, które uczestniczą w procesie chorobowym. Oczywiście analizy tego rodzaju są skomplikowane, ponieważ, kiedy robimy sekwencjonowanie pojedynczej komórki, nie wykrywamy wszystkich molekuł RNA, nawet jeśli są tam obecne. Metody nie są na tyle dokładne, abyśmy mogli z pojedynczej wyciągnąć wszystkie informacje, ale jeśli przeanalizujemy wiele komórek danego typu, mamy wtedy pełny obraz.
W czym pomagają algorytmy uczenia maszynowego?
Podczas analizy możemy mieć kilkadziesiąt, jeśli mierzymy poziomy ekspresji genów, lub nawet kilkaset tysięcy wymiarów, jeśli mierzymy miejsca regulatorowe genów na DNA. Wszystkie metody uczenia maszynowego, które stosujemy w analizie, mają za zadanie przede wszystkim przedstawić dane w taki sposób, aby były dla nas zrozumiałe. Ludzki mózg potrafi wyobrazić sobie dane w dwóch, trzech wymiarach. Gdybyśmy mierzyli trzy cechy komórki, bylibyśmy jeszcze w stanie sobie to wyobrazić. Ale jeśli mamy kilkaset tysięcy wymiarów, to tylko za pomocą algorytmów możemy zrozumieć, które grupy genów wpływają na dane procesy. Co więcej, nawet ten sam typ komórki może mieć różne poziomy tego samego mRNA, ponieważ jądra komórkowe, w których zachodzi synteza są na tyle małe, że znaczącą rolę odgrywa stochastyczność (zmienność losowa – red.).
Jakie metody stosuje się w analizie pojedynczych komórek?
Dobieramy różne zależnie od tego, co chcemy uzyskać z analizy. Możemy dzięki algorytmom klasyfikować komórki, wtedy stosujemy narzędzia do analizy głównych składowych. Jeżeli są to bardziej skomplikowane procesy, jak rozwój organizmu albo samej choroby, i chcemy uporządkować komórki w przestrzeni wielowymiarowej, wtedy wykorzystujemy metody nieliniowe redukcji wymiaru, jak mapy dyfuzji. W tym przypadku możemy zobaczyć wzdłuż osi różnicowania się komórek, które geny są aktywowane, a które wyciszane. Co ciekawe, czasem nadal przydają nam się modele analityczne opracowane kilkaset lat temu.
Jak to możliwe?
Tak było w przypadku badania procesu reprogramowania komórek. To proces, który „odwraca” różnicowanie się komórek i pozwala wygenerować komórki macierzyste. Jest niezwykle ważny dla medycyny regeneracyjnej, gdyż komórki macierzyste posłużą do odtwarzania tkanek lub nawet całych organów pacjenta. W ramach prac badawczych chcieliśmy zrozumieć, jak zachodzi reprogramowanie. W ciągu 18 dni trwania eksperymentu, co 12 godzin izolowaliśmy komórki, następnie RNA przygotowywaliśmy do sekwencjonowania. Łącznie uzyskaliśmy RNA z 250 tysięcy komórek. Komórki macierzyste powstają tylko z bardzo małej liczby komórek, które poddaje się reprogramowaniu, dodatkowo, komórki są uśmiercane, aby wyizolować z nich RNA. Tracimy więc informację, które z nich w jednym punkcie czasu przekształcą się w komórki w innym punkcie pomiarowym. Jedyne co mamy, to dwie chmury punktów w przestrzeni kilkudziesięciu tysięcy wymiarów i potrzebujemy wywnioskować, jak połączyć te chmury ze sobą. Dlatego przydała nam się metoda optymalnego transportu, która pierwotnie opisywała, w jaki sposób najefektywniej przenosić stosy piasku czy kamieni z miejsca na miejsce, minimalizując koszty związane z transportem. Została opracowana przez Gasparda Monge'a pod koniec XVIII wieku. Teoria została wykorzystana podczas wyprawy Napoleona do Egiptu przy budowie fortyfikacji. Ale wracając do genomiki pojedynczych komórek, rozbudowaliśmy teorię optymalnego transportu Monge’a poprzez dodanie do niej informacji, że komórki potrafią się dzielić lub umierać. Dzięki nowemu algorytmowi wyznaczyliśmy trajektorię, która prowadzi do komórek macierzystych, oraz geny kluczowe w procesie reprogramowania komórek. Dodatkowo znaleźliśmy informacje, jak “przodkowie” komórek macierzystych “komunikują” się z innymi komórkami. W konsekwencji udało się znacząco zwiększyć wydajność otrzymywania komórek macierzystych. Gdyby nie XVIII-wieczna teoria połączona z algorytmami machine learningu, musielibyśmy patrzeć na kilkadziesiąt tysięcy genów, co jest oczywiście niewykonalne dla człowieka.
A jak ten sam proces wyglądał, zanim naukowcy zaprzęgli technologię sekwencjonowania pojedynczych komórek?
Wcześniej, kiedy nie było możliwości profilowania pojedynczych, pomiary wykonywało się na całych populacjach komórek. Wtedy nie mieliśmy informacji, czy gen jest aktywny w tym typie czy w innym. Mogliśmy tylko porównać tkankę zdrową do tkanki z jakiegoś procesu chorobowego. I tak naprawdę nie widzieliśmy, które komórki czy geny są odpowiedzialne za powstawanie chorób. Obecnie identyfikujemy wszystkie typy komórek oraz to, jak ich stany zmieniają się w wielu procesach chorobotwórczych.
Chodzi o to, że teraz możemy poznać, jak działają komórki rakowe u człowieka?
Jesteśmy na etapie budowania dużych atlasów komórek w ramach projektów takich, jak wspomniany już Human Cell Atlas czy Human Tumor Atlas Network. One mogą przybliżyć nas do celu. W przyszłości opracowywane teraz rozwiązania będą wykorzystywane w diagnostyce i terapii. Będziemy w stanie z dużą dokładnością powiedzieć, w jaki sposób komórki danego pacjenta mogą zareagować na konkretne terapie — i dobrać optymalne leczenie. Pamiętajmy, że w chorobach nowotworowych czas jest kluczowy dla zdrowia i życia człowieka. Dzięki sekwencjonowaniu guza, dostaniemy w krótkim czasie informację, z jakimi komórkami mamy do czynienia, jakie są ich typy, cechy. Możemy wtedy od razu wdrożyć odpowiednie spersonalizowane leczenie.
Jakie znaczenie w przypadku analizy pojedynczych komórek mają dane i ich jakość?
Należy pamiętać, że podczas sekwencjonowania wykrywamy tylko kilka procent RNA dla jednej komórki, więc te dane są bardzo zaszumione i rzadkie. Dlatego musimy stosować metody uczenia maszynowego, żeby wyeliminować szumy. Dane są kiepskiej jakości, natomiast mają tę zaletę, że nie ograniczamy się tylko do wybranych genów, jak do tej pory. Badamy aktywność wszystkich genów jednocześnie. Tym samym nasze dane pozwalają tworzyć hipotezy, które następnie musimy sprawdzać klasycznymi metodami biologicznymi. Narzędzia genomiczne i ML służą właśnie do budowy hipotez w sposób maksymalnie szeroki.
Rozumiem, że zespół badawczy, który nad tym pracuje, musi być interdyscyplinarny, nie wystarczą sami data scientiści?
Zdecydowanie tak. Musimy mieć osoby, które są informatykami, matematykami, ale potrzebujemy też biologów molekularnych i komórkowych, specjalistów od sekwencjonowania. Sporym wyzwaniem jest znalezienie dla nich wspólnego języka, który pomoże osiągać zakładane efekty.
Jak określiłby pan cel badań zespołu działającego w ICTER?
Pracujemy nad rozwojem metod, które pozwalałyby na tzw. mierzenie wielu modalności w tej samej komórce. Nie mierzymy tylko RNA, ale także stany chromatyny oraz jej miejsca otwarte, czyli miejsca regulatorowe genów. Chcemy to robić dla bardzo dużej liczby komórek, a jednocześnie tak, aby było to tanie i uniwersalne. Celem jest zastosowanie metod w przyszłości w diagnostyce. Drugą gałęzią naszej działalności jest rozwój algorytmów do analizy danych multimodalnych. Rozwijamy również współpracę z polskimi i zagranicznymi ośrodkami badawczymi, gdzie analizujemy tego typu dane wygenerowane przez inne zespoły.
Z jakich narzędzi data science korzystają państwo na co dzień w trakcie analizy danych pochodzących z komórek?
Używamy rozwiązań open source, zazwyczaj na licencjach MIT. Obecnie jest dostępnych wiele narzędzi bioinformatycznych do analizy danych genomicznych z pojedynczych komórek. Jest to też bardzo szybko rozwijająca się dziedzina, gdzie metody eksperymentalne często wyprzedzają metody obliczeniowe. Dlatego tworzymy własne narzędzia. Nie wszystkie algorytmy jesteśmy w stanie przenieść z innych dyscyplin bezpośrednio na nasz obszar badawczy. Często czerpiemy inspirację z rozwiązań dostępnych w analizie obrazu czy przetwarzaniu języka naturalnego, dlatego właśnie tak ważna jest interdyscyplinarność zespołu. Warto dodać, że wszystkie dane, zgromadzone w Human Cell Atlas czy pochodzące z innych inicjatyw, będą dostępne bezpłatnie dla badaczy, data scientistów i naukowców. To powinno pomóc w przyśpieszeniu rozwoju metod profilowania komórek oraz rozwoju metod obliczeniowych.
Jaką rolę odegra tu analiza pojedynczych komórek?
Moim zdaniem, w przyszłości podobne metody przede wszystkim będą tanie i dostępne dla wielu osób, podobnie jak to miało miejsce z sekwencjonowaniem ludzkiego genomu. Dwadzieścia lat temu koszty sięgały miliardów dolarów, a dziś zostały zredukowane do 400 dolarów. Sekwencjonowanie pojedynczej komórki będzie więc standardową procedurą analizy próbek pobranych podczas biopsji. Mam też pewność, że wspomniana metoda zmieni diagnostykę i przyśpieszy wykrywanie chorób nowotworowych. Pojedyncze przypadki analizy tego rodzaju już były przeprowadzane i pacjenci otrzymywali odpowiednią terapię. Dziś są to sytuacje jednostkowe, natomiast w przyszłości staną się standardem.