Obecną wiedzę o wszechświecie zawdzięczamy analityce i data science
– Najpierw była teoria, począwszy choćby od Einsteina. Przez długi czas kosmologia była nauką bliską filozofii. Natomiast dane, które pozwoliły te teorie przetestować, pojawiły się znacznie później. Rozwój data science w astrofizyce sprawił, że dziś możemy badać galaktyki, które są miliardy lat świetlnych od nas. Bez większego problemu dowiadujemy się o zjawiskach, które jeszcze do niedawna wydawały nam się niewyobrażalne – mówi profesor Maciej Bilicki, astrofizyk z Polskiej Akademii Nauk.
Dr hab. Maciej Bilicki jest pracownikiem Centrum Fizyki Teoretycznej Polskiej Akademii Nauk. Bilicki zajmuje się kosmologią obserwacyjną, stosowaniem uczenia maszynowego do analizy dużych zbiorów danych astronomicznych, a także wykorzystaniem data science w astrofizyce. Bada strukturę wielkoskalową wszechświata i galaktyki, których światła używamy do poznawania jego własności. Interesuje go rozmieszczenie materii w największych skalach kosmicznych i wpływ tej materii na rozchodzenie się światła zarówno wyemitowanego przez galaktyki, jak i pochodzącego z najwcześniejszych epok wszechświata.
Astrofizyka i innowacje. Jak długo trwa ten mariaż technologiczny?
Analiza danych przy wykorzystaniu m.in. algorytmów sztucznej inteligencji pojawiła się w astrofizyce ok. 20 lat temu. Pierwsze próby z rozpoznawaniem obrazów prowadzone przez firmy czy ośrodki naukowe pokazały, że podobnie jak w przypadku innych zdjęć można klasyfikować np. obrazy galaktyk. Oczywiście wymagało to odpowiednich mocy obliczeniowych. Musiało minąć kilka lat, aż wykorzystanie tych technologii można było wdrożyć w pełnym wymiarze. Podobnie było z procesami deep learning, które na początku wydawały się mało skuteczne w analizie wszechświata. Dziś wielu naukowców nie wyobraża sobie swojej pracy naukowej bez narzędzi deeplearningowych.
W jakim zakresie praca z danymi jest konieczna dla astrofizyka?
Astrofizyka to nie tylko nauka obserwacyjna – ma również dużą część teoretyczną. Można być astrofizykiem i nie pracować z danymi. Ba, nauka o całym wszechświecie – kosmologia – zaczęła się od zupełnie teoretycznych badań. Na początku nie było obserwacji i naukowcy matematycznie wyliczyli, co się dzieje we wszechświecie w największych skalach.
Dziś obserwator kosmosu to rzadko jest ktoś, kto bezpośrednio patrzy przez teleskop. Chyba że dla przyjemności. Dziś astrofizyk obserwacyjny korzysta z danych dostarczanych przez zespoły naukowe, teleskopy z obserwatoriów, stacje kosmiczne. Dzięki danym z tych źródeł tworzy modele, które są podstawą interpretacji wszechświata i praw nim rządzących. Ja zajmuję się strukturą wszechświata w największych skalach, czyli setki milionów lat świetlnych od Ziemi.
I jak wygląda wszechświat od strony wykorzystania data science w astrofizyce?
W kosmologii mamy teoretyczne wyobrażenie odnośnie do tego, jak wszechświat powinien wyglądać, czyli jak powinny być rozmieszczone galaktyki. Te dane pozyskaliśmy właśnie dzięki metodom analitycznym, a nie stricte matematycznym. Dzięki symulacjom komputerowym możemy dodatkowo weryfikować uprzednie obserwacje i badać rozkład galaktyk w przestrzeni. Za sprawą nowych metod analizy danych mamy też do czynienia z wieloma niespodziankami.
O! Jakie to niespodzianki?
Naukowcy od lat wiedzą, że wszechświat się rozszerza. Począwszy od Wielkiego Wybuchu, galaktyki się od siebie oddalają. Wydawało się do lat 90., że ten proces powinien spowalniać, ponieważ galaktyki mają masę, a więc przyciągają się grawitacyjnie. A jak wiemy, grawitacja działa tylko przyciągająco, w przeciwieństwie do elektryczności, która może też odpychać ładunki jednoimienne.
Tymczasem obserwacje na podstawie analizy danych wskazują na to, że ekspansja wszechświata w ostatnich kilku miliardach lat przyspiesza. Oznacza to, że galaktyki zaczynają się od siebie oddalać coraz szybciej. Interpretujemy to jako tzw. ciemną energię.
Czy wiemy już, czym jest ciemna energia?
Obecnie to jedna z większych zagadek, której fizyka teoretyczna nie może wyjaśnić. Możemy to sobie matematycznie zapisać, choć w praktyce ten zapis nic nie mówi. Ale istnieje duża szansa, że w końcu zrozumiemy to dzięki analizie danych. Na razie innowacje w astrofizyce przyspieszają wykorzystanie nowoczesnych urządzeń, takich jak np. zaawansowane technologicznie teleskopy.
A z jakich narzędzi korzysta astrofizyk, jeśli chodzi o dane?
Nasza praca w dużej mierze polega na kompresji danych, co oznacza, że nie tyle je pozyskujemy, ile przetwarzamy. Z teleskopów dostajemy tzw. katalogi, które zawierają nie tylko zdjęcia, ale też pomiary widma, czyli spektrum elektromagnetycznego. To nasze główne źródło informacji o galaktykach. Końcowym efektem pracy data scientisty - kosmologa jest zazwyczaj tabela, która zawiera miliony, a nawet miliardy wierszy. Każdy wiersz to galaktyka, a w każdej kolumnie jest informacja o różnych właściwościach tych galaktyk. Oczywiście upraszczam to na potrzeby naszej rozmowy.
Co zyskujemy dzięki takim tabelom?
Dają m.in. informacje o jasności galaktyki, miejscu na niebie, rozmiarach kątowych, odległościach galaktyk. Oczywiście tabele nie docierają do nas w formie plików tekstowych, są kompresowane w postaci formatów binarnych, żeby można je było łatwiej wykorzystać. Nadal jednak mamy do czynienia z terabajtami danych. Z tabel próbujemy wyciągnąć własności statystyczne rozkładu galaktyk, m.in. mierząc to, jak galaktyki się gromadzą.
Gromadzą?
Galaktyki nie są rozmieszczone na niebie losowo. Jeśli spojrzymy na wszechświat, to galaktyki rozłożone są nie w postaci szumu, ale grupują się w określony sposób ze względu na grawitację. I to grupowanie jest zależne od tego, jaką ma właściwość wszechświat w tych największych skalach, którymi się zajmuję.
Staramy się mierzyć statystyki tego grupowania, korelacje między położeniami galaktyk, a później wyciągnąć z tych statystyk parametry naszego modelu kosmologicznego. Do tego używamy narzędzi statystycznych, takich jak wnioskowanie bayesowskie, które pozwala aktualizować co jakiś czas posiadaną wiedzę, bazując na nowych obserwacjach. Później budujemy wielowymiarowy model, z którego pomocą próbujemy znaleźć najlepsze dopasowanie do tych danych. Dlatego np. obliczenia prawdopodobieństw w wielowymiarowej przestrzeni nie da się zrobić na laptopie.
Gdzie w astrofizyce jest miejsce na sztuczną inteligencję?
Sztuczna inteligencja pojawia się tam, gdzie dane są już bardzo duże. Każda galaktyka ma ileś różnych cech – są galaktyki spiralne, eliptyczne. Jeśli np. chcemy oddzielić w modelu jedne od drugich, to z pomocą przychodzą algorytmy sztucznej inteligencji. I nie możemy już tego zrobić za pomocą przeglądania zdjęć z kosmosu, tak jak jeszcze kilkadziesiąt lat temu.
A co ze szkiełkiem i okiem naukowca?
Oczywiście to nie znaczy, że sztuczna inteligencja całkowicie zawładnęła tą dziedziną i już nic innego nie robimy. Cały czas używamy wiedzy fizycznej. Sztuczna inteligencja ma swoje ograniczenia – np. w sytuacji, gdy pojawiają się tzw. czarne skrzynki (z ang. black box), które utrudniają interpretację uzyskanych wyników.
W astrofizyce mamy do czynienia z danymi obserwacyjnymi, ale też sztucznymi. Czym jest ta druga kategoria?
Nauka o kosmosie jest bardzo nietypową dziedziną w porównaniu z innymi naukami przyrodniczymi. W zasadzie nie możemy robić kontrolowanych eksperymentów. To znaczy, że nie zbudujemy sobie wszechświata na żywo i nie sprawdzimy parametrów pod wpływem jakichś czynników. W przeciwieństwie do eksperymentów fizycznych.
Kosmosu, a nawet tych najbliższych obiektów, zwyczajnie nie da się badać w taki sposób. Nie mówiąc już o obszarach, do których nie docierają żadne sondy. Mamy do nich bardzo odległy wgląd, a do całego wszechświata jeszcze dalszy. Dlatego musimy próbować tworzyć modele, którymi będzie można sterować. Realizujemy to poprzez symulacje numeryczne. Budujemy w ten sposób model wszechświata w największych skalach. Następnie bierzemy pod uwagę parametry fizyczne, które znamy z prawdziwego wszechświata, adaptujemy je do modelu i możemy otrzymać potrzebne wyniki. W ten sposób otrzymujemy sztuczne dane, choć są one wysoce prawdopodobne.
W jakim celu tworzy się takie dane?
Wszechświat zmienia się w czasie, więc możemy śledzić ewolucję jego modelu od dawniejszych etapów do dzisiaj. Nawet to, co się stanie w przyszłości. Możemy też zmieniać parametry i określać różne własności wszechświata, symulować je. Nawet właściwości grawitacji, które znamy z badań. To pozwala tworzyć sztuczne katalogi galaktyk, dzięki którym opisujemy, jak wyglądałby wszechświat, gdyby miał inne parametry. Dzięki tym danym weryfikujemy też nasze wcześniejsze teorie. Nie ma innego sposobu na bezpośrednie zbadanie galaktyk. Zrobimy to tylko poprzez symulację sztucznymi danymi.
Data science w astrofizyce zapewne oznacza bardzo zaawansowaną pracę z danymi. Czy to powoduje, że czuje się Pan również data scientistą?
Po części tak. Z biegiem lat nauka i biznes coraz bardziej się przenikają. Na co dzień obserwuję przepływ naukowców do firm, w tym też astrofizyków do data science. Wiele osób decyduje się na pójście ścieżką inną niż stricte naukowa. Co istotne, osoby te świetnie się odnajdują w sektorze komercyjnym, ponieważ często mają odpowiednie doświadczenie w pracy z danymi w obszarze szeroko pojętych nauk o kosmosie. Jednak osobiście staram się nie tracić z pola widzenia swoich naukowych „korzeni”. Przede wszystkim jestem fizykiem czy astrofizykiem.
Jakie przełożenie na Pana pracę mają innowacje technologiczne?
Postrzegam data science jako narzędzie. Dla naukowców ma ono charakter praktyczny, bo pomaga np. zrozumieć zmiany zachodzące w przestrzeni kosmicznej. Swoim współpracownikom czy studentom nie proponuję pracy nad rozwijaniem projektów w obszarze data science. Polecam jednocześnie, aby korzystać z działających już na rynku rozwiązań do ułatwiania swojej pracy.
Jednak również sięganie po data science w astrofizyce nie daje pewności co do tego, jak wygląda wszechświat…
Trzeba robić jakieś upraszczające założenia, żeby badać wszechświat. Przy obecnych możliwościach technologicznych nie da się stworzyć idealnie odwzorowanych modeli w jak najmniejszej skali. Musimy przyjąć pewne założenia, z którymi się wszyscy zgadzają. Mówię tu o ogólnych własnościach wszechświata. Przyjmujemy, że w każdej galaktyce te własności są w miarę podobne, a prawa fizyki są wszędzie takie same, choć nie możemy tego sprawdzić. Te założenia wykorzystujemy w modelach służących do analizy danych, ale też do numerycznych symulacji. Jeżeli jednak założenie jest błędne, to nie wyciągniemy z danych prawidłowej odpowiedzi.
Dane nie są odpowiedzią na wszystko. Czego wykorzystanie data science w astrofizyce nie pozwala zrozumieć za ich pomocą?
Przykładem jest choćby grawitacja, którą rozumiemy dobrze tu, na Ziemi, w Układzie Słonecznym, a nawet w różnych sytuacjach ekstremalnych typu zderzające się czarne dziury. W tych przypadkach wszystko się zgadza z naszymi teoriami. Powstaje jednak pytanie, czy w największych kosmicznych skalach grawitacja również jest taka, jak nam się wydaje. Jeżeli nie, to wtedy nasze modele okażą się nieprawdziwe. Wtedy nie dostaniemy prawidłowych odpowiedzi o wszechświecie. I nie pomogą w tym nawet najlepsze komputery.
Jak Pan widzi przyszłość data science w astrofizyce?
Przede wszystkim badania o wszechświecie będą się rozwijały w obszarze komercyjnym. Spójrzmy na biznes kosmiczny i takie koncerny jak SpaceX. Analiza ogromnej ilości danych potrzebuje odpowiedniego finansowania. Dlatego duże firmy technologiczne z czasem będą mogły sobie pozwolić na większe i skuteczniejsze wykorzystanie pewnych rozwiązań.
Będą także tworzone narzędzia, których nie byłyby w stanie wypracować małe zespoły naukowe na uczelniach. Na zasadzie outsourcingu zapewne będzie można z nich korzystać tak, jak to działa dziś w przypadku rozwiązań aplikacyjnych typu Google Cloud czy Dropbox. Będą się też rozwijać narzędzia wykorzystywane przez astrofizyków w data science, takie jak TensorFlow, GitHub czy PyTorch.
A co z analizą danych w badaniu kosmosu?
Jeśli chodzi o wykorzystanie pewnych rozwiązań, to tutaj biznes przegonił naukę. Jedno jest jasne – ambitne plany, które są związane z obserwacjami, będą wymagać innowacyjnych narzędzi. Na przykład w Chile aktualnie jest budowane Obserwatorium Very Rubin obejmujące potężny teleskop, który będzie badał ogromne wycinki nieba przez dziesięć lat. Tym samym każdego dnia będzie dostarczał terabajty danych. Nie będzie możliwości technicznych, aby te dane z serwerów pobrać. To wiadomo już dziś.
Druga kwestia to złożoność tych danych. Będą one aktualizowane każdej nocy, a to oznacza zmienność obiektów i ich parametrów. To jest ogromne wyzwanie dla nauki. Pojawią się tysiące alertów, że coś się dzieje na niebie, i nie da się ich w żaden sposób analizować czy klasyfikować tradycyjnymi metodami. Trzeba będzie wypracować różne metody filtrowania tych alertów, aby decydować, co jest ważne, a co nie. Stąd zaawansowane technologie i algorytmy sztucznej inteligencji będą konieczne do tego typu zadań.
Czyli nie wyobraża sobie Pan pracy astrofizyka bez danych?
Kosmologia należy do nauk przyrodniczych, nawet jeżeli nie możemy powtarzać pewnych eksperymentów. Chcemy zrozumieć, co się dzieje w prawdziwym świecie, więc dane są absolutnie kluczowe.
Najpierw była teoria, począwszy choćby od Einsteina. Przez długi czas kosmologia była nauką bliską filozofii. Natomiast dane, które pozwoliły te teorie przetestować, pojawiły się znacznie później. Rozwój data science w astrofizyce sprawił, że dziś możemy badać galaktyki, które są miliardy lat świetlnych od nas. Bez większego problemu dowiadujemy się o zjawiskach, które jeszcze do niedawna wydawały nam się niewyobrażalne.