Data mining w poszukiwaniu surowców naturalnych, czyli geofizyka i data science
— Analiza danych pozwala nam powiedzieć, gdzie i na jakiej głębokości możemy spodziewać się zwierciadła wód, w tym mineralnych. Możemy za pomocą analizy danych zlokalizować złoża wszelkiego rodzaju, od minerałów, kruszyw, przez ropę naftową, po gaz ziemny. Dlatego analiza danych ma zastosowanie w geofizyce zarówno w skali bardzo lokalnej, inżynierskiej, jak i w dużej skali poszukiwawczej. Wszystkie dane, na jakich pracujemy, muszą być zdigitalizowane. Badaczom otwiera to właściwie wszechświat możliwości — opowiada dr inż. Anna Kwietniak z Wydziału Geologii, Geofizyki i Ochrony Środowiska Akademii Górniczo-Hutniczej w Krakowie.
Anna Kwietniak doktoryzowała się w zakresie nauk o Ziemi w dziedzinie geofizyki, jest także geolożką. Przez ponad 5 lat pracowała w przedsiębiorstwie geofizycznym. Staż doktorski zrealizowała w dziale R&D w Microseismic.INC w Houston. W Katedrze Geofizyki AGH bada wykorzystanie danych sejsmicznych w interpretacji geologicznej. Jej głównym zainteresowaniem naukowym jest analiza zmian częstotliwości sygnału sejsmicznego. Prowadzi zajęcia dydaktyczne z sejsmiki i sejsmologii.
Co pani robi w pracy na co dzień?
Zajmuję się tzw. polem fal sprężystych, czyli, mówiąc inaczej, falami sejsmicznymi. Analizuję parametry pola falowego. Geofizykę można rozpatrywać w aspekcie badań podstawowych, w ramach których chcemy dowiedzieć się więcej o świecie, o przyrodzie czy otoczeniu geologicznym, oraz jako badania stosowane. Moja praca ma właśnie charakter stosowany. Analizuję sygnały i dane po to, aby odpowiedzieć na pytania praktyczne, związane np. z budową geologiczną określonego terenu. Dzięki badaniom możemy sprawdzić, czy w danym miejscu jest uskok, jaka jest miąższość (grubość — red.) warstw geologicznych, jakie są ich parametry i czy mogą one świadczyć o nasyceniu wodą oraz węglowodorami. Ponadto zajmuję się analizą przestrzenną dotyczącą sejsmiczności terenu. W ten sposób dowiadujemy się, czy dane miejsce jest podatne na trzęsienia ziemi, czy nie. Szacujemy prawdopodobieństwo przekroczenia pewnych parametrów sejsmologicznych na tym obszarze i możemy powiedzieć, jak to przełoży się na bezpieczeństwo ludzi i infrastruktury. W takim modelu sejsmicznym bada się miejsca nie tylko pod względem użyteczności, ale przeprowadza się także analizy pod kątem strategicznych inwestycji, takich jak budowa lotnisk, mostów lub elektrowni. Geofizycy prowadzą również badania w mniejszej skali, sprawdzając warunki geologiczne, planując np. budowę dróg. Badania geofizyczne są także przydatne w monitorowaniu stanu środowiska naturalnego.
A co z poszukiwaniem złóż?
Analiza danych pozwala nam powiedzieć, gdzie i na jakiej głębokości możemy się spodziewać zwierciadła wód, w tym tych mineralnych. Dodatkowo możemy za pomocą analizy danych zlokalizować złoża wszelkiego rodzaju, od kruszyw przez ropę naftową, po gaz ziemny. Analiza danych w geofizyce może być prowadzona zarówno w skali bardzo lokalnej, inżynierskiej, jak i w dużej skali poszukiwawczej.
Jak wyglądają dane w geofizyce? Czym różnią się od informacji pozyskiwanych przez data scientistów w innych obszarach badawczych?
W geofizyce mamy do czynienia z danymi, które zmieniają się w czasie i przestrzeni. Nie są to typowe szeregi czasowe, jak w przypadku danych np. z giełdy. Dla nas ważne jest, gdzie się zmieniają wskazane parametry, w jakim miejscu naszego obszaru badań. Dane geofizyczne i dane geologiczne mają charakter przestrzenny. Sam format zapisu jest bardzo różny w zależności od tego, jaka to metoda geofizyczna. Sposób przetwarzania musi być też dostosowany do tego, jaka jest struktura danych.
Geofizyka może kojarzyć się z tradycyjnymi mapami, modelami terenu…
To prawda, że dane geofizyczne czy geologiczne długo miały tylko analogową postać. Przechowywało się je jako wykresy albo mapy. Obecnie wszystkie dane, na jakich pracujemy, muszą być zdigitalizowane, co badaczom otwiera właściwie wszechświat możliwości. Czerpiemy rozwiązania zarówno z data science, jak i z data miningu. Dzięki temu, znając strukturę plików, możemy wyodrębnić dane, które nas interesują i samodzielnie zaimplementować pewne rozwiązania. Da się to zrobić nawet w oderwaniu od tego, co dostarcza nam oprogramowanie, którego zwykle używamy.
Z jakich narzędzi korzysta Pani na co dzień? To specjalne programy do analizy danych geofizycznych?
Tak, oczywiście istnieje oprogramowanie typowo geofizyczne. Warto jednak zauważyć, że programy do analizy danych geofizycznych, w szczególności danych sejsmicznych, są bardzo drogie, a wbudowane w nie funkcje często działają jak “czarne skrzynki”. Nawet, kiedy jest opis tych “skrzynek”, często nie do końca wiadomo, jak program robi to, co robi. Tymczasem dostępność podstawowych narzędzi data science i znajomość języków programowania daje dużo większe pole manewru. Użytkownik sam może napisać kod i zaimplementować go w silniku, który działa w aplikacji. Co więcej, nie jest to tylko „klikologia” oparta o wbudowane funkcje. Dzięki wykorzystaniu własnoręcznie przygotowanych rozwiązań geofizycy mogą mieć pełną kontrolę od momentu, kiedy dane są pozyskane bądź zmierzone w terenie, aż do chwili interpretacji tych danych.
W takim razie jest pani dziś bardziej geofizyczką czy jednak data scientistką?
Myślę, że w geofizyce nie ma już dziś osób, które nie interesują się i nie zajmują analizą danych. Powiem więcej, nasza praca to głównie analiza danych. Kiedy pracuję przy konkretnym projekcie, 70 procent czasu to obróbka, wczytywanie i przetwarzanie danych. Pojawiają się nowe rozwiązania z obszaru uczenia maszynowego i sztucznej inteligencji. Wiele działań w geofizyce polega obecnie na wprowadzaniu takich rozwiązań.
A jaki pozyskuje pani doktor dane do badań?
Jeżeli mówimy o badawczym projekcie sejsmicznym, a takimi się głównie zajmuję, potrzebujemy danych sejsmicznych. Pozyskanie danych sejsmicznych to długi i kosztowny proces, w małej skali badawczej należy najpierw przeprowadzić prace w terenie. Praca ukierunkowana na poszukiwania złóż wody czy węglowodorów związana jest z wykorzystaniem większych wolumenów danych. Ich akwizycją zajmują się wyspecjalizowane firmy, które pracują dla przemysłu wydobywczego czy budownictwa. Naukowcom do celów badawczych dane są udostępniane nieodpłatnie. Transfery danych i technologii, wypracowane w ośrodkach badawczych odbywają się na zasadzie oddzielnych dwustronnych umów.
Jakich konkretnie danych potrzebuje geofizyk?
Ja zajmuję się danymi sejsmicznymi 3D, które można sobie wyobrazić jako zdjęcie trójwymiarowe pewnego obszaru (tzw. wolumen sejsmiczny). Wyobraźmy sobie wycinek terenu o powierzchni 20 na 20 km. Co 5-10 metrów na takim poletku mamy czujnik, który rejestruje falę sejsmiczną, którą sami zresztą wcześniej generujemy. Ta fala rozchodzi się w ośrodku geologicznym, odbija się od jego granic, a my rejestrujemy tę falę odbitą w czujnikach. Sam proces zbierania danych z takiego poletka trwa ok. 3 miesięcy, jeśli chcemy mieć dane dobrej jakości. Następnie jest etap przetwarzania danych: trzeba je uszeregować, zredukować do jak najbardziej użytecznej postaci, dokonać na nich pewnych operacji matematycznych, aby wyobrazić sobie model ośrodka geologicznego.
Co dalej się dzieje z danymi?
Dane 3D obejmują pewien obszar i rozchodzą się w czasie, w dół i wracają do nas po odbiciu od granicy geologicznej (a właściwie granicy sejsmicznej). Osią pionową dla zdjęcia sejsmicznego jest czas - czyli literalnie rejestrujemy czas przyjścia fali i parametry pola falowego, jak np. amplitudę. Podczas badań sięgamy do ok. 5 km w głąb ziemi, przy czym zasięg zależy od kilku czynników, w tym m.in. od geometrii pomiarowej i od parametrów źródła sejsmicznego. Następnie jest kluczowy etap interpretacji, którym już ja się zajmuję. Jeżeli mam pomysł na analizę tych danych, mogę użyć narzędzi z gotowych, zewnętrznych aplikacji. Często korzystam dodatkowo z Pythona, dlatego że ma wiele bibliotek i kodów przydatnych w badaniu danych sejsmicznych. Geofizyk, dzięki narzędziom data science, może czerpać inspirację także z innych dziedzin, np. z telekomunikacji, akustyki, analizy szeregów czasowych, analizy i filtracji danych graficznych.
Wspomniała pani, że dane są rejestrowane w czasie.
Jeżeli mamy sejsmiczne dane 3D, nie jest to kompletna informacja geologiczna, ponieważ, jak mówią geofizycy, musimy “dowiązać się” do danych geologicznych.
Co to znaczy?
Geofizyka to dziedzina, która musi być sprawdzalna. Dlatego na badanym obszarze do odpowiednio przygotowanych otworów zapuszcza się sondy w celu pozyskania pomiarów. Dane z otworów muszą być spójne z tym, co widać w danych sejsmicznych, abyśmy mogli potwierdzić nasze badania. W otworach wiertniczych przeprowadza się szereg pomiarów, w tym można przeprowadzić badanie prędkości w ośrodku geologicznym. Mając już czas z danych sejsmicznych i prędkość z pomiarów otworowych, możemy przeliczyć to na głębokość. Na tym w ogólności polega “dowiązanie danych”. Proszę pamiętać, że nikt nie będzie wiercił otworu wiertniczego wartego miliony złotych bez precyzyjnej informacji, jak głęboki ma być otwór, żeby dowiercić się np. do złoża gazu. Pomyłki rzędu kilku metrów mogą kosztować setki tysięcy złotych. W analizie danych pomierzonych w otworach bardzo pomagają metody data science, ponieważ tych pomiarów jest wiele, co wynika z zastosowanego kroku próbkowania — czasem to nawet 20 cm. W interpretacji nierzadko wykorzystuje się sieci neuronowe. Jeżeli wyuczymy sieć neuronową, że na danym interwale mamy np. nasycenie węglowodorami (potwierdzamy to właśnie danymi otworowymi), taka sieć na całym zdjęciu sejsmicznym może nam wskazać podobne miejsca. Dla mojej pracy oznacza to dwie rzeczy. Po pierwsze, skraca się czas poszukiwania podobnych miejsc, ponieważ sieć neuronowa robi to za mnie dużo szybciej i dokładniej. Po drugie, sieć neuronowa jest bardziej “obiektywna”. Często jest tak, że zautomatyzowane wyniki, pochodzące z sieci neuronowych czy z wyszukiwania podobieństw, pokazują inny punkt widzenia, który warto wziąć pod uwagę podczas interpretacji danych sejsmicznych.
I sieć uczy się też niwelowania błędów w pomiarach?
Dokładnie tak. Robiąc badania na naszym wspomnianym poletku 20 na 20 km, załóżmy, że mamy tam 8 otworów wiertniczych. Jeżeli testuję sieć neuronową, uczę ją najpierw na 7 otworach, a następnie proszę sieć, aby sama stworzyła obraz ósmego otworu. Wtedy badam błąd dopasowania między wynikami rzeczywistymi oraz tymi obliczonymi przez sieć neuronową i zakładam kryterium, którego nie chcę przekroczyć. Następnie zmieniam badane otwory tak, aby sieć uczyła się na kolejnych, traktując inny punkt jako sprawdzian, do momentu, kiedy błąd dopasowania zmniejszy się do oczekiwanego przeze mnie poziomu. To jest świetna metoda, aby mocno ograniczyć ryzyko „minięcia się” z danymi geologicznymi.
Jak z pani perspektywy rozwija się teraz data science?
Przyspieszenie powoduje, że potrzebujemy coraz większych mocy obliczeniowych. W geofizyce wszystko dziś oblicza się na kartach graficznych, więc potrzebujemy coraz lepszego sprzętu. Mam to szczęście, że pracuję na Akademii Górniczo-Hutniczej, która ma bardzo dobre zaplecze komputerowe. Bez data science geofizyka nie mogłaby się rozwijać. Zarówno metody, jak i algorytmy unowocześniają się. Dużym bonusem dzięki narzędziom data science jest fakt, że ludzie więcej publikują, pokazują swoje rozwiązania, chwalą się nimi, przez co można znaleźć wiele ciekawych pomysłów na interpretację swoich danych. Zauważają to też firmy, które zajmują się danymi geofizycznymi.
Jakie wyzwania mają dziś przed sobą geofizycy?
Pliki, na których pracujemy (w formacie .sgy), są bardzo duże. Obecnie trwają prace, by dotychczasowy format danych, w którym w zasadzie od początku badań geofizycznych były zapisywane dane sejsmiczne, zastąpić przez inne rodzaje plików, sprytniej szeregujące i przechowujące dane. To będzie wielki przełom dla sejsmiki. Pewne pomysły na analizę, dotychczas niemożliwe do przeprowadzenia, będą w naszym zasięgu. Procedury, które aplikujemy na danych sejsmicznych, często zabierają dni lub tygodnie (nawet na bardzo mocnych stacjach obliczeniowych), stąd jest duża potrzeba upraszczania struktury plików. W formie ciekawostki wspomnę, że niektóre badania o charakterze podstawowym, np. policzenie inwersji pola falowego w płaszczu ziemskim, to miesiące ciągłych obliczeń. Chciałabym podkreślić, że w analizach zazwyczaj wykorzystujemy dane komercyjne, które są udostępniane nieodpłatnie przez sektor przemysłowy. To są informacje, za którymi stoją bardzo duże pieniądze, często są to dane wrażliwe albo nawet utajnione. Dlatego dodatkowym aspektem mojej pracy i sporym wyzwaniem jest bezpieczeństwo przechowywania danych i dostępu do nich. Proszę zauważyć, że dane o temperaturze są ogólnodostępne, ale dane geofizyczne już nie.