— Mózg człowieka potrafi wyobrazić sobie dane w dwóch czy trzech wymiarach. Ale jeśli mamy kilkadziesiąt lub nawet kilkaset tysięcy wymiarów, wtedy wyłącznie za pomocą algorytmów możemy próbować zrozumieć, które grupy genów wpływają na dane procesy biologiczne — tłumaczy dr Marcin Tabaka z Międzynarodowego Centrum Badań Oka.

Dr Marcin Tabaka w International Centre for Translational Eye Research jest Liderem Zespołu Genomiki Obliczeniowej. Zajmuje się regulacją ekspresji genów, wysokoprzepustową genomiką pojedynczej komórki, reprogramowaniem komórkowym oraz patogenezą raka. ICTER skupia się na rozwijaniu diagnostyki i terapii chorób oczu.

Genomika pojedynczej komórki – na czym polegają te badania?

Historia zaczęła się w 2009 roku, kiedy po raz pierwszy udało się naukowcom z University of Cambridge zsekwencjonować RNA z pojedynczej komórki. Z biegiem czasu, kiedy opracowywano coraz lepsze metody genomiczne, czyli wyłapywania molekuł RNA, przepisywania ich na cDNA, a później sekwencjonowania, zaczęto analizować coraz więcej komórek w pojedynczych doświadczeniach. Ja zainteresowałem się dziedziną w 2013 roku, kiedy naukowcy byli w stanie sekwencjonować kilkadziesiąt komórek. W następnym roku ta liczba wynosiła około tysiąca, w 2015 — już kilkadziesiąt tysięcy, dzięki technologii opartej na mikrofluidyce. W obecnych projektach sekwencjonuje się miliony komórek. Co więcej, istnieje program Human Cell Atlas, który ma na celu skatalogowanie wszystkich typów komórek ludzkiego ciała. Docelowo zbiór ma zawierać nawet 2 miliardy komórek.

To będzie wystarczająca liczba, aby skutecznie prowadzić procesy badawcze?

I tak, i nie. To nadal niewiele w porównaniu z liczbą komórek w naszym ciele. Pomijając fakt, że każda ludzka komórka jest unikatowa, to przeciętny człowiek o wadze 70 kg i wzroście wynoszącym 170 cm ma ich ok. 30 bilionów. Jednak nawet sekwencjonowanie takiego małego ułamka wszystkich komórek pozwoli nam zbudować atlas, który przyczyni się do szybszego i łatwiejszego badania chorób. Budując atlas komórek danej tkanki, dowiadujemy się, które geny są aktywne dla danego typu oraz które z nich są odpowiedzialne za konkretne choroby. Co ważne, jesteśmy w stanie zrobić to dla wszystkich typów komórek, które uczestniczą w procesie chorobowym. Oczywiście analizy tego rodzaju są skomplikowane, ponieważ, kiedy robimy sekwencjonowanie pojedynczej komórki, nie wykrywamy wszystkich molekuł RNA, nawet jeśli są tam obecne. Metody nie są na tyle dokładne, abyśmy mogli z pojedynczej wyciągnąć wszystkie informacje, ale jeśli przeanalizujemy wiele komórek danego typu, mamy wtedy pełny obraz.

W czym pomagają algorytmy uczenia maszynowego?

Podczas analizy możemy mieć kilkadziesiąt, jeśli mierzymy poziomy ekspresji genów, lub nawet kilkaset tysięcy wymiarów, jeśli mierzymy miejsca regulatorowe genów na DNA. Wszystkie metody uczenia maszynowego, które stosujemy w analizie, mają za zadanie przede wszystkim przedstawić dane w taki sposób, aby były dla nas zrozumiałe. Ludzki mózg potrafi wyobrazić sobie dane w dwóch, trzech wymiarach. Gdybyśmy mierzyli trzy cechy komórki, bylibyśmy jeszcze w stanie sobie to wyobrazić. Ale jeśli mamy kilkaset tysięcy wymiarów, to tylko za pomocą algorytmów możemy zrozumieć, które grupy genów wpływają na dane procesy. Co więcej, nawet ten sam typ komórki może mieć różne poziomy tego samego mRNA, ponieważ jądra komórkowe, w których zachodzi synteza są na tyle małe, że znaczącą rolę odgrywa stochastyczność (zmienność losowa – red.).

Jakie metody stosuje się w analizie pojedynczych komórek?

Dobieramy różne zależnie od tego, co chcemy uzyskać z analizy. Możemy dzięki algorytmom klasyfikować komórki, wtedy stosujemy narzędzia do analizy głównych składowych. Jeżeli są to bardziej skomplikowane procesy, jak rozwój organizmu albo samej choroby, i chcemy uporządkować komórki w przestrzeni wielowymiarowej, wtedy wykorzystujemy metody nieliniowe redukcji wymiaru, jak mapy dyfuzji. W tym przypadku możemy zobaczyć wzdłuż osi różnicowania się komórek, które geny są aktywowane, a które wyciszane. Co ciekawe, czasem nadal przydają nam się modele analityczne opracowane kilkaset lat temu.

Jak to możliwe?

Tak było w przypadku badania procesu reprogramowania komórek. To proces, który „odwraca” różnicowanie się komórek i pozwala wygenerować komórki macierzyste. Jest niezwykle ważny dla medycyny regeneracyjnej, gdyż komórki macierzyste posłużą do odtwarzania tkanek lub nawet całych organów pacjenta. W ramach prac badawczych chcieliśmy zrozumieć, jak zachodzi reprogramowanie. W ciągu 18 dni trwania eksperymentu, co 12 godzin izolowaliśmy komórki, następnie RNA przygotowywaliśmy do sekwencjonowania.  Łącznie uzyskaliśmy RNA z 250 tysięcy komórek. Komórki macierzyste powstają tylko z bardzo małej liczby komórek, które poddaje się reprogramowaniu, dodatkowo, komórki są uśmiercane, aby wyizolować z nich RNA. Tracimy więc informację, które z nich w jednym punkcie czasu przekształcą się w komórki w innym punkcie pomiarowym. Jedyne co mamy, to dwie chmury punktów w przestrzeni kilkudziesięciu tysięcy wymiarów i potrzebujemy wywnioskować, jak połączyć te chmury ze sobą. Dlatego przydała nam się metoda optymalnego transportu, która pierwotnie opisywała, w jaki sposób najefektywniej przenosić stosy piasku czy kamieni z miejsca na miejsce, minimalizując koszty związane z transportem. Została opracowana przez Gasparda Monge’a pod koniec XVIII wieku. Teoria została wykorzystana podczas wyprawy Napoleona do Egiptu przy budowie fortyfikacji. Ale wracając do genomiki pojedynczych komórek, rozbudowaliśmy teorię optymalnego transportu Monge’a poprzez dodanie do niej informacji, że komórki potrafią się dzielić lub umierać. Dzięki nowemu algorytmowi wyznaczyliśmy trajektorię, która prowadzi do komórek macierzystych, oraz geny kluczowe w procesie reprogramowania komórek. Dodatkowo znaleźliśmy informacje, jak “przodkowie” komórek macierzystych “komunikują” się z innymi komórkami. W konsekwencji udało się znacząco zwiększyć wydajność otrzymywania komórek macierzystych. Gdyby nie XVIII-wieczna teoria połączona z algorytmami machine learningu, musielibyśmy patrzeć na kilkadziesiąt tysięcy genów, co jest oczywiście niewykonalne dla człowieka.

A jak ten sam proces wyglądał, zanim naukowcy zaprzęgli technologię sekwencjonowania pojedynczych komórek?

Wcześniej, kiedy nie było możliwości profilowania pojedynczych, pomiary wykonywało się na całych populacjach komórek.  Wtedy nie mieliśmy informacji, czy gen jest aktywny w tym typie czy w innym. Mogliśmy tylko porównać tkankę zdrową do tkanki z jakiegoś procesu chorobowego. I tak naprawdę nie widzieliśmy, które komórki czy geny są odpowiedzialne za powstawanie chorób. Obecnie identyfikujemy wszystkie typy komórek oraz to, jak ich stany zmieniają się w wielu procesach chorobotwórczych.

Chodzi o to, że teraz możemy poznać, jak działają komórki rakowe u człowieka?

Jesteśmy na etapie budowania dużych atlasów komórek w ramach projektów takich, jak wspomniany już Human Cell Atlas czy Human Tumor Atlas Network. One mogą przybliżyć nas do celu. W przyszłości opracowywane teraz rozwiązania będą wykorzystywane w diagnostyce i terapii. Będziemy w stanie z dużą dokładnością powiedzieć, w jaki sposób komórki danego pacjenta mogą zareagować na konkretne terapie — i dobrać optymalne leczenie. Pamiętajmy, że w chorobach nowotworowych czas jest kluczowy dla zdrowia i życia człowieka. Dzięki sekwencjonowaniu guza, dostaniemy w krótkim czasie informację, z jakimi komórkami mamy do czynienia, jakie są ich typy, cechy. Możemy wtedy od razu wdrożyć odpowiednie spersonalizowane leczenie.

Jakie znaczenie w przypadku analizy pojedynczych komórek mają dane i ich jakość?

Należy pamiętać, że podczas sekwencjonowania wykrywamy tylko kilka procent RNA dla jednej komórki, więc te dane są bardzo zaszumione i rzadkie. Dlatego musimy stosować metody uczenia maszynowego, żeby wyeliminować szumy. Dane są kiepskiej jakości, natomiast mają tę zaletę, że nie ograniczamy się tylko do wybranych genów, jak do tej pory. Badamy aktywność wszystkich genów jednocześnie. Tym samym nasze dane pozwalają tworzyć hipotezy, które następnie musimy sprawdzać klasycznymi metodami biologicznymi. Narzędzia genomiczne i ML służą właśnie do budowy hipotez w sposób maksymalnie szeroki.

Rozumiem, że zespół badawczy, który nad tym pracuje, musi być interdyscyplinarny, nie wystarczą sami data scientiści?

Zdecydowanie tak. Musimy mieć osoby, które są informatykami, matematykami, ale potrzebujemy też biologów molekularnych i komórkowych, specjalistów od sekwencjonowania. Sporym wyzwaniem jest znalezienie dla nich wspólnego języka, który pomoże osiągać zakładane efekty.

Jak określiłby pan cel badań zespołu działającego w ICTER?

Pracujemy nad rozwojem metod, które pozwalałyby na tzw. mierzenie wielu modalności w tej samej komórce. Nie mierzymy tylko RNA, ale także stany chromatyny oraz jej miejsca otwarte, czyli miejsca regulatorowe genów. Chcemy to robić dla bardzo dużej liczby komórek, a jednocześnie tak, aby było to tanie i uniwersalne. Celem jest zastosowanie metod w przyszłości w diagnostyce. Drugą gałęzią naszej działalności jest rozwój algorytmów do analizy danych multimodalnych. Rozwijamy również współpracę z polskimi i zagranicznymi ośrodkami badawczymi, gdzie analizujemy tego typu dane wygenerowane przez inne zespoły.

Z jakich narzędzi data science korzystają państwo na co dzień w trakcie analizy danych pochodzących z komórek?

Używamy rozwiązań open source, zazwyczaj na licencjach MIT. Obecnie jest dostępnych wiele narzędzi bioinformatycznych do analizy danych genomicznych z pojedynczych komórek. Jest to też bardzo szybko rozwijająca się dziedzina, gdzie metody eksperymentalne często wyprzedzają metody obliczeniowe. Dlatego tworzymy własne narzędzia. Nie wszystkie algorytmy jesteśmy w stanie przenieść z innych dyscyplin bezpośrednio na nasz obszar badawczy. Często czerpiemy inspirację z rozwiązań dostępnych w analizie obrazu czy przetwarzaniu języka naturalnego, dlatego właśnie tak ważna jest interdyscyplinarność zespołu. Warto dodać, że wszystkie dane, zgromadzone w Human Cell Atlas czy pochodzące z innych inicjatyw, będą dostępne bezpłatnie dla badaczy, data scientistów i naukowców. To powinno pomóc w przyśpieszeniu rozwoju metod profilowania komórek oraz rozwoju metod obliczeniowych.

Jaką rolę odegra tu analiza pojedynczych komórek?

Moim zdaniem, w przyszłości podobne metody przede wszystkim będą tanie i dostępne dla wielu osób, podobnie jak to miało miejsce z sekwencjonowaniem ludzkiego genomu. Dwadzieścia lat temu koszty sięgały miliardów dolarów, a dziś zostały zredukowane do 400 dolarów. Sekwencjonowanie pojedynczej komórki będzie więc standardową procedurą analizy próbek pobranych podczas biopsji. Mam też pewność, że wspomniana metoda zmieni diagnostykę i przyśpieszy wykrywanie chorób nowotworowych. Pojedyncze przypadki analizy tego rodzaju już były przeprowadzane i pacjenci otrzymywali odpowiednią terapię. Dziś są to sytuacje jednostkowe, natomiast w przyszłości staną się standardem.

Modele analityczne wspierają procesy decyzyjne i mają ogromny wpływ na efektywność biznesową i operacyjną przedsiębiorstw. Mogą one identyfikować nowe możliwości, pomagają nawiązać lepsze relacje z klientami oraz umożliwiają skuteczne zarządzanie ryzykiem i prognozowanie przyszłych wyzwań. Z tych i wielu innych powodów powinny być tworzone i traktowane jako aktywa organizacyjne o wysokiej wartości.

Zależnie od wielkości, firmy wykorzystują setki, a nawet tysiące modeli analitycznych. Aby nad nimi zapanować i móc właściwie ocenić ich przydatność, konieczne jest wybranie odpowiedniej strategii zarządzania. Przyjrzyjmy się platformie SAS Viya , która upraszcza procesy tworzenia i wdrażania modeli oraz zarządzania całym procesem przechodzenia od danych do decyzji.

Analityczny cykl życia (ang. Analytical Life Cycle) jest rodzajem łańcucha wartości z konkretnym modelem data science w centrum. W odróżnieniu od opisywanego przez nas wcześniej w serwisie Data Science robię cyklu zaproponowanego przez Sudeepa Agarwala, analityczny cykl życia według SAS składa się z dwóch głównych etapów, które odpowiadają fazom odkrywania i późniejszego wprowadzenia modelu do procesów biznesowych. Pierwsza część zaczyna się od postawienia pytań kluczowych dla odkrycia innowacji, które mogłyby zwiększyć efektywność przedsiębiorstwa. Zarówno drugą fazę, jak i cały cykl zamyka wyciągnięcie wniosków z zebranych informacji oraz ponowne postawienie tych samych pytań, aby dostosować model do zmieniających się warunków zewnętrznych oraz innych czynników wpływających na skuteczność biznesową. Cały cykl od strony technologicznej wspierają narzędzia dostępne w ramach paltformy SAS Viya. Obydwie fazy składają się w sumie z 7 kroków — przedstawiamy je poniżej.

Analityczny cykl życia modelu — faza odkrywania

Fazę odkrywania rozpoczyna zadanie właściwych pytań i przełożenie ich na reprezentację matematyczną badanego zagadnienia. Konieczne jest także zdefiniowanie uwarunkowań rynkowych oraz zakresu potrzeb i celów biznesowych, dlatego szczególnie na tym etapie potrzeba współpracy z odpowiednimi działami i ekspertami, którzy posiadają głębokie zrozumienie procesów biznesowych. Pozwoli to na łatwiejsze dobranie odpowiednich narzędzi analitycznych, a same modele będą odpowiednio dopasowane do konkretnych potrzeb i realiów.

Przygotowanie danych

Kiedy już ustalimy, jaki proces biznesowy badamy i co należy wziąć pod uwagę, kolejny etap to przygotowanie danych do analiz. Wyzwaniem może być ich różnorodność i duża ilość  źródeł, z których trzeba je pobrać. Aby maksymalnie skrócić ten czas, warto skorzystać z narzędzi, takich jak SAS Data Loader, które jest w stanie uporządkować dane i wydobyć z nich to, co najważniejsze.

Eksploracja danych

Po oczyszczeniu informacji z nieistotnych szumów, analitycy przystępują do właściwego zadania, czyli próby wyłonienia potencjalnych odpowiedzi na pytanie postawione na samym początku. Potrzebują wskazówek, które nie są widoczne na pierwszy rzut oka, a skrywają istotne informacje. W tym wypadku warto skorzystać z dostępnych narzędzi do wizualizacji, co pozwoli etap uczynić bardziej powtarzalnym. Rozwiązaniem pomocnym w tym kroku będzie SAS Visual Analytics, z którego pomocą znacznie szybciej można odnaleźć interesujące korelacje i powiązania pomiędzy różnymi typami danych.

Budowanie modelu

Budowanie modelu jest zwieńczeniem fazy odkrywania. Warto mieć jednak na uwadze, że zazwyczaj nie istnieje jeden uniwersalny algorytm, który będzie się sprawdzał w każdych warunkach. To, który da najbardziej trafne wyniki, zależy od wielu czynników, możliwych do wywnioskowania z danych historycznych. Dane treningowe warunkują, czy modele równie dobrze sprawdzą się na “żywym organizmie” w środowisku produkcyjnym. Poszukiwania najlepszego modelu dla określonych warunków można rozpocząć, kiedy ma się wiedzę na temat najważniejszych charakterystyk związanych z badanymi procesami. Wybór spośród setek, a nawet tysięcy dostępnych rozwiązań ułatwia dostępne oprogramowanie, jak np. SAS Factory Miner, gdzie wyłonienie efektywnych modeli predykcyjnych umożliwiają automatyczne “turnieje” algorytmów.

Analityczny cykl życia modelu — faza wdrażania

Faza wdrażania to ten moment, kiedy teoretyczne modele uczenia maszynowego zaczynają zmieniać procesy biznesowe i wywierają realny wpływ na wyniki sprzedaży i efektywność przedsiębiorstwa.

Implementacja modelu

W etapie implementacji modelu współpraca pomiędzy działami biznesowymi i IT jest kluczowa dla powodzenia całego przedsięwzięcia. Dla łatwiejszego zapanowania nad zmianami zachodzącymi w przedsiębiorstwie warto posłużyć się aplikacjami, jak SAS Decision Manager, za pomocą którego możemy nadzorować zachowanie modeli i wprowadzanie potrzebnych zmian. To rozwiązanie pozwala też zautomatyzować powtarzalne zadania.

Reaguj na zmieniające się informacje

Proces podejmowania decyzji jest złożonym zagadnieniem, przez co zazwyczaj wymaga wielu dyskusji i czasu. Jeśli jest oparty na danych, można go, przynajmniej częściowo, automatyzować za sprawą uczenia maszynowego. Wówczas należy pominąć wiele dyskusji o charakterze czysto organizacyjnym i po prostu wprowadzać kolejne zmiany, które wyłonią się z wyników pracy algorytmów. W ten sposób menadżerowie zamiast zajmować się mikrozarządzaniem i reagowaniem na bieżące problemy, mogą skupić się na kwestii rozwoju przedsiębiorstwa. Niezbędne jest jednak ciągłe doskonalenie algorytmów i dostosowywanie ich do zmieniających się warunków, żeby uwzględniały aktualne informacje zwrotne i trendy.

Wyciągnij wnioski

Najważniejszym etapem analitycznego cyklu życia modelu jest sprawdzenie, w jakim stopniu przewidywania i tezy, które powstały, okazały się słuszne. Wnioski z tego etapu mogą stać się częścią danych wsadowych do tworzenia kolejnych, jeszcze lepszych modeli uczenia maszynowego. Faza wniosków jest niezbędna, ponieważ wraz ze zmieniającymi się warunkami stare modele będą coraz gorzej dopasowane do nowych danych. Aby przeciwdziałać takiemu ryzyku, cały proces trzeba powtarzać, dzięki czemu organizacja będzie mogła sprawnie dopasowywać się do otoczenia, w którym funkcjonuje.

Zadaj ponownie pytania

Oczekiwania klientów odnośnie produktów i usług cały czas zmieniają się. Aby im sprostać, trzeba stawiać na nowo pytania dotyczące poprawy jakości, nowych towarów czy potencjalnych przewag firmy. Ten krok pozwala nieustannie udoskonalać działalność firmy, a jednocześnie pokazuje, że trudno o koniec analitycznego cyklu życia — bo zadanie pytań wymusza przejście wszystkich faz na nowo.

Podejścia do analitycznego cyklu życia

Podejścia proponowane przez SAS czy wspomnianego Sudeepa Agarwala nie są oczywiście jedynymi. Np. analityczny cykl życia złożony z 5 faz przygotował Data Science Process Alliance. Model DSPA obejmuje: zdefiniowanie problemu, przegląd i czyszczenie danych, przygotowanie „wystarczającego” modelu (tj. spełniającego wstępne założenia), wdrażanie i udoskonalanie, a także utrzymanie wprowadzonych rozwiązań. Z kolei Madison Hunter z Towardsdatascience.com jako ostatni etap cyklu proponuje budowanie i wdrożenie modeli. Wspólnym mianownikiem dla wszystkich podejść jest docenienie istotności prowadzenia przemyślanych procesów przetwarzania danych. Od tego, jak przedsiębiorstwo prowadzi swoją analitykę, zależy, czy odpowiedzi, wnioski i decyzje na nich oparte będą dobrze służyły celom biznesowym.

Odpowiadamy za bezpieczeństwo sieci resortu obrony narodowej, w której mamy powyżej 100 tysięcy hostów, w kolejnej sieci 80 tysięcy hostów. Są grupy, które próbują oddziaływać na nasze systemy, są one sponsorowane przez służby specjalne z niekoniecznie przyjaznych nam krajów. W wielu przypadkach, kiedy monitorujemy nasze sieci, tak naprawdę szukamy igły w stogu igieł. Analityka danych jest niezbędna do wyszukiwania anomalii, ale też, aby budować sobie obraz sytuacji. Żeby poznawać techniki, taktyki i procedury, jakimi operują nasi adwersarze wyjaśnia generał Karol Molenda, dowódca Komponentu Wojsk Obrony Cyberprzestrzeni.

Karol Molenda jest generałem brygady. W 2019 roku został Pełnomocnikiem Ministra Obrony ds. utworzenia Wojsk Obrony Cyberprzestrzeni. DKWOC pełną zdolność bojową ma osiągnąć do końca 2024 roku. Wcześniej Karol Molenda przez 12 lat pracował w Służbie Kontrwywiadu Wojskowego. Za osiągnięcia w zakresie cyberkontrwywiadu otrzymał od Departamentu Obrony USA The Army Commendation Medal. Generał jest absolwentem Wojskowej Akademii Technicznej (kierunki: elektronika oraz cyberbezpieczeństwo), a także Wyższej Szkoły Menadżerskiej.

Ilu analityków danych pracuje w Komponencie Wojsk Obrony Cyberprzestrzeni?

Liczby nie są tutaj najbardziej istotne, bo w przeciwieństwie do wojsk konwencjonalnych, nie chodzi tylko o liczbę, ale o jakość naszych inżynierów. Nie informujemy szczegółowo, m.in. dlatego, żeby nie skupiać uwagi na tym aspekcie, bo od razu pojawi się pytanie, jaka w takim razie liczba jest dobra. A ona oczywiście będzie uzależniona od zadań. My natomiast skupiamy się na kompetencjach, które potwierdzają budowane od niedawna zdolności. Weryfikują je wyniki osiągane w ramach ćwiczeń natowskich, np. takich, jak skomplikowane ćwiczenia Locked Shields, gdzie zajęliśmy 2 miejsce, a w gruncie rzeczy 1 w NATO, bo wygrała Finlandia. Ostatnio w Cyberdefence Index, opracowywanym przez think tank współpracujący z Massachusetts Institute of Technology, Polska znalazła się na 6 miejscu wśród 20 największych gospodarek świata – docenione zostały nasze wysiłki właśnie w zakresie budowania cyberobrony.

Czym dokładnie zajmują się cyberwojska? To po prostu obrona przed atakami internetowymi?

Jesteśmy odpowiedzialni nie tylko za działania w cyberprzestrzeni, nasze obowiązki są podzielone na 3 domeny. Mówimy tutaj o informatyce, o cyberbezpieczeństwie i kryptologii. Jeżeli chodzi o informatykę, organizujemy wszystkie systemy teleinformatyczne funkcjonujące we wszystkich rodzajach sił zbrojnych. To coś, co nie jest często spotykane, gdyż na przykład nasi partnerzy zagraniczni, choćby Stany Zjednoczone, w każdym rodzaju sił zbrojnych mają swojego organizatora. Co ma plusy i minusy. W zakresie kryptologicznym, co też nie często spotykane, odpowiadamy za wszelkie aspekty badań i rozwoju, związane z kryptografią. Budujemy własne algorytmy kryptograficzne, szyfratory do wszystkich klauzul, odpowiadamy za dokumenty kryptograficzne. Rozwijamy własne kompetencje w zakresie szyfrowania. A pod kątem cyberbezpieczeństwa mamy w strukturach CSIRT MON (ang. Computer Security Incident Response Team Ministerstwa Obrony Narodowej – red.). Zespół na poziomie krajowym jest odpowiedzialny za koordynowanie obsługi incydentów komputerowych w naszych sieciach. Mamy też jednostki do działań w cyberprzestrzeni, które budują swoje kompetencje, a niektóre już są w pewnym zakresie zdolne do prowadzenia działań w pełnym spektrum, a mianowicie zgodnie z taksonomią NATO.

Jaką rolę analitykę danych spełnia w tych działaniach?

Proszę sobie wyobrazić teraz, że odpowiadamy za bezpieczeństwo sieci resortu obrony narodowej, w której mamy powyżej 100 tysięcy hostów, w kolejnej sieci mamy 80 tysięcy hostów. Są grupy, które próbują oddziaływać na nasze systemy, są sponsorowane przez służby specjalne z niekoniecznie przyjaznych nam krajów. W wielu przypadkach tak naprawdę szukamy igły w stogu igieł. Analityka danych jest niezbędna chociażby do wyszukiwania anomalii, ale też, aby budować sobie obraz. Żeby poznawać techniki, taktyki i procedury, jakimi operują nasi adwersarze. Żeby z jednej strony móc im przeciwdziałać, ale z drugiej strony, by te nasze działania pozwoliły wymieniać się informacjami, które zdobywamy, z partnerami – zarówno w kraju, z innymi ośrodkami CSiRT, jak i z zagranicznymi partnerami. Żeby ograniczać oddziaływanie naszych adwersarzy, ważna jest tak zwana zdefiniowana koncepcja piramidy bólu, jeżeli chodzi o cyberbezpieczeństwo. Chodzi w niej o to, że im więcej infrastruktury przeciwnika zostanie odkryte, ujawnione, w tym większym zakresie musi on ponosić koszty, musi odbudowywać swoją infrastrukturę, musi zmieniać taktyki, by dalej móc oddziaływać na sieci. Stąd istotna rola analityki, czyli przetwarzania informacji pod kątem zapewnienia odpowiedniego bezpieczeństwa naszym systemom.

A może pan generał powiedzieć, jakie narzędzia, jakie techniki są przez cyberwojsko wykorzystywane do działań analitycznych?

Nie mówimy o tym publicznie, bo, wiadomo, każdy nasz przeciwnik analizuje wszystkie pojawiające się na ten temat  informacje. Zresztą my sami też tak robimy, ucząc się potencjalnego przeciwnika — analizujemy wszystko, co jest możliwe, by poznać jego kompetencje. Zatem nie upubliczniamy informacji o narzędziach, które stosujemy. Natomiast mogę górnolotnie powiedzieć, korzystając z przywileju, który mamy, czyli że jesteśmy strukturą wojskową, że nasz budżet pozwala mieć w portfolio wszelkie narzędzia dostępne komercyjne, które są definiowane, jako najnowocześniejsze. Są to technologie “state of the art”, czyli dysponujemy najbardziej zaawansowanymi rozwiązaniami na świecie, które są zaimplementowane w naszej infrastrukturze. Dodatkowo, nasze zespoły programistyczne opracowują własne narzędzia i skrypty, aby tę analitykę wzbogacić o nowe dane. Niemniej, nie ma co ukrywać, że jednym z najważniejszych aspektów jest ten ludzki, stąd inwestycja w analityków ma zakres niespotykany w innych miejscach. Naprawdę można zazdrościć zespołom, które u nas funkcjonują. Inwestujemy w wiedzę, bo to równocześnie inwestycja w struktury, czyli nie traktujemy tego jak zwykły wydatek. Nasi specjaliści uczestniczą w szkoleniach międzynarodowych, w szczególności w treningach prowadzonych przez partnerów zagranicznych, którzy mają ogromne doświadczenie w analizie danych i jej metodach — mam na myśli takie kraje, jak Stany Zjednoczone czy Izrael.

W jaki sposób analityka zagrożeń, wpływa w cyberwojskowości na podejmowanie decyzji?

To, o co pan pyta, ma związek z konsolidacją, jaką przeprowadziliśmy. Ona wynikała z biznesowego typu podejścia do zagrożeń. W przeszłości funkcjonowało w ramach struktur wojskowych kilka jednostek, które odpowiadały za informatykę, transformację cyfrową, cyberbezpieczeństwo itd. Mieliśmy dla przykładu Inspektorat Informatyki, odpowiedzialny za budowanie systemów sieci informatycznych i Narodowe Centrum Kryptologii, które odpowiadało za cyberbezpieczeństwo. I jak to w życiu często bywa, problematyczne okazywało się pogodzenie tych dwóch wartości, czyli bezpieczeństwa i funkcjonalności. Jak jest się kierownikiem jednostki, która odpowiada typowo za bezpieczeństwo, to wiadomo, że ma się punkt widzenia okrojony do bezpieczeństwa. A dla kogoś, kto jest kierownikiem jednostki, zapewniającej funkcjonowanie systemów, najistotniejszy będzie przepływ danych. Stąd może wynikać konflikt czy współzawodnictwo albo rozbieżność interesów w zakresie bezpieczeństwa i funkcjonalności. Decyzja o konsolidacji zasobów była po to, żeby odpowiedzialność spoczywała na jednej osobie, zarówno w zakresie zapewnienia funkcjonowania systemów, czyli właśnie “biznesu”, jaki i w zakresie bezpieczeństwa. Obecnie analiza ryzyka i definiowanie ryzyk, określanie poziomu ryzyk szczątkowych, zakresu ryzyka akceptowalnego jest na naszych, moich i mojego zespołu, barkach. Wszelkie informacje są niesamowicie istotne i wpływają na nasze inwestycje oraz w pewien sposób na podejmowane decyzje. Co nie zmienia faktu, że najbardziej bezpiecznym systemem jest ten, który nie funkcjonuje, jest wyłączony z zasilania. Natomiast nasza odpowiedzialność polega na tym, żeby dostarczyć możliwie najbardziej bezpieczne rozwiązanie w oparciu o analizę ryzyka. Ten proces przeprowadzamy w oparciu o dane, którymi dysponujemy, tak, by rozwiązanie pozwalało bezpiecznie komunikować się naszym żołnierzom, wymieniać efektywnie dane, a z drugiej strony, by te rozwiązania były na tyle odporne na oddziaływanie nieprzyjaciela, na ile jest to tylko możliwe. Dzięki analitykom szacowanie ryzyka jest pełniejsze i widzimy więcej.

Jakie dostrzega pan ryzyka związane z podejmowaniem decyzji na podstawie danych?

To przede wszystkim kwestia wiarygodności danych. Można sobie wyobrazić, że ktoś próbuje zmieniać je, modyfikować czy manipulować nimi. Zresztą tak dokładnie dzieje się w operacjach w cyberprzestrzeni. Są np. podejmowane tzw. działania pod obcą flagą, czy mające na celu zmylenie przeciwnika, czy zmylenie odbiorcy co do intencji. I można sobie wyobrazić taką sytuację, że dane są niepełne lub nie odzwierciedlają rzeczywistości. Czyli mamy do czynienia z false positivami, które mogą przyczynić się do podjęcia takiej, a nie innej decyzji. Zatem na pewno skłaniałbym się do tego, aby, bazując przy podejmowaniu decyzji na analityce, przede wszystkim określić, jak wiarygodne są dane, którymi dysponujemy. Dość istotne jest to przy prowadzeniu procesu tzw. atrybucji. Zazwyczaj po próbie ataku, czyli incydencie, jest pytanie, które zadają nasi przełożeni: “kto za tym stoi?” Atrybucja jest bardzo skomplikowana w przypadku braku dostępu do wiarygodnych danych lub gdy ktoś próbuje wykorzystać dane ogólnodostępne i na przykład podszywać się, czyli prowadzić wspomnianą operację “pod obcą flagą”.

A na ile jest możliwe stwierdzenie z dużą dozą pewności, kto stał za konkretnym cyberatakiem?

W moim przekonaniu jest to możliwe, aczkolwiek cyberbezpieczeństwo to gra zespołowa. Często mówimy, że w naszej strukturze nie ma miejsca dla “samotnych wilków”, ale zespołowość dotyczy też szerszego kręgu, czyli na przykład naszych partnerów, w tym zagranicznych firm lub vendorów rozwiązań. I tak naprawdę łatwiej jest zamknąć atrybucję, czyli wskazać konkretną grupę, choć może ona być opatrzona dość dużym błędem, gdy zespoły odpowiadające za analitykę dokonają jej w szerszym zakresie, czyli wymienią informacje z partnerami, przeanalizują wiele kryzysów i skonsultują się również z dostawcami usług, z których korzystamy.

W jaki sposób dane o wykrytych incydentach są przetwarzane na przyszłość, jak są potem wykorzystywane?

Tu też staramy się naszą kuchnię i przepisy na nasze ciasta trzymać w naszej książce. Mogę powiedzieć tyle, że głównym celem teraz jest zapewnienie takiej analityki, która pozwoli na identyfikowanie taktyk, technik i procedur, którymi operują nasi obecni lub potencjalni adwersarze lub grupy APT (ang. Advanced Persistent Threat – red.), które działają pod egidą służb specjalnych różnych krajów. Uczymy się ich sposobu działania, funkcjonowania, zachowań — na tyle, by móc implementować mechanizmy zaradcze w systemach i sieciach, ale też informować o nich partnerów, bo, tak jak mówiłem, cyberbezpieczeństwo jest grą zespołową.

Ta gra zespołowa podobno koncentruje się teraz zwłaszcza w jednym regionie Polski. Niedawno podczas konferencji na temat wykorzystywania analityki w sektorze publicznym, organizowanej przez firmę SAS, Krzysztof Malesa z Microsoftu mówił, że centrum incydentów cyberbezpieczeństwa stanowi obecnie Podkarpacie. Może pan generał potwierdzić?

Odpowiem tak – jesteśmy krajem, który bardzo aktywnie wspiera Ukrainę, przyjmujemy uchodźców. Dziwnym by było, gdyby grupy APT, działające pod egidą rosyjskich służb specjalnych, nie skupiały się na próbie interakcji z systemami, które mają związek z tym wsparciem. Od razu zakładaliśmy, właśnie bazując na analizie ryzyka, że ono będzie dość duże. Aktywność grup hakerskich, nie ma co ukrywać, skupia się na siłach zbrojnych państw, które wspierają Ukrainę. Mamy do czynienia z ogromem różnych działań — z infoopsem (ang. information operations – red.) prowadzonym w portalach społecznościowych, z kampaniami, które mają na celu uzyskanie efektu podziałów w społeczeństwie, z kreowaniem Ukraińców, jako tych, którzy “zabiorą pracę Polakom”, czy z przypominaniem naszej trudnej historii związanej z Wołyniem. Wszystkie wrogie aktywności w cyberprzestrzeni służą osiąganiu przez Federację Rosyjską zaplanowanych celów. Na naszym terenie dotyczy to przeszkadzania w udzielaniu pomocy Ukrainie.

Sprawdziliśmy, czego oczekują przedsiębiorcy w Polsce od kandydatów na stanowisko inżyniera machine learningu. Wśród języków programowania dominuje Python. Równie istotny jest język zapytań SQL. I choć specjaliści od algorytmów muszą być przede wszystkim biegli w technologiach, pracodawcy mają nadzieję, że przyszli pracownicy wykażą się też licznymi umiejętnościami miękkimi.

Głównym zadaniem inżyniera machine learningu jest tworzenie i udoskonalanie modeli uczenia maszynowego. Jest to proces iteracyjny, który z jednej strony wymaga oprogramowywania teoretycznego modelu, a z drugiej dostarczania do niego strumienia danych, będących podstawą dla systemu – to z ich pomocą będzie się uczył. Z tego powodu inżynier ML powinien mieć zarówno umiejętności analityczne dotyczące modelowania statystycznego, jak i biegle posługiwać się różnymi językami programowania oraz narzędziami ML. W pracy przyda mu się również wiedza dziedzinowa z zakresu tematyki realizowanych projektów, ponieważ ułatwi wychwytywanie ewentualnych nieprawidłowości w działaniu modelu.

Jakie języki programowania powinien znać inżynier uczenia maszynowego?

W większości ofert pracy dla inżynierów machine learningu pojawia się konieczność biegłej znajomości Pythona i bibliotek programistycznych, takich jak TensorFlow, PyTorch, Pandas, czy NumPy. Dodatkową zaletą kandydatów na to stanowisko jest doświadczenie w budowaniu i zarządzaniu pakietami w Pythonie. Ze znalezieniem pracy na stanowisku ML Engineer nie powinni mieć problemu również programiści Javy i Scali, a dobrym uzupełnieniem powyższych będzie znajomość języka R, który jest powszechnie używany w analizie danych.

Podstawą SQL

Najważniejszym językiem w analizie danych bez wątpienia jest SQL, bo praca z bazami
danych jest pierwszym krokiem do stworzenia modelu. Wykorzystanie tego popularnego
języka zapytań w naturalny sposób łączy się z innymi językami programowania. Niezależnie
zatem, czy algorytmy uczenia maszynowego będą powstawały w Javie, Pythonie, czy Scali,
znajomość SQL będzie nieodzowna, aby taki model w ogóle uruchomić, a potem go “karmić”
nowymi danymi i obserwować jak ewoluuje. Stąd w większości ogłoszeń pracodawcy
poszukujący inżynierów uczenia maszynowego jako warunek konieczny wymieniają biegłą
znajomość SQL i umiejętność wychwytywania błędów w zapytaniach.

Standard REST API i chmura

Wśród narzędzi, które warto poznać, decydując się na pracę jako inżynier ML, nie brakuje standardu REST API, którego zrozumienie pomoże w bezproblemowym kontrolowaniu przepływu danych pomiędzy różnymi systemami. Jest to kluczowe dla konstruowania bardziej precyzyjnych modeli odpowiadających rzeczywistym procesom. Z tego samego powodu dodatkowym atutem będzie znajomość systemów bazodanowych i technologii chmurowych (najczęściej pracodawcy wyszczególniają w tej kategorii rozwiązania Amazonu i Microsoftu).

Wykształcenie i kursy

Programiści sztucznej inteligencji i uczenia maszynowego nie powinni narzekać na liczbę i atrakcyjność ofert na rynku pracy, ponieważ ciągle jest to rozwijająca się dziedzina i często trudno o znalezienie odpowiednich ekspertów. Jednocześnie przedsiębiorcy oczekują od kandydatów odpowiednich kompetencji, które mogą być poświadczone np. dyplomem uczelni wyższej z takich kierunków, jak informatyka z odpowiednią specjalizacją (machine learning i/lub artifficial inteligence, programowanie etc.). Często jednak posiadanie tytułu naukowego nie jest konieczne. Wtedy jednak warto udokumentować wiedzę w inny sposób, np. odnosząc się do doświadczenia z pracy nad wcześniejszymi projektami z zakresu AI/ML, lub przedstawiając certyfikaty ukończonych kursów, które poświadczają znajomość konkretnej technologii.

Umiejętności miękkie

Pomimo że machine learning engineer jest zawodem stricte technicznym, to pracodawcy w ofertach często zaznaczają, że biorą pod uwagę także umiejętności miękkie kandydatów. Istotne są takie cechy jak umiejętność pracy zespołowej (szczególnie w metodyce Scrum), dobra organizacja pracy, samodzielność, a także chęć ciągłego podnoszenia kwalifikacji i otwartość na nowe technologie oraz narzędzia. Choć inżynierowie uczenia maszynowego większość czasu poświęcają programowaniu i modelowaniu algorytmów, niektóre firmy oczekują wysokiego poziomu zdolności komunikacyjnych.

Język angielski – jaki poziom jest wymagany dla Machine Learning Engineer?

Coraz więcej jest dostępnej literatury na temat data science i machine learningu w języku polskim, jednak aby zajmować się sztuczną inteligencją i big data, nieodzowna jest znajomość angielskiego, w którym powstaje najwięcej aktualnych materiałów na temat machine learningu oraz data science. Język Szekspira przyda się też w komunikacji ze współpracownikami, zwłaszcza jeśli firma, do której aplikujemy, działa także poza Polską, albo planuje rozszerzyć działalność na inne kraje. Pracodawcy zazwyczaj oczekują od kandydatów na stanowisko inżyniera ML znajomości angielskiego na poziomie co najmniej średniozaawansowanym (B2/C1).

Inżynier machine learningu czy Data Scientist?

Kompetencje specjalistów uczenia maszynowego częściowo pokrywają się z wymogami, jakie pracodawcy stawiają osobom zatrudnianym na stanowisku data scientisty. W obu wypadkach konieczna jest znajomość języków programowania i bibliotek programistycznych do uczenia maszynowego, a także dobra znajomość statystyki matematycznej i rachunku prawdopodobieństwa. Ostatnie z wymienionych dziedzin przydadzą się szczególnie w analizie zachowania algorytmów machine learningu i budowania coraz lepszych modeli predykcyjnych. O ile jednak data scientist zajmuje się głównie tworzeniem teoretycznych modeli na podstawie istniejących danych, to już do zadań inżyniera ML będzie należało nadzorowanie przepływu danych i działania algorytmów w środowisku produkcyjnym, a także testowanie teoretycznych modeli na zmieniających się zbiorach.

Zarobki

Zarobki na omawianym stanowisku wahają się w zależności od organizacji, formy współpracy (najczęściej przedsiębiorcy oferują B2B lub umowę o pracę), a także doświadczenia kandydata. Może to być od 12 tys. do nawet 60 tys. złotych netto miesięcznie. Przeszukując oferty pracy, warto też zwrócić uwagę, czy przyszły pracodawca oferuje wsparcie przy uzyskaniu ulgi IP Box, co może znacząco podnieść wypłatę, jaką ostatecznie dostaniemy na rękę.

— Jestem wielkim fanem stwierdzenia, że dane są paliwem rozwoju miast XXI wieku. Tych danych tworzy się coraz więcej. Przeciętny samorząd, na którego terenie żyje do 50 tysięcy mieszkańców, gromadzi już 100 różnych zestawów danych. A im większe miasto, tym oczywiście gromadzonych informacji jest więcej. I to liczby, które stale rosną — przekonuje Wojciech Łachowski z Instytutu Rozwoju Miast i Regionów.

Wojciech Łachowski specjalizuje się w problematyce smart city, zarządzania danymi i zazieleniania miast. W Instytucie Rozwoju Miast i Regionów pracuje jako kierownik projektów w Obserwatorium Polityki Miejskiej. Prowadzi również w IRMiR zespół, który doradza w efektywnym wykorzystaniu danych miejskich. Jest ekspertem w zakresie systemów informacji geograficznej (GIS).

Jakie rozwiązania smart city, pana zdaniem, będą kluczowe dla polskich miast?

Samorządy w związku z kryzysem pandemicznym i energetycznym wszędzie szukają dziś oszczędności. Inwestycje w innowacje często są przesuwane na dalszy plan. Moim zdaniem, rozwiązania smart city w najbliższym okresie będą skupione na zwiększeniu efektywności energetycznej i generowaniu oszczędności w samorządach. Będą to systemy do zarządzania energią cieplną, urządzeniami IoT i oszczędnością prądu, kierujące oświetleniem ulicznym czy zwiększające efektywność energetyczną budynków. Z drugiej strony wdrażane będą roboty wykrywające nieprawidłowości w fakturowaniu i rozliczeniach finansowych. Wszędzie tam, gdzie będzie można zyskać realne oszczędności, technologie smart city mogą okazać się pomocne.

Być może część takich inwestycji będzie zagrożona w związku z kryzysem finansowym?

Znaczna część samorządów, które mają lokalnych liderów zmiany i prowadzą aktywną politykę związaną z pozyskiwaniem zewnętrznego finansowania, dysponuje pieniędzmi na ten cel. I bez względu na sytuację na rynku, te projekty będą realizowane. W największych miastach inżynieria finansowa jest bardziej elastyczna, można szukać oszczędności w wielu miejscach. W małych miastach sytuacja jest trudniejsza, dlatego rzeczywiście przynajmniej w najbliższym roku wiele podmiotów samorządowych może zawiesić swoje wdrożenia smart city. Jednak samorządy powinny wykorzystać kryzysowy czas na odpowiednie przygotowanie się do wdrożeń. Żeby móc mówić o skutecznej analizie danych, potrzebny jest przecież najpierw audyt zasobów. Nie wspominając już o cyfrowych kompetencjach pracowników urzędów.

Do czego w ramach tego przygotowania będą potrzebni eksperci?

Przed wdrożeniem każdego systemu informatycznego samorząd powinien zdefiniować procedury działające w urzędzie, następnie określić, jakie rozwiązania w systemie mają za nie odpowiadać i je usprawniać. Zachęcam jednak samorządowców do tego, żeby nie bać się zatrudnić eksperta, który pomoże odpowiednio przygotować dokumentację, ocenić realne zapotrzebowanie na pewne usługi i narzędzia. Specjalista wskaże też, gdzie szukać gotowych rozwiązań na rynku, często darmowych. Dzięki ekspertowi można realnie zmniejszyć koszty późniejszego wdrożenia.

Dziś urząd to setki tysięcy danych, które mogą być zbawienne dla pracy samorządu, ale też stać się problemem.

Jestem wielkim fanem stwierdzenia, że dane są paliwem rozwoju miast XXI wieku. Tych danych tworzy się coraz więcej. Przeciętny samorząd, na którego terenie żyje do 50 tysięcy mieszkańców, gromadzi już 100 różnych zestawów danych, a im większe miasto, tym oczywiście gromadzonych informacji jest więcej. I to liczby, które stale rosną.

Czyli w urzędach pojawią się etatowi specjaliści od analizy danych?

Uważam, że w przyszłości rola data scientistów będzie kluczowa, aby móc zarządzać miastem w nowoczesny sposób. Podstawowy problem to nie tyle kwestia zatrudnienia analityków, ile w ogóle ekspertów z dziedziny szeroko pojętego IT. Wymagania rynkowe co do wynagrodzeń specjalistów zupełnie rozmijają się z możliwościami samorządów. Nie chodzi o sam brak pieniędzy. Wymagania ustawowe nie pozwalają na tak wysokie wynagrodzenia, jakie otrzymują specjaliści w tej dziedzinie. Obecnie jest to możliwe ewentualne w postaci zakupu zewnętrznej usługi związanej z analizą danych.

Widełki finansowe to jedyny problem?

Należy pamiętać jeszcze o kwestii poziomu zaawansowania, na którym są polskie samorządy w zakresie zarządzania danymi i ich analizy. Musimy zacząć od podstaw. Dane muszą być gromadzone w stały, jednolity sposób. Musimy dbać o ich jakość, aby były odpowiednio uporządkowane. Cóż może zrobić data scientist w przypadku, kiedy dostanie dane, w których będzie brakowało połowy rekordów, a inne będą zdublowane? Pracy z wyczyszczeniem tych danych jest tyle, że w wielu samorządach nie potrzeba jeszcze data scientistów, ale praktykanta do ciężkiej, ręcznej pracy w celu naprawienia zbiorów.

Kluczowa więc jest jakość danych, a co z formą ich gromadzenia?

W małych i średnich miastach najbardziej powszechnym sposobem zbierania danych jest arkusz kalkulacyjny Excel, który nie jest w żaden sposób ustrukturyzowany. Zatem mamy sytuację typu garbage in, garbage out. Kiedy analityk otrzyma te dane, nawet jeśli narzędzia analityczne będą prawidłowe, to wyniki już nie. Zanim przejdziemy do etapu zaawansowanej analizy, musimy najpierw uporządkować informacje. Uważam też, że samorządy powinny zacząć od bardzo małych rzeczy. Od rozwiązywania konkretnych problemów, podejmowania niewielkich decyzji z wykorzystaniem bardzo prostej analityki. Można to wykonać własnymi siłami, wystarczy tylko odpowiednie zaangażowanie i realna moc sprawcza liderów zmiany na miejscu. Jeśli są w urzędzie osoby, które mają chęć pracowania z danymi, to nie podcinajmy im skrzydeł. Pozwólmy im realizować nieduże wdrożenia małymi krokami. Niestety największym problemem samorządów w zakresie zarządzania danymi, a szerzej mówiąc transformacji cyfrowej, jest brak chęci zmian. Szczególnie jeśli chodzi o kadrę urzędniczą, która pracuje w instytucji najdłużej.

A jak ocenia pan jakość analizy danych w polskich gminach i miastach? Mamy liderów?

W Polsce nie wskażemy w tej chwili żadnego samorządu, który by całościowo, w sposób kompleksowy podszedł do zarządzania danymi. Mówię tu o zachowaniu interoperacyjności wszystkich systemów informatycznych, odpowiednich procedur czy prowadzenia szkoleń pracowników. Natomiast wiele prób jest podejmowanych. Moim zdaniem w Warszawie mamy najlepszy w Polsce portal e-usług, czyli komunikację mieszkańców z urzędem. Tylko dodajmy, że w warszawskim samorządzie funkcjonuje nie 100 zestawów danych, ale aż 100 systemów informatycznych. Nie wszystkie wymagają oczywiście integracji, ale to pokazuje, że nadal jest wiele do nadrobienia. Od strony monitorowania miasta, w tym procesów społecznych, ekonomicznych, gospodarczych możemy wyróżnić Kielce. Dobrze zaplanowano tam prace, zadania, profil danych i standard, w jakim dane będą zbierane oraz aktualizowane przez pracowników. Co ważne, Kielce dzielą się swoją wiedzą z innymi samorządami. Docenić też należy mniejsze miasta, jak Tomaszów Mazowiecki i Włocławek. Miasta przeprowadziły inwentaryzację danych i zaczęły wdrażać procedury, które ułatwią w przyszłości analizę danych.

W jakim miejscu jesteśmy na tle Europy pod względem analizy danych?

Nie wypadamy źle, jeśli chodzi o transformację cyfrową. W zakresie otwartości danych Polska jest w pierwszej dziesiątce. Także dostęp do realizacji usług przez internet funkcjonuje u nas bardzo dobrze. Oczywiście nie możemy się równać np. z Estonią, ale nie jesteśmy w tyle. Natomiast jeżeli mówimy już o poziomie zarządzania i analizy danych, tu jest trochę gorzej. Potencjał jednak mamy bardzo duży. Powinniśmy patrzeć w kierunku takich krajów jak Wielka Brytania czy Holandia, gdzie w miastach istnieją nawet odrębne biura czy wydziały do spraw analizy danych. Ponadto w Polsce brakuje wymiany doświadczeń i wykorzystywanych narzędzi do analizy danych. Jeśli już jakiś samorząd wprowadzi skuteczne rozwiązanie informatyczne, nie chwali się tym na zewnątrz. Powodem jest czasem fakt, że miasta po prostu ze sobą konkurują. Trudno sobie wyobrazić, że pracownik jednego miasta dzwoni do drugiego, aby podzielić się tym czy innym wdrożeniem. A w Holandii, Wielkiej Brytanii czy nawet Hiszpanii to norma.

Gdyby zwrócił się do pana przedstawiciel któregoś miasta z prośbą o wskazanie odpowiednich narzędzi do analizy danych, co by mu pan doradził?

Przede wszystkim musiałbym ustalić kilka kwestii. Czy działania w ramach budowy kompetencji cyfrowych i edukacji zostały w mieście wykonane? Czy dane gromadzone przez miasto muszą zostać uporządkowane? Chciałbym też poznać problemy, z jakimi na co dzień boryka się miasto, także jeśli chodzi o gromadzenie zasobów informacyjnych. Jaka jest jakość danych, w jakich formatach są zbierane? Mając za sobą te ustalenia, zaproponowałbym narzędzia, które niemal automatycznie będą wspierały mieszkańców, czyli e-usługi. Niestety w Polsce jest tak, że jeśli już miasto ma jakieś e-usługi, są one dostarczane przez szczebel centralny. Oznacza to, że nie można całościowo załatwić sprawy przez internet – składamy wniosek online, ale potem pojawiamy się w urzędzie, aby odebrać dokument. Cyfrowe usługi nie mogą tak działać, a odpowiednia analiza danych mogłaby to zmienić. Pracowałbym też nad narzędziami, które przełamują silosową strukturę urzędu. O ile pewne wydziały dobrze sobie radzą z optymalizacją pracy, o tyle brakuje wartości dodanej z integracji danych. Nadal urzędnicy nie podejmują decyzji na podstawie wielu źródeł. Brakuje narzędzi, które umożliwiłyby wizualizację i analizę danych pochodzących z różnych wydziałów i systemów informatycznych.

Jakie są ryzyka związane z wprowadzaniem tego rodzaju technologii w polskich samorządach?

Przede wszystkim – brak podejścia strategicznego do wdrażania systemów informatycznych i analizy danych. Nasze badaniawskazują, że 60 proc. miast w Polsce, w tym 80 proc. małych, nie przyjęło do tej pory żadnego strategicznego dokumentu dotyczącego cyfryzacji. Nie wiemy, jakie systemy posiadamy, gdzie są luki. To niezwykle ważna kwestia.

Dlaczego to tak istotne?

Każdy z nas chce, żeby podejmowane decyzje opierały się na dowodach i informacjach. Tego właśnie brakuje w polskich samorządach, szczególnie na szczeblu zarządczym. Zdecydowanie częściej podejmujemy decyzje, które wynikają z intuicji, przekonań, oczekiwanego wpływu na opinię publiczną. To wszystko trzeba też uwzględniać, ale dowód wynikający z przeprowadzonej analizy byłby o wiele lepszym motywatorem. Jeśli chcemy, żeby nasze miasto podejmowało sensowniejsze decyzje, musimy je opierać o wnioski, które wynikają bezpośrednio z analizy danych. Dzięki temu władze miasta będą w stanie umotywować choćby najbardziej kontrowersyjną decyzję. A gdy jeszcze uwzględnimy aspekt kosztów, taka ścieżka okaże się znacznie bardziej efektywna. Widzę tu same korzyści, jednak trzeba zacząć od uporządkowania danych i budowania powszechnej świadomości, jak wiele może przynieść analiza danych i podejście data driven do zarządzania miastem.

Udostępnij link

https://www.datasciencerobie.pl/dane-jako-paliwo-dla-rozwoju-nowoczesnych-miast/