Z surowych danych potrafi wydobyć istotne wnioski i cenne dla organizacji informacje. Przekształca je w wiedzę, po czym wspólnie z menedżerami szuka sposobów na optymalizację strategii biznesowych. Mowa o analityku danych, który wciąż jest na szczycie pożądanych przez rynek specjalistów. Jeśli myślisz o karierze analityka lub chcesz się przebranżowić, sprawdź wybrane studia “Analiza Danych” i “Analityka” na polskich uczelniach.

STUDIA ANALIZA DANYCH I STOPNIA

Inżynieria i analiza danych – Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie

W trakcie tych studiów można zdobyć wiedzę z zakresu pozyskiwania, przesyłania, składowania i analizowania danych. Studenci poznają również metody przetwarzania, analizy i interpretacji danych pomiarowych z wykorzystaniem metod sztucznej inteligencji czy metod głębokiego uczenia maszynowego. Dodatkowo absolwenci potrafią wykorzystywać kompetencje miękkie do podejmowania decyzji biznesowych, praktycznego rozwiązywania problemów decyzyjnych oraz zarządzania projektami. Kierunek jest prowadzony przez Wydział Geologii, Geofizyki i Ochrony Środowiska.

Poziom: I stopnia.
Tryb studiów: stacjonarny.
Czas trwania: 3,5 roku (7 semestrów).
Więcej informacji na stronie.

Analiza danych – Uniwersytet Łódzki

Studia „Analiza danych” na Uniwersytecie Łódzkim jest oferowany na Wydziale Matematyki i Informatyki. Uczelnia kieruje go do tych studentów, którzy są zainteresowani wykorzystaniem wiedzy teoretycznej z zakresu matematyki i informatyki oraz narzędzi statystycznych i informatycznych w pracy zawodowej związanej z przetwarzaniem i analizą danych. Oprócz umiejętności łączenia danych z różnych źródeł, oceniania ich jakości czy tworzenia modeli absolwent będzie miał wiedzę z zakresu programowania (m.in. C, Python, Java, R, VBA) oraz podstawowych struktur danych i algorytmów uczenia maszynowego. Szczególny nacisk zostanie położony na przygotowanie do pracy w zespole oraz rozwijanie umiejętności prezentacji i wizualizacji wyników przygotowanych analiz i raportów.

Poziom: I stopnia.
Tryb studiów: niestacjonarny.
Czas trwania: 3 lata (6 semestrów).
Więcej informacji na stronie.

Matematyka i analiza danych – Politechnika Warszawska

Program kierunku na Wydziale Matematyki i Nauk Informacyjnych zapewnia zdobycie gruntownego wykształcenia matematycznego ze szczególnym uwzględnieniem statystyki matematycznej i analizy danych. To propozycja dla kandydatów, którzy chcą w przyszłości efektywnie wykorzystywać wszechstronną wiedzę matematyczną oraz współczesne metody uczenia maszynowego do analizy dużych zbiorów danych, tworzyć oryginalne narzędzia analizy danych, a także programować w różnych językach oraz stosować pakiety matematyczne i statystyczne w zadaniach analizy danych, modelowania i prognozy.

Poziom: I stopnia.
Tryb studiów: stacjonarny.
Czas trwania: 3 lata (6 semestrów).
Więcej informacji na stronie.

Inżynieria i analiza danych – Politechnika Lubelska

To 7-semestralne studia inżynierskie łączące wiedzę z zakresu informatyki i matematyki. Mają one na celu wykształcić pożądanych przez pracodawców specjalistów z zakresu analizy danych. Studenci zgłębią m.in. tajniki statystyki, popularnych języków programowania (C++, R i SQL) oraz wspomagania procesów decyzyjnych. Kierunek prowadzi Wydział Podstaw Techniki Politechniki Lubelskiej.

Poziom: I stopnia.
Tryb studiów: stacjonarny i niestacjonarny.
Czas trwania: 3,5 roku (7 semestrów).
Więcej informacji na stronie.

Modelowanie matematyczne i analiza danych – Uniwersytet Gdański

Program kierunku na Wydziale Matematyki, Fizyki i Informatyki łączy w sobie matematykę, informatykę oraz elementy fizyki. Studenci zdobędą umiejętność konstruowania modeli matematycznych dla różnych problemów współczesnego świata, projektowania i wykonywania obliczeń numerycznych, korzystania z nowoczesnych technik przetwarzania danych i stosowania właściwych metod statystycznych do ich analizy. Blisko 45 proc. przedmiotów jest indywidualnie wybieranych przez studenta. W zależności od tego, które się wybierze, kierunek można ukończyć z jedną lub dwiema z możliwych specjalności: analiza danych, eksploracja danych w finansach i ubezpieczeniach, matematyka ekonomiczna, modelowanie zjawisk fizycznych.

Poziom: I oraz II stopnia.
Tryb studiów: stacjonarny.
Czas trwania: 3,5 roku (7 semestrów).
Więcej informacji na stronie.

Inżynieria i analiza danych – Politechnika Rzeszowska

Decydując się na ten kierunek, studenci będą mieli okazję zdobyć szeroką wiedzą m.in. z zakresu analizy matematycznej, rachunku prawdopodobieństwa, teorii grafów i sieci, metod optymalizacji czy szeregów czasowych. Studia prowadzone przez Wydział Matematyki i Fizyki Stosowanej zapewnią także praktyczne umiejętności stosowania i tworzenia narzędzi informatycznych, baz i hurtowni danych, prognozowania i wnioskowania, prezentacji wyników oraz przeprowadzania analizy statystycznej i numerycznej danych.

Poziom: I stopnia.
Tryb studiów: stacjonarny.
Czas trwania: 3,5 roku (7 semestrów).
Więcej informacji na stronie.

Inżynieria i analiza danych – Politechnika Warszawska

Studia na kierunku „Inżynieria i analiza danych” trwają siedem semestrów – ich absolwenci uzyskują tytuł zawodowy inżyniera w naukach technicznych i potrafią łączyć wszechstronne umiejętności informatyczne, matematyczne i kreatywne rozwiązywanie problemów w obszarze data science. Posługują się zarówno informatycznymi narzędziami, jak i systemami do pozyskiwania, składowania oraz analizy danych. Nauczą się też programować w wielu różnych językach, a także posiadają znajomość metod probabilistycznych, statystycznych oraz uczenia maszynowego.

Poziom: I stopnia.
Tryb studiów: stacjonarny.
Czas trwania: 3,5 roku (7 semestrów).
Więcej informacji na stronie.

Analiza danych – Uniwersytet Przyrodniczo-Humanistyczny w Siedlcach

Studia na kierunku na UPH powinny dostarczyć kandydatom wiedzy o tym, jak szybko i trafnie dokonywać właściwych odkryć w zalewie danych, żeby później przekazywać je w zrozumiały sposób osobom podejmującym strategiczne decyzje w organizacjach. Kończąc te studia, absolwent będzie przygotowany do podjęcia pracy jako programista, projektant baz danych, analityk danych finansowych czy biznesowych. Zatrudnienia może znaleźć także jako ekspert ds. eksploracji danych we wszelkiego rodzaju firmach z branży technologicznej, instytucjach naukowo-badawczych, finansowych, instytucjach administracji publicznej i państwowej, średnich i dużych zakładach produkcyjnych, a także ośrodkach badania opinii publicznej.

Poziom: I stopnia.
Tryb studiów: stacjonarny.
Czas trwania: 3 lata (6 semestrów).
Więcej informacji na stronie.

STUDIA ANALIZA DANYCH II STOPNIA

Analiza danych – big data – Szkoła Główna Handlowa w Warszawie

Studia drugiego stopnia na kierunku „Analiza danych – big data” w SGH kształcą specjalistów w zakresie pozyskiwania danych z różnych źródeł oraz ich analizy. Dają one zaawansowaną wiedzę i kompetencje umożliwiające podjęcie pracy zawodowej na stanowisku specjalisty zaawansowanej analizy danych, w przedsiębiorstwach produkcyjnych, bankach, firmach ubezpieczeniowych i telekomunikacyjnych, administracji publicznej oraz centrach badawczych wyspecjalizowanych w zaawansowanej analityce danych. Studia te przygotowują do prowadzenia prac badawczych i do podjęcia studiów trzeciego stopnia.

Poziom: II stopnia.
Tryb studiów: stacjonarny i niestacjonarny.
Czas trwania: 2 lata (4 semestry).
Więcej informacji na stronie.

Analityka biznesowa – Politechnika Śląska

Kierunek „Analityka biznesowa” na Politechnice Śląskiej łączy znajomość nowoczesnych metod ilościowych i umiejętność posługiwania się specjalistycznym oprogramowaniem przeznaczonym m.in. do modelowania i symulowania procesów w organizacjach z wiedzą o zarządzaniu, ekonomii, finansach i rachunkowości. Podczas pierwszego roku realizowana jest ścieżka kształcenia, obejmująca m.in.: przetwarzanie danych za pomocą SQL i R, metody ilościowe w biznesie, badanie koniunktury i wzrostu gospodarczego oraz metody optymalizacji efektywności ekonomicznej. Z kolei na drugim roku studenci wybierają 3 spośród 5 modułów, co pozwala kształtować własną ścieżkę rozwoju. Ponadto w ramach warsztatów kreatywności i negocjacji biznesowych studenci zdobywają kompetencje społeczne niezbędne do skutecznego funkcjonowania w otoczeniu społeczno-gospodarczym. Kierunek prowadzi Wydział Organizacji i Zarządzania.

Poziom: II stopnia.
Tryb studiów: stacjonarny.
Czas trwania: 2 lata (4 semestry).
Więcej informacji na stronie.

Analiza danych – Uniwersytet Mikołaja Kopernika w Toruniu

Studia w zakresie analizy danych na UMK dadzą absolwentom rzetelne wykształcenie z zakresu statystyki i data mining z elementami informatyki. Ścieżka rozwoju specjalistów oparta jest na znajomości najnowszych technik uczenia maszynowego i eksploracji danych oraz wybranych narzędzi analitycznych. Program studiów obejmuje także zagadnienia związane z wizualizacją danych, statystyką bayesowską, programowaniem w środowisku R i języku Python, a także zaawansowanymi technikami eksploracji danych (text mining, sieci neuronowe i deep learning).

Poziom: II stopnia.
Tryb studiów: stacjonarny i niestacjonarny.
Czas trwania: 2 lata (4 semestry).
Więcej informacji na stronie.

Statystyka matematyczna i analiza danych – Politechnika Warszawska

Absolwent tych studiów wyróżnia się wiedzą matematyczną i umiejętnością samodzielnego jej pogłębiania. Cechuje go umiejętność abstrakcyjnego myślenia, precyzyjnego formułowania problemów i ich rozwiązań. Potrafi stosować metody statystyki matematycznej i analizy danych, w tym do opisu, modelowania i prognozowania rozmaitych zjawisk i procesów. Znajomość narzędzi informatycznych pozwala absolwentom podejmować zadania przetwarzania danych oraz modelowania zjawisk losowych i chaotycznych.

Poziom: II stopnia.
Tryb studiów: stacjonarny.
Czas trwania: 2 lata (4 semestry).
Więcej informacji na stronie.

Analiza i przetwarzanie danych – Uniwersytet im. Adama Mickiewicza w Poznaniu

W ramach tego kierunku Wydział Matematyki i Informatyki UAM gwarantuje zdobycie wiedzy i umiejętności w zakresie uczenia maszynowego, statystyki oraz narzędzi informatycznych potrzebnych w pracy z wieloma rodzajami danych. Studenci poznają techniki przygotowywania danych do analizy, dobierania metod i wykonywania obliczeń. Nauczą się również wizualizować i raportować wyniki analiz w sposób zrozumiały zarówno dla specjalistów, jak i laików.

Poziom: II stopnia.
Tryb studiów: stacjonarny i niestacjonarny.
Czas trwania: 2 lata (4 semestry).
Więcej informacji na stronie.

Inżynieria i analiza danych – Politechnika Rzeszowska

Na studentów decydujących się na wybór kierunku oferowanego przez Wydział Matematyki i Fizyki Stosowanej czeka poszerzona wiedza w obszarze zaawansowanych metod inżynierii i analizy danych. Od strony teoretycznej kształcenie opiera się na wiedzy płynącej z zaawansowanych metod matematyki wyższej oraz na wiedzy praktycznej związanej z automatyzacją procesów przetwarzania danych. Studia pomagają też nabyć umiejętność praktycznego stosowania zaawansowanych metod i technik analizy m.in. w przemyśle 4.0, zarządzaniu projektami, zarządzaniu ryzykiem, cyberbezpieczeństwie, wspierając je metodami matematycznymi i algorytmami inżynierii systemów informatycznych.

Poziom: II stopnia.
Tryb studiów: stacjonarny.
Czas trwania: 2 lata (4 semestry).
Więcej informacji na stronie.

Modelowanie matematyczne i analiza danych – Uniwersytet Gdański

To kierunek interdyscyplinarny, który prowadzi Wydział Matematyki, Fizyki i Informatyki UG. Łączy w sobie obszary matematyki, ekonomii, fizyki, informatyki, biomatematyki i bioinformatyki. Studiując ten kierunek, można zdobyć pogłębioną wiedzę w zakresie stosowania matematyki, statystyki, informatyki, analizy danych oraz narzędzi programistycznych do modelowania różnych rzeczywistych problemów współczesnego świata.

Poziom: II stopnia.
Tryb studiów: stacjonarny.
Czas trwania: 2 lata (4 semestry).
Więcej informacji na stronie.

PODYPLOMOWE STUDIA ANALIZA DANYCH

Zaawansowane metody analizy danych – Uniwersytet Warmińsko-Mazurski w Olsztynie

Słuchacze tego kierunku są przygotowywani do zarządzania danymi poprzez nabycie umiejętności ich przetwarzania, analizowania oraz wnioskowania na ich podstawie za pomocą metod i technik analizy danych. Autorzy studiów stawiają za cel zdobycie szczegółowej wiedzy z zakresu statystyki matematycznej i analizy danych oraz umiejętności pozwalających na stosowanie metod statystycznych do opisu, modelowania i prognozowania procesów. Odbiorcami są osoby zatrudnione jako analitycy w bankach, instytucjach ubezpieczeniowych, przedsiębiorstwach handlowych, produkcyjnych, ośrodkach przetwarzania informacji oraz ośrodkach badania opinii społecznej, w firmach prowadzących badania kliniczne, a także w instytucjach administracji państwowej i samorządowej.

Poziom: podyplomowe.
Tryb studiów: niestacjonarny.
Czas trwania: 1 rok (2 semestry).
Więcej informacji na stronie.

Analityka danych z wykorzystaniem języka SQL oraz narzędzi Business Intelligence – Uniwersytet Warszawski

Głównym celem kierunku prowadzonego przez Wydział Nauk Ekonomicznych jest rozwój umiejętności związanych z pozyskiwaniem danych z dowolnej bazy, wstępną obróbką i przygotowaniem ich do analizy, wizualizacją, raportowaniem i prezentacją. Uczestnicy zapoznają się ze stosowanymi przez analityków metodami oraz narzędziami stosowanymi podczas przetwarzania danych. Studia są skierowane do osób pracujących w programie MS Excel, znających ten program co najmniej na poziomie średnio zaawansowanym i posiadających podstawową wiedzę dotyczącą ekonomicznej analizy danych. Nie jest wymagana wiedza z baz danych, języka SQL oraz narzędzi business intelligence (BI).

Poziom: podyplomowe.
Tryb studiów: stacjonarny i niestacjonarny.
Czas trwania: 1 rok (2 semestry).
Więcej informacji na stronie.

Modelowanie i analiza danych – Wyższa Szkoła Handlowa we Wrocławiu

Kierunek modelowania i analizy danych na wrocławskiej WSH przede wszystkim jest skierowany do osób stawiających pierwsze kroki w statystycznej analizie danych. Adresaci kierunku to absolwenci studiów wyższych, którzy planują podnieść swoje kwalifikacje lub ukierunkować karierę zawodową na obszar data science. W trakcie studiów dowiedzą się więcej m.in. o nowoczesnym modelowaniu statystycznym, pracy z dużymi bazami danych, kreatywnym rozwiązywaniu problemów biznesowych i podstawach programowania w języku R.

Poziom: podyplomowe.
Tryb studiów: niestacjonarny.
Czas trwania: 1 rok (2 semestry).
Więcej informacji na stronie.

Wizualna analityka danych – Politechnika Warszawska

Studia te łączą zagadnienia z obszaru wizualizacja danych, business intelligence, data science, big data, a także komunikacji wizualnej i komunikacji w biznesie. Po zakończonej nauce absolwent będzie umiał m.in. posługiwać się wybranymi narzędziami do wizualizacji danych i narzędziami business intelligence, pracować z danymi przy użyciu programowania, stosować metody eksploracji danych i odróżniania podejścia opartego na statystyce od opartego na sztucznej inteligencji, a także dobierać rodzaje wizualizacji do danych w kontekście wymagań odbiorców. Studia podyplomowe skierowane są do osób pracujących w działach sprzedaży, marketingu, finansów i analiz. W szczególności na stanowiskach takich jak analityk danych, programista business intelligence, specjalista data science czy statystyk.

Poziom: podyplomowe.
Tryb studiów: niestacjonarny.
Czas trwania: 1 rok (2 semestry).
Więcej informacji na stronie.

Analiza danych z wykorzystaniem narzędzi SAS – Uniwersytet Ekonomiczny w Poznaniu

Celem tego kierunku na Uniwersytecie Ekonomicznym w Poznaniu jest przekazanie wiedzy m.in. z zakresu projektowania struktury, przetwarzania i wizualizacji danych oraz tworzenia raportów w środowisku SAS. Słuchacze poznają także metody statystycznej analizy struktury danych, analizy współzależności zjawisk ilościowych i jakościowych, a także aplikacji narzędzi do analiz typu data mining oraz optymalizacji procesów.

Poziom: podyplomowe.
Tryb studiów: niestacjonarny.
Czas trwania: 1 rok (2 semestry).
Więcej informacji na stronie.

Analiza danych – Wyższa Szkoła Biznesu

Studia podyplomowe na kierunku „Analiza danych” zostały stworzone z myślą o osobach, które chcą zyskać wiedzę z zakresu przetwarzania, interpretowana oraz opracowywania danych. Są skierowane do tych, którzy chcą dowiedzieć się więcej o świecie data science i big data. Absolwenci mogą szukać pracy m.in. na takich stanowiskach jak data analyst, specjalista ds. oceny ryzyka, analityk IT, analityk finansowy, statystyk bądź specjalista ds. danych SQL.

Poziom: podyplomowe.
Tryb studiów: niestacjonarny.
Czas trwania: 1 rok (2 semestry).
Więcej informacji na stronie.

DODATKOWO

Nie możemy pominąć także dwóch poniższych kierunków studiów, na których również uczy się analityki i zaawansowanej analizy danych, mimo że w swoich nazwach tych wyrazów nie mają.

Metody ilościowe w ekonomii i systemy informacyjne – Szkoła Główna Handlowa w Warszawie

Studia pierwszego stopnia na tym kierunku dostarczają wiedzy z zakresu ekonomii, zarządzania i finansów w kontekście metod ilościowych w ekonomii oraz systemów informatycznych. Wśród zajęć znajdziemy tu m.in. analizy statystyczne i ekonometryczne czy informatykę. W ramach kierunku możliwe jest specjalizowanie się w jednym z dwóch profilów kształcenia. Jeden jest nakierowany na metody ilościowe w ekonomii, a drugi – na informatykę gospodarczą.

Poziom: I stopnia.
Tryb studiów: stacjonarny i niestacjonarny.
Czas trwania: 3 lata (6 semestrów).
Więcej informacji na stronie.

Zarządzanie informacją – Polsko-Japońska Akademia Technik Komputerowych w Warszawie

Podczas nauki studenci uzyskują wiedzę z zakresu zarządzania, ekonomii i informatyki. Szczególny nacisk kładziony jest na wykształcenie umiejętności dotyczących sprawnej organizacji przedsiębiorstwa, kompetentnego zarządzania projektami oraz rozwiązywania różnorodnych problemów dotyczących funkcjonowania organizacji (wymagających zarówno kompetencji twardych, jak i miękkich). Program studiów obejmuje zagadnienia z zakresu efektywnego wykorzystania zasobów informacyjnych, rzeczowych i finansowych, dostępnych w otoczeniu biznesowym przedsiębiorstwa. Służą temu przedmioty poświęcone technikom podejmowania decyzji, doskonaleniu procesów biznesowych w przedsiębiorstwie, czy innowacyjnym zastosowaniom technologii informatycznych w zarządzaniu.

Poziom: I stopnia.
Tryb studiów: stacjonarny i niestacjonarny.
Czas trwania: 3,5 roku (7 semestrów) lub 4 lata (8 semestrów).
Więcej informacji na stronie.


Wszystkie opisy powyższych kierunków zostały przygotowane na podstawie informacji podanych na stronach internetowych poszczególnych uczelni, które je prowadzą. Każdy z kierunków został wyselekcjonowany w wyniku niezależnego researchu w sieci, w tym danych z bazy RAD-on – źródła informacji o szkolnictwie wyższym i nauce w Polsce prowadzonym przez Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy.

– Wiele firm ma bałagan w danych. To powoduje, że analitycy poświęcają olbrzymią część swojej pracy na ich porządkowanie, czyszczenie. Później pojawia się frustracja i poczucie niewykorzystania kompetencji data scientistów. To wciąż jest spore wyzwanie w biznesie – uważa dr hab. Piotr Wójcik, profesor na Wydziale Nauk Ekonomicznych Uniwersytetu Warszawskiego, kierownik Data Science Lab.

Dr hab. Piotr Wójcik, prof. UW jest pracownikiem naukowo-dydaktycznym na Wydziale Nauk Ekonomicznych Uniwersytetu Warszawskiego. Profesor Wójcik to ekspert w obszarze wykorzystania oprogramowania R oraz SAS do przetwarzania danych i zaawansowanego modelowania statystycznego i ekonometrycznego, kierownik i wykonawca licznych projektów naukowych i naukowo-badawczych wykorzystujących ilościowe narzędzia analityczne. Wieloletnie doświadczenie zawodowe analityka ilościowego zdobywał m.in. w branżach finansowej, telekomunikacyjnej i badań marketingowych.

Ma Pan receptę na skuteczne nauczanie data science? Co jest kluczowe w tym zawodzie?

Proces poznawania data science to nic innego jak learning by doing, czyli uczenie się przez praktykę. Nie łudźmy się, że będzie to prosta droga. To olbrzymi wysiłek, wiele godzin spędzonych nad algorytmami i korzystanie z praktycznych przykładów. Konieczne jest łączenie kompetencji analitycznych oraz programistycznych, aby skutecznie wyciągać wnioski z danych. Trzeba też wiedzieć, jak nie dać się wpuścić w pułapki interpretacji.

Równie istotne, szczególnie na początku tej drogi, jest prowadzenie przez doświadczonego tutora – przewodnika, który pozwala ułożyć ścieżkę nauczania. Po nabyciu podstawowych umiejętności pozostaje samodzielny rozwój. Czyli uczenie się nowych, coraz bardziej wyrafinowanych algorytmów, tworzenie projektów, analiz, ale także nauka na własnych błędach.

To oczywiście wymaga unikalnych kompetencji. Modele czy algorytmy, które są stosowane w data science, mają podstawy matematyczne. Mam jednak wrażenie, że wiele osób pracujących w data science nie czuje tego. Z pozoru wydaje im się to czymś prostym, szczególnie jeśli mają doświadczenie jako programiści. W rzeczywistości tak nie jest.

Ważne jest zatem zrozumienie podstaw matematycznych: tego kiedy i jaki model stosować, jaką metodę użyć, do jakiego rodzaju problemu badawczego… Nazwałbym to intuicją badacza. Nie bez powodu ten zawód nazywa się „data scientist”, czyli badacz danych. To nie jest tylko czysta technika. Data science wymaga pewnej ciekawości wobec badanego problemu, umiejętności szukania właściwych odpowiedzi na trudne pytania.

Wiedza, doświadczenie, kompetencje. A z drugiej strony potrzebne są też odpowiednie narzędzia analityczne. Jak dalece są one ważne dla badaczy?

W data science narzędzia analityczne są kluczowe. Dzięki nim stale rośnie popularność tej nauki. Na przykład rozwój języków programowania, takich jak R, SAS czy Python, sprzyja poszerzeniu liczby osób, które je stosują. To rozwiązania niegdyś tworzone przez statystyków i programistów, którzy z ich pomocą prowadzili analizy.

Dziś osoby z jakimś doświadczeniem analitycznym po krótkim przeszkoleniu praktycznym często są przygotowane do skutecznego stosowania tych modeli. Co oczywiście nie znaczy, że nie mogą uzyskać lepszego efektu, jeśli dowiedzą się o nich więcej. Natomiast rozwój narzędzi analitycznych bardzo sprzyjał wzrostowi popularności nowoczesnych metod uczenia maszynowego. Ale też ogólnie data science.

O Pythonie już trochę wiemy, bo to chyba najpopularniejsze narzędzie w branży technologicznej. Czym jest natomiast język R i oprogramowanie SAS na rynku analitycznym? W jakich sytuacjach najlepiej się sprawdzają, a w jakich gorzej?

Języki R i SAS były tworzone przez statystyków. Z tego powodu są relatywnie łatwe do zrozumienia przez osoby, które mają wiedzę statystyczną. Język R jest takim opensource’owym, otwartym środowiskiem programistycznym. Wiele metod statystycznych, które dopiero powstają, w pierwszej kolejności jest implementowanych w R.

Czyli dla Pana jest to kluczowe narzędzie?

Korzystam z języka R dlatego, że mam dosyć szeroki zakres zainteresowań badawczych. To jest właściwie jedyne narzędzie, które daje mi możliwość wykorzystania różnorodnych elementów czy konkretnych modeli statystycznych w analizach przestrzennych, modelowaniu danych w formie tabelarycznej, szeregów czasowych czy danych tekstowych, a także rozwijania własnych narzędzi.

R jest moim ulubionym środowiskiem nie tylko ze względu na łatwość posługiwania się nim w codziennej pracy. Przede wszystkim ten język współtworzy społeczność specjalistów z całego świata. W sposób otwarty dzielimy się funkcjami, jakie tworzymy. To pokazuje, że mamy do czynienia z elastycznym narzędziem, które pozwala łatwo dodawać i tworzyć funkcje, a także programować nowe modele.

Rozumiem, że stosuje Pan te narzędzia analityczne również w Data Science Lab – niezależnej jednostce badawczej przy Uniwersytecie Warszawskim. Jakie projekty realizujecie?

Data Science Lab to taka „nieformalna” grupa badawcza, złożona głównie z moich magistrantów i kilku doktorantów. Mamy dwa główne bloki tematyczne. Pierwszy z nich to analizy regionalne i przestrzenne, gdzie aktualnie prowadzimy badania dotyczące przewidywania poziomu rozwoju polskich województw, gmin i powiatów na podstawie danych satelitarnych o nocnym naświetleniu ziemi czy zdjęć wykonywanych z satelity. Chodzi o kwestię relacji między cechami widocznymi na zdjęciach satelitarnych a poziomem rozwoju konkretnego obszaru i dobrostanem jego mieszkańców.

Drugi obszar to finanse ilościowe. Badaliśmy m.in. treść komunikatów o zmianach stóp procentowych w USA oraz wpływ tych informacji na wyceny akcji, wartość indeksów giełdowych, ceny walut itd. W tej chwili analizujemy z kolei wyceny tzw. tokenów NFT. To niewymienialne, unikatowe cyfrowe dobra oparte na technologii blockchain, których główną cechą są kosmiczne ceny. Analizujemy niewielkie cyfrowe obrazki kolekcjonerskie i sprawdzamy, czy i jak ich cechy wpływają na wartość tych tokenów.

Jakie narzędzia analityczne najczęściej wykorzystujecie?

Na przykład do analizy obrazów korzystamy z Pythona. Jest on również głównym narzędziem, jakie wykorzystujemy w projekcie naukowo-badawczym dotyczącym automatycznego marketingu online i realizowanym w firmie Cube Group. Z kolei w projekcie realizowanym na Wydziale na zlecenie Ministerstwa Finansów, badając nadużycia podatkowe, używam głównie języka R. Osobiście często używam także języka C++ w połączeniu z R, co zapewnia szybkie analizy chociażby przy tworzeniu algorytmicznych strategii inwestycyjnych.

Czy są jakieś obszary, w których R nie jest efektywny?

Żadne narzędzie nie jest doskonałe. Ostatnio bardzo intensywnie rozwijają się algorytmy uczenia głębokiego, sieci neuronowe, zaawansowane analizy tekstu, rozpoznawanie obrazów czy klasyfikacja obiektów na zdjęciu. Zdecydowanym liderem w tym obszarze jest Python.

Zarówno Python, jak i R mają tę wadę, że wykorzystywane dane są ładowane w całości do pamięci, co ogranicza możliwość stosowania ich na bardzo dużych zbiorach. W przeciwieństwie do SAS, w którym dane przechowuje się w formie plików na dysku. Dzięki temu ich rozmiar jest ograniczony tylko limitem przestrzeni dyskowej.

W tym ujęciu chyba każde z tych narzędzi ma swoje zalety i ograniczenia…

Zdecydowanie. Przykładowo R to środowisko statystyczne, więc nie jest łatwo implementować skomplikowane modele w środowisku biznesowym czy produkcyjnym, gdzie modele mają działać na danych w czasie rzeczywistym. W tej chwili pracuję m.in. przy wspomnianym wcześniej projekcie z obszaru marketing automation. Wykorzystujemy gromadzone w czasie rzeczywistym dane online, na które model powinien natychmiast reagować. To wymaga narzędzi, które taką implementację w środowisku produkcyjnym łatwo umożliwiają. I pod tym kątem najlepsze wydają się właśnie Python lub C++.

Czy dobrze rozumiem, że w zależności od branży konieczny jest inny zestaw narzędzi data science?

Przede wszystkim mamy do czynienia z różną specyfiką danych. Na przykład w bankowości operujemy na danych indywidualnych klientów i mamy pewną historyczną wiedzę na temat ich zachowania. To są dane przekrojowe, często abstrahujemy od wymiaru czasowego, po prostu patrzymy na każdego klienta jako jednostkę, analizując dane i starając się przewidzieć jego zachowania na przyszłość. W tym przypadku stosujemy modele, które nie mają wymiaru czasu, lecz analizują dane tylko w kontekście przekrojowym.

Z kolei w branży finansowej patrzymy np. na ceny akcji albo ceny instrumentów finansowych z perspektywy czasu – codziennie, co godzinę, co sekundę. Mamy inny rodzaj danych, które mają swoją sekwencję, są mierzone w kolejnych jednostkach czasu i do analizy takich danych musimy zastosować inne narzędzia analityczne.

W mojej grupie badawczej wspólnie ze studentami prowadzimy jeszcze inny wymiar analiz, który dotyczy danych i relacji przestrzennych. Jest to pomocne np. wtedy, gdy wyceniamy nieruchomości. Tam ważną rolę odgrywa chociażby lokalizacja. Analizujemy szereg cech, takich jak odległość od przystanku autobusowego, linii kolejowej, centrum miasta, ale również cechy nieruchomości sąsiadujących. W takich modelach należy wykorzystać tzw. efekty przestrzenne.

Wspomniał Pan o biznesie i rozwiązaniach tam tworzonych. Narzędzia analityczne w data science – wyłącznie dla specjalisty czy także np. dla menedżera?

Od kilkunastu lat prowadzę studia podyplomowe. Najpierw były to „Metody statystyczne w biznesie z wykorzystaniem pakietu SAS”, a od kilku lat mamy studia podyplomowe „Data science w zastosowaniach biznesowych. Warsztaty z wykorzystaniem programu R”, gdzie uczymy np. tego, jak używać języka R w biznesie. I muszę powiedzieć, że od samego początku zawsze uczestniczy w nich grupa menedżerów – osób, które zajmują stanowiska kierownicze, choć niekoniecznie w analityce.

Z czego wynika ta potrzeba wiedzy? Rozwój osobisty, chęć poznania materii, z jaką się będą stykać podczas procesu decyzyjnego?

Przede wszystkim jest to ciekawość. Narzędzia analityczne w data science rozwijają się w ostatnich latach bardzo szybko. Jeszcze 20 lat temu ludzie używali zwykłych modeli regresji liniowej czy regresji logistycznej, ewentualnie drzew decyzyjnych. Była to wiedza niemal tajemna, dla ograniczonej grupy osób – wysokiej klasy specjalistów, matematyków, statystyków. Dziś menedżerowie mogą śmiało pozyskać tę wiedzę na niemal każdym poziomie, bo jest to konieczne do realizacji projektów.

Poza tym szefowie i kierownicy chcą zrozumieć, jakie rozwiązania mogą zastosować w swoich firmach, zanim to wdrożą na „żywym organizmie”. Muszą też wiedzieć, jakiego rodzaju kompetencji poszukiwać u swoich pracowników, żeby potrafili potem z innowacyjnych narzędzi korzystać. Ważne jest to, aby osoba na kierowniczym stanowisku rozumiała, co robią jej pracownicy.

I na koniec chyba najważniejsze – menedżer stawia pytania biznesowe i warto, aby te pytania były stawiane w takiej formie, aby udało się skutecznie na nie odpowiedzieć za pomocą narzędzi analitycznych. Dobry menedżer umie planować pracę swojego zespołu. Jak to zrobić bez wiedzy o narzędziach, z który zespół korzysta? Po prostu się nie da.

Czyli zarządzający mimowolnie stają się po części specjalistami od danych. A może już wchodzą w buty data scientista?

Znam przypadki osób, które długo pracowały na stanowiskach kierowniczych, lecz na fali zainteresowania narzędziami data science stwierdziły, że chcą zmienić stanowisko. Tak bardzo fascynujący okazał się dla nich ten obszar, mimo że wymaga sporego wysiłku i nadal ma wysoką barierę wejścia. Znam kilku kierowników projektów w IT, którzy po studiach podyplomowych z data science na WNE UW zmienili pracę i zajęli się analityką. I są bardzo zadowoleni z tej zmiany.

Rozwijające się nowoczesne narzędzia analityczne to też wyzwania. Z czym borykają się firmy?

Z mojego doświadczenia biznesowego wynika, że wielu firmom – choć zabrzmi to gorzko – brakuje porządku w danych. Clive Humby stwierdził, że „dane to nowa ropa naftowa”. A zatem dane nieprzetworzone są bezużyteczne. Jeśli danych nie uporządkujemy, nie wyczyścimy, nie przetworzymy danych tekstowych czy obrazów na postać zrozumiałą dla algorytmów, nie będzie z nich pożytku. Umiejętność przygotowania danych daje dużą przewagę.

Bałagan w danych powoduje, że analitycy poświęcają olbrzymią część swojej pracy na ich porządkowanie, czyszczenie. Jeśli firma dopuszcza dowolność formy, w jakiej dane są jej przekazywane czy gromadzone, wiąże się to z ogromnym nakładem pracy analityka. To z kolei budzi frustrację i powoduje, że firmy nie wykorzystują w pełni kompetencji data scientistów. To nadal jest sporym wyzwaniem w biznesie.

W jakim stopniu stosowane narzędzia analityczne mają wpływ na decyzje, także te błędne?

Jest takie powiedzenie statystyków: „śmieci na wejściu to śmieci na wyjściu” (ang. garbage in, garbage out). Jeśli dane są nieprzygotowane, nieprzetworzone do właściwej postaci lub jeśli w tych danych jest bałagan, to z modelu i tak wychodzi jakiś wniosek. Pytanie, czy będzie to wniosek sensowny? Skoro na tej podstawie podjęliśmy decyzję, to może być nietrafiona i prowadzić np. do strat finansowych lub wizerunkowych.

Zatem głównym zagrożeniem jest zła jakość danych, nieumiejętność ich właściwego przygotowania, ale też ich niereprezentatywność. Jeśli mamy dane, w których pewne jednostki są nadreprezentowane albo niedostatecznie reprezentowane, to może prowadzić do tzw. dyskryminacji algorytmicznej.

Jest jeszcze kwesta zaufania.

Dlatego pojawiają się obawy związane z oddaniem wnioskowania maszynom, ponieważ nie zawsze wiadomo, w jaki sposób algorytmy wnioskują. Mówię tu o tzw. czarnych skrzynkach (ang. black boxes). Na szczęście badacze już pracują nad rozwiązaniami z obszaru wytłumaczalnej sztucznej inteligencji, które pozwalają rozwiewać te wątpliwości i tłumaczą krok po kroku działanie algorytmu.

Dużym zagrożeniem jest również zbytnie zaufanie ludzi do sztucznej inteligencji. Jeśli opieramy modele na coraz większych zasobach danych, to algorytmy „wiedzą” o nas coraz więcej. Mówię tu o kwestii utraty prywatności, inwigilacji, ale także o zagrożeniu wycieku takich danych.

Nie bagatelizowałbym też kwestii wykluczenia cyfrowego. Jeżeli warunkiem uzyskania zniżki przy ubezpieczeniu mieszkania albo samochodu jest zarejestrowanie się poprzez stronę internetową, aplikację albo podanie numeru telefonu, to osoby, które takich narzędzi nie mają albo nie chcą z nich korzystać w tym konkretnym przypadku, są z tego powodu wykluczone cyfrowo.

Sporo tych zagrożeń. Jak zatem Pan widzi przyszłość analityki danych?

Oczywiście nie jestem wróżką i trudno mi ocenić, jak będzie wyglądała przyszłość. Jednak bardzo się obawiam tego, co nazywamy Internetem Rzeczy (ang. Internet of Things). Do tego dążą główni gracze na rynku technologicznym. Chcą, aby wszystko było podłączone do Internetu, tak żeby o wszystkim co się dzieje zbierać dane i je analizować. To jest wizja, która trochę mnie przeraża. Mówiąc szczerze, nie chciałbym być zmuszonym żyć w rzeczywistości, w której np. moja koszula informuje mnie, że już powinna trafić do prania, a lodówka sama zamawia produkty spożywcze. W kontekście masowego zbierania danych (również wrażliwych) bardzo ważnym wyzwaniem będzie zadbanie o etyczność tych rozwiązań.

Gdzie bylibyśmy dziś bez analizy danych?

Nie wyobrażam sobie, abyśmy mogli wrócić do czasów sprzed analizy danych, bez dostępu do narzędzi analitycznych. Dziś to jest porównywalne z powrotem niemalże do ery kamienia łupanego. Z drugiej strony, firmy nadal mają spory potencjał do wykorzystania.

Wiele organizacji ma świadomość istnienia tych skomplikowanych algorytmów nowoczesnej analizy danych, jednak wbrew pozorom używa ich w bardzo ograniczony sposób. Potrafimy analizować dane zgromadzone w postaci tabelarycznej. Ale myślę, że olbrzymia przyszłość jest przed analizą danych nieustrukturyzowanych – tekstu, obrazów, nagrań audio i wideo. Tu jest nadal ogromne pole do rozwoju. Algorytmy, które działają na takich danych, wciąż są dalekie od doskonałości.

Warto też z drugiej strony zastanowić się nad kwestią zrównoważonego rozwoju i zadać sobie pytanie: czy warto stosować złożone obliczeniowo narzędzia analityczne, skoro wiemy, że powodują olbrzymie obciążenie tysięcy serwerów na całym świecie i generują efekt cieplarniany, zamiast poszukiwania rozwiązań minimalizujących te negatywne skutki?

Czego by Pan sobie życzył od analizy danych w przyszłości?

Wciąż jest wiele nieodkrytych pól, gdzie można z powodzeniem stosować algorytmy. Takim obszarem jest choćby kwestia automatycznej syntetyzacji tekstu. Aktualnie mamy zalew olbrzymiej ilości informacji w formie tekstowej lub zapisanych w formie audio, lecz nie jesteśmy w stanie ich odpowiednio przetworzyć. Algorytmy, które będą w stanie z dużego tekstu lub nagrania zrobić krótki, lecz sensowny abstrakt – a nie zlepek przypadkowych słów – będą prawdziwym przełomem. To bym zobaczył z wielką ciekawością.

Transformacja cyfrowa jawi się firmom jako wyzwanie, pewien trend. Od kilkudziesięciu lat wszyscy o tym mówią. Efekt? Prawie żaden. Dlatego czas zacząć działać. Rozwiązania usprawniające działanie firm są dostępne niemalże od ręki. I to nie są jakieś superinnowacje, których używania musimy się uczyć latami – mówi profesor Tomasz Rostkowski ze Szkoły Głównej Handlowej w Warszawie.

Dr hab. Tomasz Rostkowski jest kierownikiem Zakładu Zarządzania Kapitałem Ludzkim w Szkole Głównej Handlowej w Warszawie. Specjalizuje się w procesach zarządzania zmianami. Do jego zainteresowań należy również transformacja cyfrowa biznesu i administracji publicznej. Jego obszary badawcze to strategia i zarządzanie kapitałem ludzkim, przywództwo, zarządzanie kompetencjami. Doświadczenie w roli doradcy zdobywał m.in. w branżach badań rynku, bankowości, farmacji, FMCG, górnictwa, hotelarstwa, IT, logistyki, motoryzacji, ochrony zdrowia, produkcji i transportu.

Jesteśmy po dwóch latach pandemii koronawirusa. Czy sprawiła ona, że transformacja cyfrowa w Polsce przeszła jakieś zmiany?

Bądźmy szczerzy – Polska wciąż zajmuje ostatnie miejsca w rankingach cyfryzacji w Europie, mimo że ma do dyspozycji jedną z najlepszych infrastruktur teleinformatycznych na świecie. Na szczęście Polacy mają tę nadzwyczajną zdolność dokonywania właściwych wyborów w trudnych czasach. Dlatego dzięki pandemii transformacja cyfrowa w końcu przyspieszyła, choć mogło to się zdarzyć dużo wcześniej.

Paradoksalnie to właśnie dzięki pandemii udało nam się przezwyciężyć pewne opory, jakie transformacja cyfrowa napotykała w naszym kraju. Od kilkunastu lat przecież mówiono, że praca powinna być „odmiejscowiona”, że nie ma żadnego powodu, dla którego ludzie mieliby przychodzić do niej codziennie. I że wcale nie trzeba patrzeć pracownikom na ręce, aby dobrze pracowali. Te przekonania były tak mocno zakorzenione w mentalności osób decyzyjnych w organizacjach, że dopiero COVID-19 otworzył im na to oczy.

Jak transformacja cyfrowa jest dzisiaj postrzegana przez przedsiębiorstwa i sektor administracji publicznej? Co oznacza dla nich w praktyce?

Muszę ostudzić nieco entuzjazm wielu obserwatorów tego, co się dzieje w Polsce. Nadal warto sobie zadawać pytanie, czy my w ogóle mamy do czynienia z prawdziwą cyfryzacją. Prawda jest taka, że jesteśmy na bardzo wczesnym jej etapie. Dobrym przykładem niech będzie transformacja cyfrowa Zakładu Ubezpieczeń Społecznych – jest co prawda spóźniona o wiele lat, ale przynosi doskonałe efekty. Można mówić o spadku kosztów o kilkadziesiąt procent oraz wzroście poziomu zadowolenia obywateli ze świadczonych usług. A to dopiero początek drogi.

Wachlarz możliwości wykorzystania rozwiązań cyfrowych jest naprawdę ogromny. Istotne jest jednak to, jaką część z tych możliwości możemy realnie wdrożyć. Jeśli chodzi o prognozy uczonych z lat 60. ubiegłego stulecia, to nawet one są jeszcze dalekie od zrealizowania. Nie mówiąc już o tym, że po drodze nauka się nieustannie rozwijała. I nie tylko nauka, ale również praktyka. Niestety, w Polsce jest jeszcze wiele problemów, których COVID-19 nie rozwiązuje.

Jakie to problemy?

W dalszym ciągu wielu menedżerów, w tym także tych wysokiego szczebla, patrzy na możliwości scyfryzowania organizacji jak na konieczność poniesienia wysokich kosztów. Niedawno w SGH przeprowadziliśmy badania wśród większych przedsiębiorstw w Polsce. Wskazują one na to, że kwestia sfinansowania przedsięwzięć transformacyjnych wciąż jest postrzegana jako największy problem. Jak zatem trafić do tych firm z przekazem, że cyfryzacji czy automatyzacji nie robi się po to, aby były koszty, tylko po to, aby zwiększać zyski? Oczywiście daje to także inne korzyści dla klientów, dla pracowników, dla planety… Ale nawet biorąc pod uwagę wyłącznie kwestie finansowe, to perspektywy są bardzo obiecujące.

Muszę przyznać, że wydatki na rozwiązania cyfrowe najczęściej kojarzą się właśnie z kosztami.

Tak mogłoby być, gdybyśmy dopiero startowali ze zbudowaniem infrastruktury. Natomiast my już ją mamy. Wystarczy zacząć z niej korzystać we właściwy sposób. Przecież nie musimy wdrażać innowacyjnych rozwiązań, które przyniosą zwrot z inwestycji w horyzoncie kilkudziesięciu lat. Na rynku są rozwiązania, które można zaimplementować od razu, nie ponosząc dużych kosztów. Nikt nie zmusza menedżerów i właścicieli do scyfryzowania całej organizacji w jeden dzień. Działajmy stopniowo, osiągnijmy pewne sukcesy etapami i na spokojnie zaplanujmy kolejne wdrożenia. Stwórzmy np. lepszy user experience (UX), zwiększmy poziom zadowolenia klientów, a efekty zobaczymy w postaci zysków. Po prostu dajmy sobie i klientom nowe narzędzia.

W biznesie jest to do zrealizowania. Jednak sektor publiczny funkcjonuje zgodnie z innymi zasadami. Pojawiają się choćby głosy, że transformacja cyfrowa w administracji jest trudniejsza ze względu na brak możliwości koordynacji działań. Pomijamy fakt ograniczonych budżetów.

Pieniądze w administracji nie są żadnym problemem. Na cyfryzację w tym sektorze trzeba spojrzeć z perspektywy szansy i nadziei. Jednocześnie chcę podkreślić, że dziś potrzebujemy innych urzędników, niż miało to miejsce sto lat temu. Takich, którzy potrafią działać skutecznie. Osobiście bardzo mocno trzymam kciuki za wszystkie innowacyjne działania w obszarze administracji. Choć wciąż mierzy się ona z wyzwaniami.

Jakimi?

Dużą barierą do przezwyciężenia pozostaje próba przełożenia działań i procedur urzędowych na wersję cyfrową. Wdrażane systemy są tak mało user friendly jak działające w obiegu druki. W postaci cyfrowej odwzorowuje się złe metody stosowane przez lata, a nawet dziesięciolecia. W efekcie mamy do czynienia z nieskutecznymi rozwiązaniami. To z kolei rozmywa odpowiedzialność i wydłuża czas obsługi obywateli czy mieszkańców. Tak rozumiana cyfryzacja jedynie utrwala patologię, zamiast ją skutecznie zwalczać.

Jeśli tak podejdziemy do cyfryzowania państwa, to nie tylko nie ograniczymy kosztów, ale jeszcze je zwiększymy. Zastąpienie papieru cyferkami nic nie zmienia. Cyfryzacja dla urzędników powinna być niezwykle ważna, ponieważ ułatwi ich pracę i skróci czas jej wykonywania. Ci pracownicy mają pełną świadomość, że podejmowane przez nich działania po prostu nie są efektywne. I na pewno wiedzą o tym lepiej niż obywatele.

Tymczasem sposób działania państwa bardzo mocno oddziałuje na przedsiębiorstwa…

Oczywiście. Dlatego w cyfryzacji nie chodzi tylko o to, żeby świadczyć lepsze usługi obywatelom i jednocześnie zapewniać komfortowe warunki pracy urzędnikom, którzy często są niedoceniani. Przede wszystkim chodzi o wpływ na całe otoczenie społeczno-gospodarcze. Dlatego mądrze przeprowadzona cyfryzacja to podstawowe patriotyczne zadanie każdego urzędnika w Polsce. I to na nich będziemy polegać. Niezależnie od tego, czy są członkami korpusu służby cywilnej, pracują w administracji samorządowej lub sądowej, czy też są urzędnikami w innych instytucjach.

A co z różnicami pomiędzy wdrażaniem innowacji w firmach i w administracji?

Moim zdaniem nieprawdą jest, że występuje jakikolwiek problem z koordynowaniem prac transformacyjnych w administracji rządowej lub samorządowej. Warto pamiętać, że niezależnie od rozmaitych zmian prawnych i społecznych administracja pozostaje organizacją hierarchiczną. Przełożeni podejmują decyzje, a następnie one mają być zrealizowane.

Całkiem inaczej jest w biznesie. Mamy więcej macierzowych struktur, gdzie wszystko trzeba omówić, nim podejmiemy decyzję. Powszechnie uważa się, że w przeciwieństwie do sektora publicznego w firmach jest łatwiej wprowadzać zmiany. Moim zdaniem jest dokładnie na odwrót. Co więcej, biznes zna także problemy, z jakimi boryka się administracja, ponieważ jest to cecha dużych organizacji. Można zatem powiedzieć, że cyfryzacja administracji jest prostsza niż cyfryzacja biznesu, ale wymaga innego podejścia niż to, do którego nawykli urzędnicy.

Czyli powszechne przekonanie o sukcesach wdrożenia innowacji w biznesie nie odpowiada rzeczywistości?

Wiele rozwiązań w biznesie nie kończy się natychmiastowym sukcesem. To potrafi zniechęcać. Czasami dopiero drugie lub trzecie wdrożenie systemu daje oczekiwane rezultaty. Często mówi się, że pierwsza implementacja pokazuje nam, czego nie chcemy, a druga – czego potrzebowaliśmy. Dlatego warto, aby administracja publiczna brała przykład z tych doświadczeń i od razu wdrażała rozwiązania korzystne zarówno dla pracowników, jak i obywateli.

Transformacja cyfrowa to także poważne zmiany struktur, procesów, sposobu działania organizacji. Czy ten proces może powodować poczucie zagrożenia u zaangażowanych osób?

W każdej zmianie są pewne zagrożenia. Jednak nie można myśleć o zmianach jak o potencjalnym zagrożeniu, np. utraty pracy. To, że ludzie przestaną zajmować się czynnościami monotonnymi, czasami wręcz nielubianymi, spowoduje, że będą mieli szansę zająć się tym, co przynosi im największą satysfakcję.

Szczególnie urzędnicy i pracownicy muszą przestać się obawiać, że stracą pracę w wyniku innowacyjnych wdrożeń. Cyfryzacja jest bowiem właśnie od czynności manualnych. Istnieje również po to, aby podpowiadać nam, jakie decyzje mogą się okazać dobre. Natomiast to my ostatecznie decydujemy, czy są to decyzje trafne i czy w długim okresie przyniosą rezultat. Cyfryzacja nie wywołuje zmian sama w sobie. To organizacje powinny się zmieniać i działać efektywnie. Cyfryzacja może jedynie pomóc w zmianach, które i tak powinny zajść.

Nie wierzy Pan w przejęcie procesu decyzyjnego przez systemy, szczególnie te wsparte sztuczną inteligencją czy uczeniem maszynowym?

Jakkolwiek dobrze by się maszyny uczyły, nigdy nie będą tak kreatywne, jak są ludzie. To człowiek jest od tego, żeby wymyślać, analizować i podejmować decyzje. Z kolei „eliminacja” ludzi z najprostszych czynności uwalania ich kreatywność, dzięki czemu, zamiast się koncentrować na biurokracji, zaczynają się skupiać na rozwiązywaniu ważnych problemów. Przestają więc być postrzegani w kategoriach kosztów, a zaczynają być najważniejszą składową procesu generowania nowych, dobrych pomysłów.

Czy mamy zatem konkretne rozwiązania, z jakich powinny korzystać firmy, aby zwiększać konkurencyjność, zmniejszać koszty, generować większe zyski?

Wbrew pozorom technologie nie należą do podstawowych wyzwań, z którymi borykają się dzisiaj specjaliści data science, inżynierowie czy badacze na całym świecie. Najważniejsze, żebyśmy zauważyli, że możemy korzystać z rozwiązań, które już funkcjonują na rynku. Na tym polega prawdziwe zarządzanie zmianą w transformacji cyfrowej. Choć niewątpliwie ważne jest również testowanie najnowszych, jeszcze niezweryfikowanych do końca rozwiązań. Pomimo różnych błędów i uprzedzeń towarzyszących technologiom takie świadome podejście daje przewagę konkurencyjną firmom analitycznym oraz tym zajmującym się sztuczną inteligencją.

Z drugiej strony są firmy, które w tej kwestii działają bardzo zachowawczo, bo nie chcą ryzykować. Ale to żaden problem, ponieważ wiele dostępnych rozwiązań można łatwo dopasować do konkretnych potrzeb biznesowych. Jednak czym innym jest dopasowanie, a czym innym stworzenie od nowa koncepcji technicznej, a potem – czasami długoletniej – weryfikacji. Dla wielu firm podobne zmiany są nieosiągalne, chociażby ze względu na koszty czy inne ograniczenia. Dlatego zmianą trzeba zarządzać mądrze, także w zakresie rewolucji cyfrowej.

Cóż, łatwo powiedzieć, trudniej…

Transformacja cyfrowa jawi się firmom jako wyzwanie, trend. Od kilkudziesięciu lat wszyscy o tym mówią. Efekt? Żaden. Dlatego czas zacząć działać. Rozwiązania usprawniające działanie firm są dostępne niemalże od ręki. I to nie są jakieś superinnowacje, których używania musimy się uczyć latami.

W przeciwnym razie będziemy pogłębiać sytuację, z jaką dziś mamy do czynienia. Z jednej strony są firmy technologicznie świadome, które będą poszukiwać nowych rozwiązań, będą je znajdować i na tym zyskiwać. Z drugiej strony obawy, brak odpowiednich kompetencji cyfrowych lub zbytnia pewność „analogowych” metod działania powoduje, że firmy nie sięgają po dostępne technologie. I takie organizacje mają dziś gigantyczny dług technologiczny. Dług, który będzie się tylko pogłębiał.

A jaką korzyść w procesie przebudowy modeli biznesowych niosą za sobą dane? Jak można je skutecznie wykorzystać, np. do zasypania luki kompetencyjnej czy zwiększenia efektywności pracy zespołów zdalnych i rozproszonych?

Analizę danych zawsze trzeba odpowiednio „doskalować” do każdej firmy czy organizacji. Do tej pory bardzo dużo energii i wysiłku wkładaliśmy w rozwijanie umiejętności analitycznych, narzędzi, działów analiz, big data, ML. Nie chcę powiedzieć, że to jest złe podejście, jednak umiejętność analizy bez umiejętności syntezy jest mało przydatna.

Dane zawsze musimy analizować w sposób świadomy. W przeciwnym razie będziemy ich gromadzić strasznie dużo. I nic z tego nie będzie wynikać. Dobrze jest znać odpowiedź na pytanie: „Po co gromadzimy i analizujemy dane?”. Dobry przykład to wdrożenie RODO. Dziesiątki tysięcy organizacji zaczęło się interesować tymi przepisami, powoływało pełnomocników, tworzyło regulaminy, interesowało się karami, jakie mogą spaść na firmy. Jeden wielki chaos, w którym zarządzający próbowali się odnaleźć.

Ale były i takie organizacje, choć w przeważającej mniejszości, w których ludzie zadali sobie pytanie: „Po co nam tyle danych? Przecież tracimy mnóstwo pieniędzy tylko dlatego, że musimy je zabezpieczać. Czy zatem naprawdę ich potrzebujemy, skoro nie wykorzystujemy ich w celu pozyskiwania klientów, zwiększania ich zadowolenia czy generowania większego zysku? Może niepotrzebnie nękamy swoich klientów o dodatkowe informacje, a potem musimy jeszcze te dane chronić”.

Dla wielu to był przełom. Rezultat był taki, że organizacje przestały gromadzić całą masę rozmaitych danych, które były im zwyczajnie niepotrzebne. Dlatego pamiętajmy, że każda zmiana – czy to legislacyjna, czy technologiczna – musi być po coś. Firmy istnieją po to, żeby zarabiać pieniądze i uszczęśliwiać klientów. Żeby klienci mogli być uszczęśliwieni, musimy mieć szczęśliwych pracowników. Oni z kolei przynoszą firmie korzyści finansowe. Dlatego transformacja cyfrowa jest okazją do poprawy tego, co mamy.

Czy liderzy mają tego świadomość?

Pytanie o rolę liderów w procesie zmian jest bardzo słuszne. Proszę się zastanowić: po co jest zarząd w organizacji? Często się uważa, że po to, aby miał wspaniały pomysł, na przykład na scyfryzowanie firmy. I ten zarząd powinien potem wdrożyć pomysł, natomiast pracowników musi albo przekonać, albo do tego zmusić.

Często myślimy w ten sposób: prezes to osoba, która ma pełnię wiedzy o swojej organizacji. Zna się na swojej robocie, ale przed podjęciem decyzji i tak będzie zasięgał opinii ekspertów. Wie, jakie zadania mają jego pracownicy, a na podstawie ich kontaktów z klientem będzie podejmował decyzje dobre dla firmy. Potem stworzy wytyczne, zaakceptuje plan i będzie czekał na rezultaty. A jeśli będzie miał obawy przed wdrożeniem, to zawsze się nimi podzieli. Wie, czego chce, zna swoje zadania, ma odpowiednie kompetencje, wie, czego potrzeba organizacji i pracownikom. Potrafi też przewidywać daleko idące konsekwencje podejmowanych decyzji.

Właśnie w tej chwili zdefiniowałem Boga. Osób o takich cechach po prostu nie ma. A może do tej pory nie potrafiliśmy ich znaleźć…

Jaka jest zatem rzeczywistość?

Badania pokazują, że każdy ma rozwinięty tylko fragment pewnych kompetencji decyzyjnych. Tymczasem po drugiej stronie mamy do zarządzania gigantyczne grupy zaangażowanych ludzi o znakomitych kompetencjach. Jak również o bardzo dobrej znajomości tego, co się naprawdę dzieje w firmie. Niestety, również o wysokim poziomie frustracji i mało wykorzystanym potencjale.

Dlatego najwyższa pora, by zacząć wykorzystywać pracowników do działań, w jakich będą się najlepiej odnajdywać. Transformacja cyfrowa nie powinna budzić obaw pracowników. Powinni natomiast mieć warunki, aby wychodzić z podobnymi inicjatywami. Bo to oni wiedzą najwięcej o firmie i najbardziej skutecznych rozwiązaniach, które należałoby wdrożyć. Menedżer z kolei musi podjąć takie decyzje, aby odpowiedzieć na potrzeby pracowników. Wtedy oni pozbawieni monotonnych, nierozwijających obowiązków będą mogli więcej czasu poświęcić klientom, lepiej przeanalizować ich potrzeby, a w efekcie – więcej zarobić dla firmy.

Czy taka transformacja cyfrowa się opłaca?

Oczywiście, że tak! I nie dlatego, że wyjdzie taniej, ponieważ zlikwidujemy pewne procesy. Tylko dlatego, że będzie drożej. Pracownik, który przestanie się zajmować tymi żmudnymi zadaniami, a zacznie się zajmować czymś, co wnosi wartość dodaną, pozyska nowych klientów, co pozwoli uzyskać wyższe marże. W konsekwencji taki pracownik będzie dla firmy cenniejszy. To spowoduje, że zarządy, bojąc się odejścia tak cennych osób, będą dbać o wysokość ich wynagrodzenia i komfort pracy bardziej, niż robią to obecnie.

Musimy zrozumieć, że nie po to cyfryzujemy organizacje, żeby ciąć koszty. Robimy to, aby uruchomić potencjał naszych ludzi. Mamy wizję, wartości, cele długookresowe, chcemy zmieniać sposób, w jaki działamy. Systemy cyfrowe nas w tym nie wyręczą, mogą tylko dostarczyć inspiracji. Wymyślić to musi człowiek.

Na rynku pracy coraz częściej można znaleźć oferty wymagające od kandydatów umiejętności związanych z data science. Biznes potrzebuje specjalistów w tym zakresie, a uczelnie wychodzą temu wyzwaniu naprzeciw, oferując studia data science i kształcąc m.in. przyszłych inżynierów i analityków danych. Przedstawiamy najciekawsze z nich na polskich uczelniach.

STUDIA DATA SCIENCE I STOPNIA

Modeling and data science – Politechnika Łódzka

Decydując się na ten kierunek, zagłębisz się w świat modelowania komputerowego w oparciu zarówno o dane, jak i fundamentalne reguły rządzące światem. Program pozwala na zdobycie zaawansowanych kompetencji informatycznych oraz wiedzy z zakresu fizyki współczesnej, fotoniki, technologii laserowych i obliczeń kwantowych. Kierunek na Politechnice Łódzkiej prowadzi Wydział Fizyki Technicznej, Informatyki i Matematyki Stosowanej, a po jego zakończeniu otrzymasz tytuł inżyniera. Zajęcia odbywają się w języku angielskim.

Poziom: I stopnia.
Tryb studiów: stacjonarny.
Czas trwania: 4 lata (8 semestrów).
Więcej informacji na stronie.

Data science – Collegium Da Vinci w Poznaniu

Studia data science na Collegium da Vinci obejmują rozwój kompetencji typowo „korporacyjnych” (time management skills, workflow management, autoprezentacja biznesowa) oraz „technicznych” (projektowanie interfejsów graficznych, system zarządzania treścią portali, aspekty funkcjonowania systemów informatycznych, analiza danych). Wybierając ten kierunek, nauczysz się programować oraz obsługiwać i konfigurować informatyczne systemy wspierające proces zarządzania danymi big data.

Poziom: I stopnia.
Tryb studiów: stacjonarny i niestacjonarny.
Czas trwania: 3 lata (6 semestrów).
Więcej informacji na stronie.

Sztuczna inteligencja i data science – Akademia Ekonomiczno-Humanistyczna w Warszawie

Ten kierunek jest dla Ciebie, jeżeli interesujesz się możliwościami sztucznej inteligencji i chcesz rozwijać swoje umiejętności w tym zakresie. Program studiów obejmuje najważniejsze kluczowe obszary informatyki oraz szeroki wybór ścieżek specjalizacyjnych. Cechą szczególną programu realizowanego w AEH jest to, że każdy student ma możliwość wybrania co najmniej 2 specjalności, które chciałby ukończyć. Po zakończeniu kierunku otrzymujesz tytuł inżyniera.

Poziom: I stopnia.
Tryb studiów: stacjonarny i niestacjonarny.
Czas trwania: 4 lata (8 semestrów).
Więcej informacji na stronie.

Data science w ekonomii – Uczelnia Łazarskiego w Warszawie

Tu będziesz mieć szansę, by poznać procesy decyzyjne w przedsiębiorstwach i instytucjach oparte na sztucznej inteligencji. Nauczysz się zarządzać danymi oraz wizualizować dane. Dowiesz się, jak sprostać wyzwaniom i minimalizować zagrożenia związane z cybeprzestępczością. Będziesz nie tylko interpretować, ale także przewidywać procesy zachodzące we współczesnej globalnej gospodarce. Zajęcia prowadzone są przez wykładowców z Wydziału Ekonomii i Zarządzania.

Poziom: I stopnia.
Tryb studiów: stacjonarny i niestacjonarny.
Czas trwania: 3 lata (6 semestrów).
Więcej informacji na stronie.

Inżynieria zasobów informacyjnych data science – Warszawska Wyższa Szkoła Informatyki

Na tej uczelni student będzie miał okazję pracować z takimi technologiami jak: SQL Server Analysis Services, Power BI  i SQL Server Reporting Services oraz Azure Machine Learning. Studenci poznają także języki programowania Python i R w zastosowaniach analizy danych i ich obrazowaniu. Absolwent kierunku otrzymuje tytuł inżyniera.

Poziom: I stopnia.
Tryb studiów: stacjonarny i niestacjonarny.
Czas trwania: brak informacji.
Więcej informacji na stronie.

STUDIA DATA SCIENCE II STOPNIA

Sztuczna inteligencja i data science – Politechnika Częstochowska

W ramach kierunku prowadzone są dwie specjalizacje: sztuczna inteligencja (język polski) oraz computational intelligence and data science (język angielski). Decydując się na ten kierunek, poznasz technologie pozwalające na zarządzanie i analizę danych, nauczysz się programować w Python oraz języku R, a także będziesz pracował z: SQL, MongoDB, scikit-learn oraz TensorFlow. Zajęcia prowadzone są przez wykładowców Wydziału Inżynierii Mechanicznej i Informatyki. Kończąc te studia, otrzymujesz tytuł inżyniera.

Poziom: II stopnia.
Tryb studiów: stacjonarny.
Czas trwania: 1,5 roku (3 semestry).
Więcej informacji na stronie.

Data science – Uniwersytet Wrocławski

Program studiów magisterskich Uniwersytetu Wrocławskiego pozwala na połączenie podstaw matematyki i informatyki. Nauczysz się korzystać z narzędzi takich jak głębokie sieci neuronowe, ale także poznasz podstawy ich działania. Program jest oferowany przez Instytut Informatyki i Instytut Matematyki Uniwersytetu Wrocławskiego. Wymagania wstępne na tym kierunku obejmują podstawy teorii prawdopodobieństwa i statystyki, a także podstawy informatyki. Ponadto udokumentowane kompetencje w zakresie modeli liniowych i sztucznej inteligencji są oczekiwane.

Poziom: II stopnia.
Tryb studiów: stacjonarny.
Czas trwania: 2 lata (4 semestry).
Więcej informacji na stronie.

Data science – Wojskowa Akademia Techniczna w Warszawie

Studia na WAT obejmują różnorodne przedmioty, dzięki którym studenci zapoznają się z podstawami informatyki i językami skryptowymi. Dowiedzą się także, jak powinny wyglądać elementy analizy statystycznej i modelowania danych. Zajęcia prowadzone są w języku angielskim.

Poziom: II stopnia.
Tryb studiów: stacjonarne.
Czas trwania: 1,5 roku (3 semestry).
Więcej informacji na stronie.

Data science – Uniwersytet Marii Curie-Skłodowskiej w Lublinie

Kierunek studiów proponowany przez UMCS łączy wiedzę i umiejętności z zakresu analizy danych, uczenia maszynowego, programowania IT (Python i R) oraz ekonometrii z umiejętnościami miękkimi. Zajęcia prowadzone są przez wykładowców z Wydziału Ekonomii.

Poziom: II stopnia.
Tryb studiów: stacjonarne.
Czas trwania: 2 lata (4 semestry).
Więcej informacji na stronie.

Data science and business analytics – Uniwersytet Warszawski

W tym przypadku poza twardymi przedmiotami informatycznym i analitycznymi program zawiera kursy z zakresu mikroekonomii, makroekonomii, finansów, jak również komunikacji i autoprezentacji, negocjacji czy case-study dla biznesu. Zdobędziesz również wiedzę z zakresu programowania IT (R i Python). Zajęcia odbywają się na Wydziale Nauk Ekonomicznych.

Poziom: II stopnia.
Tryb studiów: niestacjonarne.
Czas trwania: 2 lata (4 semestry).
Więcej informacji na stronie.

Data science – Polsko-Japońska Akademia Technik Komputerowych w Warszawie

Decydując się na ten kierunek studiów, studenci mogą rozszerzyć swoją wiedzę z zakresu statystyki i matematyki, uczenia maszynowego i szeroko rozumianej sztucznej inteligencji. Uczelnia nie zapomniała również o kompetencjach miękkich, takich jak: analiza, myślenie strategiczne, komunikacja, wizualizacja danych, podejmowanie decyzji, praktyczne rozwiązywanie złożonych problemów decyzyjnych, projektowo-biznesowych. Zajęcia odbywają się na Wydziale Informatyki.

Poziom: II stopnia.
Tryb studiów: stacjonarne.
Czas trwania: 1,5 roku (3 semestry).
Więcej informacji na stronie.

Master in big data science – Akademia Leona Koźmińskiego w Warszawie

Ten kierunek cechuje nauczanie analizowania danych poprzez wykorzystanie gier. Studenci mają możliwość korzystania z narzędzia do gier interaktywnych MobLab, które wspiera nabywanie i kształtowanie umiejętności biznesowych, m.in. strategicznego myślenia czy podejmowania decyzji. Decydując się na tę ścieżkę kształcenia, zdobędziesz specjalistyczną wiedzę i umiejętności praktyczne niezbędne do identyfikowania, pozyskiwania, składowania i analizy danych o dużym wolumenie oraz do rozwiązywania problemów z tym związanych poprzez wykorzystanie nowoczesnych metod i narzędzi informatycznych współczesnej analityki. Studia odbywają się w języku angielskim, a liderem kierunku jest prof. ALK dr hab. Aneta Hryckiewicz-Gontarczyk.

Poziom: II stopnia.
Tryb studiów: stacjonarne i niestacjonarne (online).
Czas trwania: 2 lata (4 semestry).
Więcej informacji na stronie.

STUDIA DATA SCIENCE PODYPLOMOWE

Data science – Politechnika Warszawska

Studia są przeznaczone dla osób chcących wykorzystywać wiedzę zawartą w dużych wolumenach danych w celu wspierania podejmowania decyzji, w szczególności dla analityków i decydentów z obszaru finansów, bankowości, ubezpieczeń, produkcji, marketingu, handlu, usług, opieki zdrowotnej, branży energetycznej, nauki i innych obszarów działalności.

Poziom: studia podyplomowe.
Tryb studiów: niestacjonarne.
Czas trwania: 2 lata (4 semestry).
Więcej informacji na stronie.

Data science i big data w zarządzaniu – Akademia Leona Koźmińskiego w Warszawie

Uczestnicy tego kierunku zdobędą wiedzę na temat analizy danych w oparciu o zaawansowane metody data science, a także umiejętności ich wykorzystywania w podejmowaniu skuteczniejszych decyzji biznesowych. Poznają również konkretne narzędzia business intelligence i wizualizacji danych. Dodatkowo dowiedzą się, jak zaplanować i skutecznie zrealizować transformację firmy w organizację opartą na danych (data-driven business), a także jak zorganizować i zarządzać niezbędną infrastrukturą. Kierownikiem studiów jest mgr inż. Marcin Choiński.

Poziom: studia podyplomowe.
Tryb studiów: niestacjonarne.
Czas trwania: 1 rok (2 semestry).
Więcej informacji na stronie.

Data scientist. Analityk danych – Wyższa Szkoła Bankowa w Gdańsku

Wybierając ten kierunek studiów, weźmiesz udział w zajęciach m.in. z zakresu: podstaw statystyki z wykorzystaniem R/Python, SQL, zaawansowanych metod wizualizacji, algorytmów głębokiego uczenia maszynowego. Kierownikiem kierunku jest Krzysztof Ziółkowski.

Poziom: studia podyplomowe.
Tryb studiów: niestacjonarne.
Czas trwania: 1 rok (2 semestry).
Więcej informacji na stronie.

Data science, analiza danych – Dolnośląska Szkoła Wyższa we Wrocławiu

Czego się nauczysz, wybierając ten kierunek studiów? Przede wszystkim zagłębisz się w tajniki programowania językiem Python, nauczysz się korzystać z języka SQL, dowiesz się jak wykorzystywać moduł obliczeniowy R i NumPy, a także określisz swoją ścieżkę kariery i skomponujesz swoje CV podczas konsultacji z tutorem i specjalistą z działu HR.

Poziom: studia podyplomowe.
Tryb studiów: niestacjonarne, online.
Czas trwania: 1 rok (2 semestry).
Więcej informacji na stronie.

Full-stack data science program – Akademia Finansów i Biznesu Vistula w Warszawie

Program obejmuje kursy z zakresu analizy danych (data analytics), programowania Python, wizualizacji danych, zastosowania uczenia maszynowego (applied machine learning) i uczenia głębokiego (deep learning), a także seminaria i praktykę rozmów kwalifikacyjnych. Zyskasz wiedzę z zakresu najnowszych technologii i przygotowanie do wejścia na rynek pracy. Zajęcia prowadzone są w języku angielskim.

Poziom: studia podyplomowe.
Tryb studiów: niestacjonarne, online.
Czas trwania: 1 rok (2 semestry).
Więcej informacji na stronie.

Analiza danych, data science – Akademia Górniczo-Hutnicza w Krakowie

AGH swoim programem studiów podyplomowych objęła rozwój w zakresie analizy danych, data science czy big data. Znajdziesz tu też elementy statystyki, programowania w wybranych językach, które są wykorzystywane w przetwarzaniu i analizie danych: R, SQL, Python. Kierownikiem studiów jest dr inż. Robert Marcjan.

Poziom: studia podyplomowe.
Tryb studiów: niestacjonarne.
Czas trwania: 1 rok (2 semestry).
Więcej informacji na stronie.

Uczenie maszynowe i data science – Uniwersytet Ekonomiczny w Katowicach

W tym przypadku uczelnia duży nacisk kładzie na poznanie algorytmów uczenia maszynowego i ich zastosowania do przetwarzania, analizy oraz wizualizacji danych. Jednak nie zabraknie także zajęć z zakresu sztucznej inteligencji, analizy danych, programowania w języku Python, narzędzi ETL oraz SQL, a także praktycznych zastosowań technologii chmurowych.

Poziom: studia podyplomowe.
Tryb studiów: stacjonarne.
Czas trwania: 1 rok (2 semestry).
Więcej informacji na stronie.

Najpierw była teoria, począwszy choćby od Einsteina. Przez długi czas kosmologia była nauką bliską filozofii. Natomiast dane, które pozwoliły te teorie przetestować, pojawiły się znacznie później. Rozwój data science w astrofizyce sprawił, że dziś możemy badać galaktyki, które są miliardy lat świetlnych od nas. Bez większego problemu dowiadujemy się o zjawiskach, które jeszcze do niedawna wydawały nam się niewyobrażalne mówi profesor Maciej Bilicki, astrofizyk z Polskiej Akademii Nauk.

Dr hab. Maciej Bilicki jest pracownikiem Centrum Fizyki Teoretycznej Polskiej Akademii Nauk. Bilicki zajmuje się kosmologią obserwacyjną, stosowaniem uczenia maszynowego do analizy dużych zbiorów danych astronomicznych, a także wykorzystaniem data science w astrofizyce. Bada strukturę wielkoskalową wszechświata i galaktyki, których światła używamy do poznawania jego własności. Interesuje go rozmieszczenie materii w największych skalach kosmicznych i wpływ tej materii na rozchodzenie się światła zarówno wyemitowanego przez galaktyki, jak i pochodzącego z najwcześniejszych epok wszechświata.

Astrofizyka i innowacje. Jak długo trwa ten mariaż technologiczny?

Analiza danych przy wykorzystaniu m.in. algorytmów sztucznej inteligencji pojawiła się w astrofizyce ok. 20 lat temu. Pierwsze próby z rozpoznawaniem obrazów prowadzone przez firmy czy ośrodki naukowe pokazały, że podobnie jak w przypadku innych zdjęć można klasyfikować np. obrazy galaktyk. Oczywiście wymagało to odpowiednich mocy obliczeniowych. Musiało minąć kilka lat, aż wykorzystanie tych technologii można było wdrożyć w pełnym wymiarze. Podobnie było z procesami deep learning, które na początku wydawały się mało skuteczne w analizie wszechświata. Dziś wielu naukowców nie wyobraża sobie swojej pracy naukowej bez narzędzi deeplearningowych.

W jakim zakresie praca z danymi jest konieczna dla astrofizyka?

Astrofizyka to nie tylko nauka obserwacyjna – ma również dużą część teoretyczną. Można być astrofizykiem i nie pracować z danymi. Ba, nauka o całym wszechświecie – kosmologia – zaczęła się od zupełnie teoretycznych badań. Na początku nie było obserwacji i naukowcy matematycznie wyliczyli, co się dzieje we wszechświecie w największych skalach.

Dziś obserwator kosmosu to rzadko jest ktoś, kto bezpośrednio patrzy przez teleskop. Chyba że dla przyjemności. Dziś astrofizyk obserwacyjny korzysta z danych dostarczanych przez zespoły naukowe, teleskopy z obserwatoriów, stacje kosmiczne. Dzięki danym z tych źródeł tworzy modele, które są podstawą interpretacji wszechświata i praw nim rządzących. Ja zajmuję się strukturą wszechświata w największych skalach, czyli setki milionów lat świetlnych od Ziemi.

I jak wygląda wszechświat od strony wykorzystania data science w astrofizyce?

W kosmologii mamy teoretyczne wyobrażenie odnośnie do tego, jak wszechświat powinien wyglądać, czyli jak powinny być rozmieszczone galaktyki. Te dane pozyskaliśmy właśnie dzięki metodom analitycznym, a nie stricte matematycznym. Dzięki symulacjom komputerowym możemy dodatkowo weryfikować uprzednie obserwacje i badać rozkład galaktyk w przestrzeni. Za sprawą nowych metod analizy danych mamy też do czynienia z wieloma niespodziankami.

O! Jakie to niespodzianki?

Naukowcy od lat wiedzą, że wszechświat się rozszerza. Począwszy od Wielkiego Wybuchu, galaktyki się od siebie oddalają. Wydawało się do lat 90., że ten proces powinien spowalniać, ponieważ galaktyki mają masę, a więc przyciągają się grawitacyjnie. A jak wiemy, grawitacja działa tylko przyciągająco, w przeciwieństwie do elektryczności, która może też odpychać ładunki jednoimienne.

Tymczasem obserwacje na podstawie analizy danych wskazują na to, że ekspansja wszechświata w ostatnich kilku miliardach lat przyspiesza. Oznacza to, że galaktyki zaczynają się od siebie oddalać coraz szybciej. Interpretujemy to jako tzw. ciemną energię.

Czy wiemy już, czym jest ciemna energia?

Obecnie to jedna z większych zagadek, której fizyka teoretyczna nie może wyjaśnić. Możemy to sobie matematycznie zapisać, choć w praktyce ten zapis nic nie mówi. Ale istnieje duża szansa, że w końcu zrozumiemy to dzięki analizie danych. Na razie innowacje w astrofizyce przyspieszają wykorzystanie nowoczesnych urządzeń, takich jak np. zaawansowane technologicznie teleskopy.

A z jakich narzędzi korzysta astrofizyk, jeśli chodzi o dane?

Nasza praca w dużej mierze polega na kompresji danych, co oznacza, że nie tyle je pozyskujemy, ile przetwarzamy. Z teleskopów dostajemy tzw. katalogi, które zawierają nie tylko zdjęcia, ale też pomiary widma, czyli spektrum elektromagnetycznego. To nasze główne źródło informacji o galaktykach. Końcowym efektem pracy data scientisty – kosmologa jest zazwyczaj tabela, która zawiera miliony, a nawet miliardy wierszy. Każdy wiersz to galaktyka, a w każdej kolumnie jest informacja o różnych właściwościach tych galaktyk. Oczywiście upraszczam to na potrzeby naszej rozmowy.

Co zyskujemy dzięki takim tabelom?

Dają m.in. informacje o jasności galaktyki, miejscu na niebie, rozmiarach kątowych, odległościach galaktyk. Oczywiście tabele nie docierają do nas w formie plików tekstowych, są kompresowane w postaci formatów binarnych, żeby można je było łatwiej wykorzystać. Nadal jednak mamy do czynienia z terabajtami danych. Z tabel próbujemy wyciągnąć własności statystyczne rozkładu galaktyk, m.in. mierząc to, jak galaktyki się gromadzą.

Gromadzą?

Galaktyki nie są rozmieszczone na niebie losowo. Jeśli spojrzymy na wszechświat, to galaktyki rozłożone są nie w postaci szumu, ale grupują się w określony sposób ze względu na grawitację. I to grupowanie jest zależne od tego, jaką ma właściwość wszechświat w tych największych skalach, którymi się zajmuję.

Staramy się mierzyć statystyki tego grupowania, korelacje między położeniami galaktyk, a później wyciągnąć z tych statystyk parametry naszego modelu kosmologicznego. Do tego używamy narzędzi statystycznych, takich jak wnioskowanie bayesowskie, które pozwala aktualizować co jakiś czas posiadaną wiedzę, bazując na nowych obserwacjach. Później budujemy wielowymiarowy model, z którego pomocą próbujemy znaleźć najlepsze dopasowanie do tych danych. Dlatego np. obliczenia prawdopodobieństw w wielowymiarowej przestrzeni nie da się zrobić na laptopie.

Gdzie w astrofizyce jest miejsce na sztuczną inteligencję?

Sztuczna inteligencja pojawia się tam, gdzie dane są już bardzo duże. Każda galaktyka ma ileś różnych cech – są galaktyki spiralne, eliptyczne. Jeśli np. chcemy oddzielić w modelu jedne od drugich, to z pomocą przychodzą algorytmy sztucznej inteligencji. I nie możemy już tego zrobić za pomocą przeglądania zdjęć z kosmosu, tak jak jeszcze kilkadziesiąt lat temu.

A co ze szkiełkiem i okiem naukowca?

Oczywiście to nie znaczy, że sztuczna inteligencja całkowicie zawładnęła tą dziedziną i już nic innego nie robimy. Cały czas używamy wiedzy fizycznej. Sztuczna inteligencja ma swoje ograniczenia – np. w sytuacji, gdy pojawiają się tzw. czarne skrzynki (z ang. black box), które utrudniają interpretację uzyskanych wyników.

W astrofizyce mamy do czynienia z danymi obserwacyjnymi, ale też sztucznymi. Czym jest ta druga kategoria?

Nauka o kosmosie jest bardzo nietypową dziedziną w porównaniu z innymi naukami przyrodniczymi. W zasadzie nie możemy robić kontrolowanych eksperymentów. To znaczy, że nie zbudujemy sobie wszechświata na żywo i nie sprawdzimy parametrów pod wpływem jakichś czynników. W przeciwieństwie do eksperymentów fizycznych.

Kosmosu, a nawet tych najbliższych obiektów, zwyczajnie nie da się badać w taki sposób. Nie mówiąc już o obszarach, do których nie docierają żadne sondy. Mamy do nich bardzo odległy wgląd, a do całego wszechświata jeszcze dalszy. Dlatego musimy próbować tworzyć modele, którymi będzie można sterować. Realizujemy to poprzez symulacje numeryczne. Budujemy w ten sposób model wszechświata w największych skalach. Następnie bierzemy pod uwagę parametry fizyczne, które znamy z prawdziwego wszechświata, adaptujemy je do modelu i możemy otrzymać potrzebne wyniki. W ten sposób otrzymujemy sztuczne dane, choć są one wysoce prawdopodobne.

W jakim celu tworzy się takie dane?

Wszechświat zmienia się w czasie, więc możemy śledzić ewolucję jego modelu od dawniejszych etapów do dzisiaj. Nawet to, co się stanie w przyszłości. Możemy też zmieniać parametry i określać różne własności wszechświata, symulować je. Nawet właściwości grawitacji, które znamy z badań. To pozwala tworzyć sztuczne katalogi galaktyk, dzięki którym opisujemy, jak wyglądałby wszechświat, gdyby miał inne parametry. Dzięki tym danym weryfikujemy też nasze wcześniejsze teorie. Nie ma innego sposobu na bezpośrednie zbadanie galaktyk. Zrobimy to tylko poprzez symulację sztucznymi danymi.

Data science w astrofizyce zapewne oznacza bardzo zaawansowaną pracę z danymi. Czy to powoduje, że czuje się Pan również data scientistą?

Po części tak. Z biegiem lat nauka i biznes coraz bardziej się przenikają. Na co dzień obserwuję przepływ naukowców do firm, w tym też astrofizyków do data science. Wiele osób decyduje się na pójście ścieżką inną niż stricte naukowa. Co istotne, osoby te świetnie się odnajdują w sektorze komercyjnym, ponieważ często mają odpowiednie doświadczenie w pracy z danymi w obszarze szeroko pojętych nauk o kosmosie. Jednak osobiście staram się nie tracić z pola widzenia swoich naukowych „korzeni”. Przede wszystkim jestem fizykiem czy astrofizykiem.

Jakie przełożenie na Pana pracę mają innowacje technologiczne?

Postrzegam data science jako narzędzie. Dla naukowców ma ono charakter praktyczny, bo pomaga np. zrozumieć zmiany zachodzące w przestrzeni kosmicznej. Swoim współpracownikom czy studentom nie proponuję pracy nad rozwijaniem projektów w obszarze data science. Polecam jednocześnie, aby korzystać z działających już na rynku rozwiązań do ułatwiania swojej pracy.

Jednak również sięganie po data science w astrofizyce nie daje pewności co do tego, jak wygląda wszechświat…

Trzeba robić jakieś upraszczające założenia, żeby badać wszechświat. Przy obecnych możliwościach technologicznych nie da się stworzyć idealnie odwzorowanych modeli w jak najmniejszej skali. Musimy przyjąć pewne założenia, z którymi się wszyscy zgadzają. Mówię tu o ogólnych własnościach wszechświata. Przyjmujemy, że w każdej galaktyce te własności są w miarę podobne, a prawa fizyki są wszędzie takie same, choć nie możemy tego sprawdzić. Te założenia wykorzystujemy w modelach służących do analizy danych, ale też do numerycznych symulacji. Jeżeli jednak założenie jest błędne, to nie wyciągniemy z danych prawidłowej odpowiedzi.

Dane nie są odpowiedzią na wszystko. Czego wykorzystanie data science w astrofizyce nie pozwala zrozumieć za ich pomocą?

Przykładem jest choćby grawitacja, którą rozumiemy dobrze tu, na Ziemi, w Układzie Słonecznym, a nawet w różnych sytuacjach ekstremalnych typu zderzające się czarne dziury. W tych przypadkach wszystko się zgadza z naszymi teoriami. Powstaje jednak pytanie, czy w największych kosmicznych skalach grawitacja również jest taka, jak nam się wydaje. Jeżeli nie, to wtedy nasze modele okażą się nieprawdziwe. Wtedy nie dostaniemy prawidłowych odpowiedzi o wszechświecie. I nie pomogą w tym nawet najlepsze komputery.

Jak Pan widzi przyszłość data science w astrofizyce?

Przede wszystkim badania o wszechświecie będą się rozwijały w obszarze komercyjnym. Spójrzmy na biznes kosmiczny i takie koncerny jak SpaceX. Analiza ogromnej ilości danych potrzebuje odpowiedniego finansowania. Dlatego duże firmy technologiczne z czasem będą mogły sobie pozwolić na większe i skuteczniejsze wykorzystanie pewnych rozwiązań.

Będą także tworzone narzędzia, których nie byłyby w stanie wypracować małe zespoły naukowe na uczelniach. Na zasadzie outsourcingu zapewne będzie można z nich korzystać tak, jak to działa dziś w przypadku rozwiązań aplikacyjnych typu Google Cloud czy Dropbox. Będą się też rozwijać narzędzia wykorzystywane przez astrofizyków w data science, takie jak TensorFlow, GitHub czy PyTorch.

A co z analizą danych w badaniu kosmosu?

Jeśli chodzi o wykorzystanie pewnych rozwiązań, to tutaj biznes przegonił naukę. Jedno jest jasne – ambitne plany, które są związane z obserwacjami, będą wymagać innowacyjnych narzędzi. Na przykład w Chile aktualnie jest budowane Obserwatorium Very Rubin obejmujące potężny teleskop, który będzie badał ogromne wycinki nieba przez dziesięć lat. Tym samym każdego dnia będzie dostarczał terabajty danych. Nie będzie możliwości technicznych, aby te dane z serwerów pobrać. To wiadomo już dziś.

Druga kwestia to złożoność tych danych. Będą one aktualizowane każdej nocy, a to oznacza zmienność obiektów i ich parametrów. To jest ogromne wyzwanie dla nauki. Pojawią się tysiące  alertów, że coś się dzieje na niebie, i nie da się ich w żaden sposób analizować czy klasyfikować tradycyjnymi metodami. Trzeba będzie wypracować różne metody filtrowania tych alertów, aby decydować, co jest ważne, a co nie. Stąd zaawansowane technologie i algorytmy sztucznej inteligencji będą konieczne do tego typu zadań.

Czyli nie wyobraża sobie Pan pracy astrofizyka bez danych?

Kosmologia należy do nauk przyrodniczych, nawet jeżeli nie możemy powtarzać pewnych eksperymentów. Chcemy zrozumieć, co się dzieje w prawdziwym świecie, więc dane są absolutnie kluczowe.

Najpierw była teoria, począwszy choćby od Einsteina. Przez długi czas kosmologia była nauką bliską filozofii. Natomiast dane, które pozwoliły te teorie przetestować, pojawiły się znacznie później. Rozwój data science w astrofizyce sprawił, że dziś możemy badać galaktyki, które są miliardy lat świetlnych od nas. Bez większego problemu dowiadujemy się o zjawiskach, które jeszcze do niedawna wydawały nam się niewyobrażalne.

Udostępnij link

https://www.datasciencerobie.pl/data-science-w-astrofizyce-daje-wiedze-o-wszechswiecie/