Artykuły w serwisie - Data Science robię

W ubiegłym roku w branży IT w Polsce przybyło ponad 8% ogłoszeń o pracę. Jednak w drugiej połowie 2022 liczba ofert już spadała. Jak wyglądają zarobki analityków na stanowiskach data science? Sprawdzamy raport No Fluff Jobs.

Zestawienie „Rynek pracy w IT w 2022 roku” wyszczególnia cztery stanowiska z obszaru pracy z danymi: analityk biznesowy oraz specjaliści AI, big data i business intelligence. Zarobki analityków, o których piszemy poniżej, dotyczą minionego roku i są prezentowane w kwotach netto+VAT w przypadku współpracy B2B oraz brutto, jeśli chodzi o umowę o pracę. Wartości to mediany (nie średnie) sum proponowanych przez przedsiębiorców.

Zarobki analityków biznesowych

Początkujący analitycy biznesowi mogli liczyć na 6,5–10 tysięcy złotych, jeśli prowadzili własne firmy i 6–9,6 tys. w sytuacjach, gdy byli zatrudniani na umowy o pracę. Średniozaawansowani na etacie zarabiali od 10 do 15 tys. złotych – w tym przypadku górna wartość stanowiła jednocześnie dolną dla kontraktów B2B, które sięgały nawet 21 tysięcy złotych. Wynagrodzenia dla seniorów współpracujących na zasadach business-to-business mieściły się w przedziale 16,8–22,7 tys. złotych. Na warunkach pracowniczych nowo zatrudniani eksperci analizy biznesowej zarabiali od 12,4 do 18 tysięcy złotych.

Seniorzy big data mogą liczyć na 30 tysięcy złotych

Wyższe wynagrodzenia przedsiębiorcy przewidywali dla osób specjalizujących się w przetwarzaniu dużych i złożonych zbiorów danych. Juniorzy big data, zależnie od formy współpracy, otrzymywali od 7 do 12,6 tysiąca złotych. Zarobki tzw. midów (specjalistów) na kontraktach B2B wynosiły od 16,8 do 24 tysięcy złotych, zaś zatrudnionych na umowy o pracę – od 13,5 do 20 tysięcy. Seniorzy big data w przypadku umowy o pracę mogli liczyć na 16,5 – 24 tys. zł, a jeśli prowadzili własne firmy — na 21,8 – 30 tysięcy złotych.

Wypłaty specjalistów w zakresie AI

W raporcie brakuje danych na temat zarobków analityków, na stanowiskach juniorskich w dziedzinie sztucznej inteligencji. Natomiast pracownicy z większym doświadczeniem dostawali w 2022 roku od 15,5 do 25 tysięcy na B2B i od 12 do 19 tysięcy w przypadku umów o pracę. Wypłaty seniorów AI na etatach sięgały 22 tysięcy złotych, natomiast eksperci sztucznej inteligencji z własnymi firmami zarabiali od 20 do 27,4 tysiąca złotych.

Jak kształtują się zarobki analityków w business intelligence?

Adepci przekształcania informacji w wiedzę przydatną biznesowi zarabiali w przedziale 6,7–10 tysięcy złotych na B2B oraz 6–8 tysięcy na etacie. Wysokość wypłat bardziej doświadczonych pracowników zaczynała się na poziomie 12,5 tys. zł i kończyła na 22 tysiącach. Jak w pozostałych przypadkach, najwięcej (25–28 tys.) zarabiali seniorzy na kontraktach B2B. Jeśli decydowali się na umowy o pracę, ich pensje opiewały na 25–20 tysięcy złotych.

W 2022 roku ogłoszeń było więcej, ale tylko w pierwszej połowie roku

Liczba ogłoszeń o pracę w ubiegłym roku była wyższa o ponad 8% w porównaniu z rokiem poprzednim. Jednocześnie widocznie więcej ofert publikowano w pierwszej części roku. Jak zauważają autorzy publikacji, powodem niespotykanego wcześniej spadku liczby ofert od lipca, były m.in. sytuacja ekonomiczna i doniesienia z Zachodu o „hiring freeze”, czyli ograniczeniu lub całkowitym wstrzymaniu procesów rekrutacyjnych.

Kogo najczęściej szukały firmy?

Pracodawcy poszukiwali zwykle midów — dotyczyła ich ponad połowa ofert. Kolejni byli seniorzy — 27%. Propozycje skierowane do juniorów stanowiły 19,8% i choć kolejny raz najmniej doświadczeni pracownicy mieli najmniejszy wybór, to warto odnotować, że to i tak o 12 p.p. więcej niż w 2021. Około 50% ogłoszeń można było przypisać do jednej z trzech głównych kategorii związanych z programowaniem, tj. backendu, frontendu lub fullstacku. Mimo że ich ogólny udział nie jest tak imponujący, znaczące wzrosty odnotowały takie dziedziny, jak wsparcie techniczne (+58%), big data (+39%) i analiza biznesowa (+17%). Autorzy raportu zauważają, że dwie ostatnie domeny od kilku lat odnotowują wzrosty.

IT w Polsce

Według danych Polskiego Instytutu Ekonomicznego, w Polsce brakuje 150 tysięcy specjalistów IT — przy założeniu, że chcemy dorównać średniej unijnej (4,5% wszystkich pracujących). Co istotne, luka nie maleje, choć w branży z roku na rok pracuje coraz więcej osób — w ostatniej dekadzie liczba zatrudnionych wzrosła o 192 tysiące osób. Niedobory zatrudnionych w IT chce wypełnić 21% zatrudnionych w innych sektorach — wynika z badania firmy ARC Rynek i Opinie, przeprowadzonego na zlecenie Enter The Code. To osoby, które deklarują przebranżowienie w ciągu 3 lat. Zmiany zawodu nie wyklucza dodatkowe 39% respondentów, jednak nie są oni pewni perspektywy realizacji planów.

O raporcie

Informacje pochodzą z raportu pt. „Rynek pracy w IT w 2022 roku”, przygotowanego przez No Fluff Jobs — serwis z ofertami pracy w branży IT. Publikacja została opracowana na podstawie ogłoszeń zamieszczanych w portalu. Każdy wpis dodawany tam przez pracodawców musi zawierać widełki płacowe.

— Jeżeli nie mamy zaufania do danych, a planujemy je wykorzystać do podejmowania decyzji, najprawdopodobniej otworzymy puszkę Pandory, co skończy się katastrofą — przestrzega Jarosław Smulski z IDC.

Jarosław Smulski pracuje jako Senior Program Manager w IDC Poland. Od wielu lat analizuje rynek IT, prowadzi zaawansowane badania wertykalne, segmentuje modele wydatków IT i tworzy opracowania typu go-to-market. Znajomość technologii wykorzystuje również w projektach doradczych. Oprócz tego upowszechnia wiedzę na temat nowych trendów i strategii, takich jak internet rzeczy, przemysł 4.0 czy smart city. Jest członkiem Grupy Roboczej ds. Internetu Rzeczy przy Kancelarii Prezesa Rady Ministrów.

Powiedziałby pan, że przemysł 4.0 już istnieje?

Wszystko zależy, czy rozmawiamy z polskimi firmami, czy międzynarodowymi korporacjami, które realizują w Polsce testowe rozwiązania, często dla całej organizacji. W drugim przypadku łatwiej o takie przeświadczenie, ponieważ przedsiębiorstwa te mają odpowiednie pieniądze i dostęp do wysokiej klasy specjalistów. Można powiedzieć, że te firmy są blisko realizacji celu, jakim jest przemysł 4.0.

A polskie firmy?

Niewątpliwe cyfryzacja mocno przyśpieszyła w trakcie pandemii, także w firmach produkcyjnych w naszym kraju. Nadal jednak polskie przedsiębiorstwa mają sporo do nadrobienia. Problem jest choćby taki, że produkcja stosunkowo późno zaczęła podlegać globalnemu procesowi cyfryzacji. Dlatego brakuje często zrozumienia, jakie korzyści przynoszą przemysłowi nowoczesne rozwiązania. Niestety dla wielu przedstawicieli branży produkcyjnej informatyka to nadal back office. Dział, który ma spełniać rolę służebną dla innych operacji i działań.

Czyli dziś jesteśmy bliżej przemysłu 3.5 niż 4.0?

Zdecydowanie tak, choć nie wykluczam tu jeszcze niższego poziomu w niektórych obszarach. Co prawda czasem słyszymy, że jesteśmy już w tej fazie 3.5, ale może chcemy być tak postrzegani? A tymczasem, jeśli popatrzymy na otaczającą nas rzeczywistość, jest ona mniej optymistyczna.

To może wynikać z konkretnych modeli biznesowych? Wiele branż nie widzi ograniczeń w tym zakresie.

Nie powiedziałbym, że to kwestia specyfiki jakiejś branży — już szybciej rozmiarów firmy i odpowiednich budżetów. Niezależnie, czy to będzie przemysł wydobywczy, czy spożywczy, wyzwania dla nich są mniej więcej zbliżone. Oczywiście każdy rodzaj produkcji ma swoją specyfikę. Jednak największym wyzwaniem w polskim przemyśle jest zrozumienie pilnej potrzeby digitalizacji. I to z uwzględnieniem strategii cyfrowego rozwoju produkcji, ale w oparciu o dane.

Dane są podstawą całego procesu cyfryzacji. Rozumiem, że pozostaje pytanie, jak je skutecznie wykorzystać w przemyśle?

Podstawowym problemem jest to, aby nie zdigitalizować i nie zinformatyzować bałaganu. A z takim mamy w wielu firmach do czynienia. W jednym z wywiadów w serwisie “Data Science robię” na temat smart city (“Dane jako paliwo dla rozwoju nowoczesnych miast”) pada stwierdzenie garbage in, garbage out. I w tym jednym haśle zawarte jest to, z czym borykają się dziś firmy przemysłowe w Polsce. Przedsiębiorstwa, które nie mają jeszcze w pełni opomiarowanych linii produkcyjnych, z reguły kupują sprzęt, np. sensory IoT, które można łatwo podłączyć do sieci i w ten sposób zbierać dane. Niestety problemem jest ogromna silosowość informacji, technologiczny bałagan, różne formaty zapisu. Dlatego okiełznanie tej stajni Augiasza może być kolejnym potężnym wyzwaniem dla firm produkcyjnych. W przeciwnym razie nie będzie możliwe zrobienie następnego kroku, czyli stworzenie tzw. data lake’ów, czyli przestrzeni, gdzie dane, pochodzące z różnych źródeł, są w miarę ustandaryzowane. A to warunek dla powstawania i uczenia modeli AI, które chcielibyśmy wykorzystywać do podejmowania decyzji biznesowych opartych na danych.

W przemyśle wiele danych pozyskiwanych jest bezpośrednio z linii produkcyjnej. Ale inaczej jest już w branży finansowej. Jakie to ma znaczenie?

Zdecydowanie czym innym jest analizowanie danych, które są od dekad zbierane przez systemy informatyczne, a czym innym jest otwieranie się na dane, które dopiero zaczynamy zbierać. Dlatego dodawanie do systemu danych bezpośrednio z produkcji może generować dla firm poważne problemy. Tym bardziej że w przemyśle mamy do czynienia z rozdzieleniem świata automatyki od IT. Powodem takiego stanu rzeczy bywa czasem kwestia bezpieczeństwa czy kultury korporacyjnej. Co więcej, dziś wiele firm nadal analizuje dane rozłącznie, a dopiero później łączy je za pośrednictwem jednego interfejsu. Pozostaje kwestia, jak długo jesteśmy w stanie utrzymać podobny model. Natomiast firmy, które scalają automatykę przemysłową i informatykę, przynajmniej próbują zasysać te dane z operacji i produkcji do systemów analitycznych. Pełna analiza danych ze wszystkich źródeł jest niezbędna dla budowy modeli tzw. bliźniaków cyfrowych. Niestety w tej chwili niewiele korporacji jest gotowych, żeby wprowadzać pełną digitalizację całego procesu produkcyjnego, bo wiąże się to z analizą ogromnej liczby danych. A tylko pełne odzwierciedlenie tych wszystkich procesów, które istnieją w firmie, pozwala w pełni wykorzystać zalety digital twin.

Jak zatem firmy podchodzą dziś do analizowania swoich danych?

Z jednej strony możemy zasysać te dane, które mamy, chociażby z linii produkcyjnej czy maszyn i na ich podstawie opracowywać określone modele. Taka analityka predykcyjna jest prosta do zobrazowania dla działów operacyjnych firmy. Umożliwia wykazanie szybkiego zwrotu z inwestycji. Jeśli wiemy, ile kosztuje nas awaria danej maszyny czy linii produkcyjnej, uniknięcie jej pozwala nam zaoszczędzić określoną sumę pieniędzy. To tzw. wyspowe podejście, bardzo pragmatyczne, które pozwala obniżać koszty, np. ograniczyć zużycie prądu w trakcie produkcji. Mamy w konsekwencji optymalizację, ale ta nie przekłada się na pełną digitalizację działania firmy. Czymś innym jest analiza danych. Jej wartość była doskonale widoczna podczas zarządzania procesami w momencie zawirowań w łańcuchach dostaw, z którymi mieliśmy do czynienia w trakcie i po pandemii, a także w momencie wybuchu konfliktu w Ukrainie. Wtedy analiza danych stała się bardzo istotna dla przemysłu. Wiele firm produkcyjnych zaczęło zwracać na to baczną uwagę, doinwestowywało działy, które odpowiadają za analizę danych czy zaczęło korzystać z odpowiednich rozwiązań.

Co z wykorzystaniem sztucznej inteligencji?

Po to robimy procesy konsolidacji, czyszczenia, zbierania informacji, aby w pewnym momencie użyć algorytmów, które będą wyławiały pewne schematy. Stworzyć system samouczący, który umożliwi podejmowanie lepszych decyzji, to jest zakładana strategia chyba w każdym tego typu modelu. Przemysł nie ucieka od sztucznej inteligencji. Zbieranie danych wyłącznie po to, aby je posiadać, nie ma żadnego sensu. To następny krok, jeden z wielu, kiedy mamy wdrożoną strategię transformacji cyfrowej. Niestety, jeśli wprowadzamy zmiany ad hoc, bez odpowiedniego przygotowania, wszystko jest chaotyczne. Wtedy nie unikniemy błędów, silosów danych i cały proces migracji do cyfrowego modelu będzie bardzo utrudniony. A w takim scenariuszu użycie sztucznej inteligencji może przynieść więcej kosztów niż zysków.

Dwa żywioły — biznes i IT — da się pogodzić?

Problemem jest kwestia, kto tak naprawdę jest posiadaczem danych z punktu widzenia procesów biznesowych. Czy już IT, czy w dalszym ciągu działy operacyjne? Jeżeli IT, to jest większa szansa, że zostaną one wyczyszczone i uporządkowane. Natomiast jeśli dane będą nadal w działach biznesowych, w zasadzie będzie to wiązało się z bezczynnością. Powiedzmy sobie prawdę, działy operacyjne nawet nie dotykają pewnych systemów działających w firmie, z powodu braku wiedzy. W wielu fabrykach jest tak, że tzw. wiedza instytucjonalna odchodzi z ostatnim pracownikiem, który tworzył konkretny system.

Mamy więc szereg wyzwań dla przemysłu. Pandemia pokazała potrzebę lepszego zarządzania procesami oraz to, że przemysł 4.0 jest naprawdę potrzebny.

Trzeba przede wszystkim zrozumieć, że przemysł 4.0 to nie są komputery, serwery czy systemy ERP. Należy zmienić podejście na data driven business. Podejmujemy decyzję w oparciu o dane, następnym krokiem jest automatyzowanie procesów podejmowania decyzji po to, aby wyeliminować czynnik ludzki tam, gdzie on jest zbyteczny. Niezbędne są też modele, w których decyzje podejmują algorytmy, a człowiek tylko nadzoruje, czy wszystko idzie we właściwym kierunku. Dlatego tak istotne jest, aby dane były rzeczywiście wiarygodne, całościowe, aby eliminować zafałszowania, co dotyczy też danych zbieranych przez sensory. Jeżeli nie mamy zaufania do danych, a planujemy je wykorzystać do podejmowania decyzji, otworzymy puszkę Pandory i w efekcie może dojść do katastrofy.

W jakim stopniu jesteśmy w stanie zaufać procesowi zbierania danych? Przecież wystarczy, że jakaś liczba sensorów IoT straci zasilanie i już otrzymujemy całkowicie inny odczyt danych.

Jeżeli się nie zorientujemy i nie mamy systemu zarządzania tymi sensorami, który będzie sprawdzał na bieżąco wszelkie awarie czy wyczerpanie baterii, to dane, które będziemy zbierali dadzą nam całkowicie fałszywy obraz sytuacji. Co z tego, że nasze decyzje w oparciu o dane będą prawidłowe z punktu widzenia logiki działania algorytmu, skoro będą całkowicie błędne, ponieważ nie odzwierciedlą rzeczywistości? Jeżeli natomiast zabraknie systemu do zarządzania bezpieczeństwem IoT, może to doprowadzić do poważnego zagrożenia dla działania całej firmy.

Wskazuje Pan na poważne ryzyka związane z zaufaniem do technologii. To zagrożenie dla cyfryzacji sektora produkcyjnego?

Generalnie ludzi z przemysłu charakteryzuje bardzo daleko posunięty pragmatyzm i konserwatywne podejście do nowinek technicznych. Wynika to z faktu, że błędy mogą przekładać się na ogromne straty. Nie mówiąc już o zagrożeniach dla bezpieczeństwa pracowników a nawet dla bezpieczeństwa strategicznego państwa. Nie spodziewam się, że firmy zaczną podejmować pochopne decyzje czy decydować się na drogę na skróty lub podejmowanie ryzykownych działań. Proszę pamiętać, że w przemyśle, w firmach produkcyjnych wszystko podlega drobiazgowym audytom. Dodatkowo, sektor przemysłowy dosyć chętnie korzysta z usług zewnętrznych konsultantów i ich wiedzy. Decyzje o informatyzacji procesów są i będą podejmowane racjonalnie.

Mówiliśmy sporo o problemach. A jakie pan widzi wyzwania dla tej branży związane z procesami cyfryzacyjnymi?

Fundamentalna jest kwestia, jak obecnie działające technologie wykorzystać skutecznie w przemyśle. Nie ma wątpliwości, że problemem jest dostępność na rynku odpowiednich specjalistów. Mówię o analitykach, o data scientistach. Trzeba zdecydować, czy nasze dane będziemy przetwarzać u siebie, czy w chmurze. Czy jesteśmy wystarczająco dużą organizacją, aby budować własne działy analityki danych? W jaki sposób ułożyć współpracę między biznesem i IT?

I jak firmy podejdą do tych wyzwań?

Przemysł jest dobrze zarządzany. Wszelkie strategie, które zostały wprowadzone do tej pory, poddano intensywnym stress testom w momencie pandemii. Powtarzam często hasło, którego autorem jest Tomasz Haiduk (wieloletni manager w Siemensie, prezes Forum Automatyki i Robotyki Polskiej – red.), że w produkcji skończyły się czasy księgowych, a zaczęły czasy ludzi, którzy zajmują się zawodowo ryzykiem. Dziś bezpieczeństwo w przemyśle to nie tylko cyberbezpieczeństwo, ale przede wszystkim bezpieczeństwo procesów zarządzania produkcją, bezpieczeństwo danych, czy choćby to finansowe. Dlatego szczególnie ważne jest wdrażanie w tych obszarach strategii cyfrowej odporności. Wydaje mi się, że jeśli firmy będą czerpały z podobnych wzorców, mamy dobry przepis, aby uniknąć podejmowania zbyt ryzykownych decyzji. Gwałtownie rosnąca ilość projektów pozwala nam jednak z pewnym optymizmem patrzeć w przyszłość. Wierzę, że procesy budowy cyfrowych modeli zarządzania produkcją będą powstawały w najbliższym czasie w szybkim tempie, co przełoży się nie tylko na dalszą optymalizację procesów produkcji, ale również poprawi odporność całych łańcuchów wartości w gospodarce.

W najbliższych miesiącach legislatorzy skoncentrują się na kwestii praw autorskich, które dotyczą zbiorów używanych do trenowania algorytmów uczenia maszynowego. Przyjrzą się też kwestii otwartości danych. Z kolei organizacje staną przed koniecznością dostosowania rozwiązań do kształtujących się regulacji. Dodatkowo, zależnie od branży, zmierzą się z koniecznością analizy danych w czasie rzeczywistym, modelowaniem wirtualnej rzeczywistości oraz poszukiwaniem ekspertów wyspecjalizowanych w analizie danych medycznych.

Przedsiębiorstwa z roku na rok wytwarzają coraz więcej danych, czego nie można ignorować, decydując się na prowadzenie działalności gospodarczej. Eksploracja danych na temat procesów biznesowych i odkrywanie wzorców zachowań klientów stanowią klucz do sukcesu rynkowego. Rozwój e-commerce sprawił, że dane spływają z wielu źródeł: klient może zarówno odwiedzać stacjonarną placówkę sklepu, jak i robić zakupy w aplikacji mobilnej czy na stronie internetowej. Analiza takich informacji, jak historia zakupów bądź upodobania danej osoby, jest już standardem. Teraz wyzwaniem dla analityków, działów IT i właścicieli lub menadżerów firm stało się wykorzystanie danych tu i teraz poprzez badanie zachowań konkretnych osób oraz grup konsumentów, aby w najwłaściwszym momencie zaproponować im produkty i usługi.

Wychwycenie właściwych sygnałów z szumu jest możliwe, o ile przepływ informacji w organizacji działa dobrze i został zsynchronizowany z procedurami. To niełatwe, ponieważ często wymaga transformacji całego przedsiębiorstwa. Niekorzystnym zjawiskiem, na które szczególnie trzeba zwrócić uwagę, są tzw. silosy danych, czyli obszary, które przetwarzają informacje tylko we własnym zakresie i nie dzielą się nimi z innymi częściami organizacji. Silosy stoją często na drodze pomiędzy klientem a odpowiednio szybką reakcją. W najbliższym czasie możemy spodziewać się, że likwidowanie silosów danych i wprowadzanie kultury organizacyjnej skupionej na prawidłowym korzystaniu z informacji będzie istotnym elementem różnicującym firmy, czy to w kwestii zysku, czy lojalności klientów.

Będą nowe przepisy

W 2022 roku głośnym echem w mediach odbiły się informacje na temat algorytmów przetwarzania obrazów oraz tekstów. Sztuczna inteligencja na podstawie słów kluczowych tworzy ilustracje, które trudno odróżnić od prac zawodowych grafików, a także teksty, które po sprawdzeniu i przeredagowaniu można udostępnić na firmowym blogu. Artyści i copywriterzy mają uzasadnione podstawy do obaw, że w przyszłości algorytmy przejmą ich rolę. Zagrożone mogą być szczególnie te obszary działalności, które nie są zbyt wymagające. Generatory tekstu, jak ChatGPT OpenAI, już teraz nie najgorzej sprawdzają się w podobnych zadaniach — tworzą opisy produktów, a generatory grafik w ciągu kilku sekund są w stanie zaproponować ilustracje do książek lub gier planszowych.

Wątpliwości jednak budzą kwestie praw autorskich do tego typu utworów, co będzie przedmiotem debat wśród przedstawicieli szeroko pojętej branży kreatywnej oraz polityków. Chociaż sprawa nie doczekała się jeszcze oficjalnego stanowiska Parlamentu Europejskiego, ani amerykańskiego Kongresu, możemy się spodziewać, że prędzej czy później pojawią się odpowiednie regulacje w zakresie wykorzystania zbiorów do trenowania algorytmów. Wyzwaniem dla ekspertów data science i organizacji będzie śledzenie nowych przepisów i samych projektów, by szybko reagować na potencjalne zmiany i dostosowywać swoje rozwiązania. Brak działań z wyprzedzeniem może prowadzić do zamykania innych projektów.

Demokratyzacja data science?

Demokratyzacja data science to kolejny aspekt, w którym regulatorzy, mając na względzie konkurencyjność zachodniej gospodarki, odegrają ważną rolę. Tempo rozwoju zależy m.in. od wiedzy, analizy danych i zaawansowania algorytmów uczenia maszynowego. Aby utrzymać je na odpowiednim poziomie, trzeba zbudować otoczenie prawne, które zapewnia większy dostęp do otwartych zbiorów danych. Także przedsiębiorcy coraz częściej zdają sobie sprawę z faktu, że przewagi konkurencyjnej nie da się osiągnąć, jeśli chronią swoje dane i algorytmy za wszelką cenę, bo sukces zależy od otwarcia się na nowe rozwiązania i pomysły. Jak wynika z badań instytutu McKinseya, organizacje, które udostępniają dane wszystkim swoim pracownikom, 40 razy częściej dochodzą do przekonania, że analityka ma pozytywny wpływ na zysk.

Zaawansowana analiza obrazów na potrzeby VR i AR

Wspomniane wcześniej generowanie obrazów na podstawie słów kluczowych to dopiero początek tego, do czego może w przyszłości zostać wykorzystane uczenie maszynowe. Kolejnym etapem rozwoju tej dziedziny będzie zaprzęgnięcie algorytmów do tworzenia realistycznych scen 3D na podstawie dwuwymiarowych zdjęć i obrazów. Wyzwaniem dla programistów i inżynierów data science w tym obszarze będzie opracowanie narzędzi do używania modeli generowanych w ten sposób — w urządzeniach wirtualnej i rozszerzonej rzeczywistości. Pierwsze rozwiązania tego typu już istnieją. Warto wspomnieć algorytm NeRF (ang. Neural Radiance Field) opracowany przez naukowców z UC Berkeley oraz UC San Diego we współpracy z Google Research. Narzędzie pozwala na tworzenie modeli 3D na podstawie serii dwuwymiarowych zdjęć i jest dostępne w serwisie GitHub, a przykładowe zastosowania można obejrzeć na stronie projektu.

Poszukiwani bioinformatycy

W ostatnich miesiącach wyraźnie rośnie zapotrzebowanie na ekspertów w zakresie bioinformatyki. Ta dziedzina pozostaje jedną z najbardziej innowacyjnych i perspektywicznych, a analiza danych medycznych może przynieść korzyści zarówno firmom z sektora medycznego, jak i pacjentom. Z danych zebranych przez Foote Partners wynika, że w ostatnich miesiącach 2022 roku na rynku pojawiło się bardzo duże zapotrzebowanie na ekspertów specjalizujących się w dziedzinie bioinformatyki. Zarobki specjalistów tej branży w ciągu zaledwie pół roku wzrosły prawie o 19%. Według szacunków Acumen Research and Consulting, sektor bioinformatyki wart jest obecnie ponad 12 miliardów dolarów, a do 2030 roku przekroczy wartość 46 miliardów dolarów. Największy rozwój tej dziedziny widać w Stanach Zjednoczonych. Zastosowanie algorytmów sztucznej inteligencji do analizy danych medycznych pomoże opracowywać nowe leki i terapie, a także diagnozować choroby na wczesnym etapie rozwoju, dzięki czemu lekarze będą mogli skuteczniej leczyć pacjentów.

Warto przy tym odnotować, że poszukiwanie ekspertów oraz odpowiednie przydzielenie ról w zespołach data science to wyzwanie nie tylko bioinformatyczne. W najbliższym czasie będą się z nim borykały wszystkie organizacje, które dążą do efektywnego wykorzystania danych.

— Julia łączy w jednym dwie rzeczy. Można tworzyć wysokowydajne i skalowalne modele, a równocześnie praca z tym językiem jest równie prosta, jak z popularnymi językami w rodzaju R czy Pythona — przekonuje prof. Bogumił Kamiński ze Szkoły Głównej Handlowej w Warszawie.

Profesor Bogumił Kamiński specjalizuje się w obliczeniowych naukach społecznych, badaniach operacyjnych i zarządzaniu ilościowym. Interesuje go stosowanie metod obliczeniowych w ekonomii, finansach i zarządzaniu. Jest autorem książki pt. “Julia for Data Analysis”. Na SGH kieruje Zakładem Wspomagania i Analizy Decyzji.

Na czym polega dziś rola analityki decyzyjnej w biznesie?

W życiu podejmujemy wiele decyzji — często intuicyjnie lub na bazie jakiegoś doświadczenia. Jednak czasem mamy do podjęcia decyzję ważną, jak np. w biznesie, która może przesądzić o być lub nie być firmy. Kluczowe jest zrozumienie, w jaki sposób podejmujemy tę decyzję. Należy zauważyć, że człowiek nie zawsze decyzję podejmuje dobrze, czasem nasze wybory są niespójne. Nawet jeśli chcielibyśmy postępować w sposób uporządkowany i systematyczny, to natłok informacji, które mamy do przetworzenia, jest tak duży, że przekracza nasze możliwości percepcyjne. I tu pojawia się analityka decyzyjna. Żeby rozwiązać problem, mamy zestaw metod i narzędzi, które pomagają podejmować decyzje w sposób racjonalny i efektywny.

A jakie jest miejsce danych w procesie decyzyjnym?

Jeśli mamy sytuację decyzyjną i chcemy decydenta w tej sytuacji wspomóc, po pierwsze musimy stworzyć model sytuacji, który będzie ją w adekwatny sposób opisywał. Dopiero kiedy ten model stworzymy, jednym z jego komponentów będą dane. Wyobraźmy sobie, że musimy podjąć decyzję o projekcie nowo budowanego lotniska. Od razu widać, że jest to niezwykle złożony proces. Mamy szereg czynników i zmiennych, które trzeba brać pod uwagę. Podstawą budowy modelu matematycznego będzie zrozumienie, jakie są kryteria w podejmowaniu decyzji, na czym nam zależy. Tym samym pojawia się funkcja celu. Następnie definiujemy warunki ograniczające, czyli w jakim zakresie możemy się poruszać, a trzecia rzecz to zmienne decyzyjne, czyli o czym mogę decydować.

Jak ustrukturyzujemy problem, jednym z elementów, aby to lotnisko dobrze zaprojektować będą dane. Jednak nie jest efektywne rozpoczynanie jego rozwiązywania od danych. Punktem wyjścia powinno być dobre zdiagnozowanie i opisanie na poziomie jakościowym, a potem na poziomie matematycznym problemu decyzyjnego, który chcemy rozwiązać. Dane są jednym z komponentów, które potem wykorzystamy do wsparcia dobrego podejmowania decyzji. Myślenie to jest, dla przykładu, wyraźnie zawarte w metodyce CRISP-DM, która podkreśla, że pierwszym etapem procesu analitycznego powinno być zrozumienie uwarunkowań biznesowych.

W jakich obszarach w firmach używa się analityki decyzyjnej?

Każda firma przed implementacją jakiegoś rozwiązania analitycznego patrzy przede wszystkim pod kątem kosztów i korzyści. Takie narzędzia i metody są przez firmy stosowane zazwyczaj w sytuacjach, w których skala oczekiwanych korzyści uzasadnia, żeby ponosić koszt związany z wdrożeniem i późniejszym utrzymaniem tego typu rozwiązań. Niezależnie od branży, zaawansowana analityka jest wykorzystywana przez firmy coraz powszechniej. Ciekawym trendem jest tworzenie tzw. cyfrowych bliźniaków, czyli digital twins.

Pozwolę sobie zilustrować go na przykładzie polskiego startupu VersaBox, który oferuje roboty przemysłowe dla firm produkcyjnych. Maszyny zastępują pracę ludzką i oczywiście dysponują modelami analitycznymi, które sterują ich działaniem. Natomiast klient, zanim jeszcze zdecyduje się na zakup rozwiązania do swojej fabryki, chce sprawdzić, czy mu się to opłaca. VersaBox ma symulator, który potrafi wirtualnie odwzorować fabrykę i ocenić, jak robotyzacja procesów wpłynie na efektywność funkcjonowania danego przedsiębiorstwa.

Wykonanie bliźniaka wirtualnego jest dużo tańsze, szybsze i bezpieczniejsze niż podejmowanie decyzji w ciemno. W wielkiej skali, jak w przypadku projektowania lotnisk, o którym wspomniałem wcześniej, tworzenie cyfrowych bliźniaków to obecnie standard. Natomiast zwiększenie dostępności efektywnych narzędzi analitycznych, z którym mamy do czynienia w ostatnich latach, powoduje, że coraz częściej takie podejście jest obecne również w mniejszych przedsiębiorstwach.

Jak rozumiem, postęp technologiczny obniżył barierę wejścia dla firm?

Zdecydowanie tak. Proszę zauważyć, że wszystkie technologie, o których dziś piszemy czy mówimy, nie są nowe. Wiele rozwiązań stosujemy od dziesiątków lat. Natomiast to, co się zmienia, to koszt ich wykorzystania. To, co było w przeszłości zarezerwowane dla największych inwestycji, coraz częściej jest dostępne już dla wielu przedsiębiorstw. Próg rentowności znacznie się obniżył, pozwalając większej liczbie podmiotów na korzystanie z innowacji. A koszt warto rozpatrywać w dwóch aspektach. Pierwszym z nich jest bezpośredni koszt wykorzystania tworzonego rozwiązania, np. koszt licencji czy serwerów. Natomiast drugim aspektem są bariery w zakresie umiejętności opracowania takiego rozwiązania. Obecnie na rynku jest coraz więcej analityków, którzy potrafią nie tylko wykorzystać proste, gotowe modele dostępne np. jako pakiety w językach Python czy R, ale również stworzyć bardziej złożone specjalne rozwiązanie. Jak wynika z mojej praktyki, biznes, poczynając od firm średniej wielkości, czyli ok. 100 mln zł przychodów, wykorzystuje w jakimś zakresie analitykę decyzyjną. Oczywiście mniejsze przedsiębiorstwa też, wszystko zależy od ich specyfiki. Jeśli jest to biznes cyfrowy, analityka adaptowana jest dużo szybciej.

W ostatnich miesiącach wielu analityków emocjonuje się tym, że światowi giganci technologiczni tworzą wielkie modele generatywne. I rzeczywiście dziś jest wąska grupa ekspertów, która jest w stanie to zrobić, ponieważ ma dostęp do dostatecznie dużych zasobów, które jej to umożliwiają. Jednak w mojej ocenie, tworzenie pionierskich rozwiązań na poziomie światowym nadal pozostaje poza zasięgiem przeciętnej firmy. Natomiast należy się spodziewać, że wykorzystanie praktyczne gotowych rozwiązań będzie coraz bardziej powszechne.

A jakie są ryzyka? Gdzie analityka decyzyjna może się nie sprawdzić?

Widzę wyzwania dwojakiego rodzaju. Eksperci zaczynają wykorzystywać analitykę decyzyjną w coraz większym stopniu, niemal masowo. Do tego potrzeba dwóch rzeczy — po pierwsze, musimy wiedzieć, jak ją dobrze robić, a po drugie, musimy mieć dostęp do danych i technologii, które pozwolą nam analizować efektywnie. O pierwszym aspekcie już wspomniałem — najczęstszym błędem jest realizacja projektu analitycznego bez odpowiedniego zrozumienia potrzeb biznesowych. Co do drugiego aspektu, często jest tak, że analitycy tworzą rozwiązanie prototypowe, które działa w środowisku developerskim, natomiast pojawiają się duże wyzwania związane z jego wdrożeniem produkcyjnym, często wręcz kończące się na tym, że wstępnie stworzone rozwiązanie musi zostać przepisane w innej technologii na potrzeby wdrożenia. Środowisko analityków stara się realizować te cele poprzez wypracowanie dobrych praktyk, zwanych MLOps (red. ang. Machine Learning Operations), które mają pomóc uniknąć podobnych sytuacji.

Panie profesorze, w książce „Julia for Data Analysis” przekonuje pan, że ten język programowania może być przyszłością analityki. A co z Pythonem?

Większość prostych rozwiązań analitycznych wykorzystywanych w biznesie jest raczej standardowa. W takiej sytuacji nie ma wielkiego znaczenia, czy tworzę proste modele w języku Julia, Python czy R. We wszystkich tych technologiach standardowe, proste modele są dostępne i łatwe do wykorzystania.

Kiedy zatem data scientist powinien sięgnąć po język Julia, zamiast R czy Pythona?

Jak już wspomniałem, coraz częściej tworzone przez firmy rozwiązania analityczne są bardzo złożone. Z jednej strony ilość kodu, który trzeba napisać, aby powstało takie rozwiązanie, powiększa się. Jest to bezpośrednia konsekwencja złożoności od strony logiki takiego rozwiązania analitycznego. Z drugiej strony, złożone rozwiązania napotykają na barierę wydajności. Potrzebujemy większych środowisk obliczeniowych do tego, aby te obliczenia realizować, szczególnie jeśli przechodzimy od rozwiązania prototypowego do produkcyjnego.

Zilustruję to zagadnienie przykładem firmy Timeline, którą jakiś czas temu wspomagałem w migracji jej rozwiązania do języka Julia. Jedną z usług, które firma oferuje, jest tworzenie symulacji finansowych dla portfela inwestycji jej klientów, które są dostępne on-line przez przeglądarkę. Jak łatwo się domyślić, klienci, po wysłaniu zapytania o wykonanie analizy, nie lubią długo czekać na odpowiedź. Przed przeniesieniem rozwiązania do języka Julia system potrzebował około 40 sekund na wykonanie wszystkich wymaganych obliczeń. Po zakończeniu projektu migracyjnego czas ten spadł do 0,6 sekundy. Dodatkowo firma zauważyła, że wykorzystanie języka Julia wymagało mniejszej ilości kodu oraz ułatwiło komunikację między zespołami developerskim i wdrożeniowym, ponieważ komponenty tworzone przez analityków można po przetestowaniu od razu wdrażać produkcyjnie. Przedstawiciele firmy wskazują, że pozwoliło to oszczędzić wiele tysięcy dolarów w samym procesie wytworzenia oprogramowania.

Mówi Pan o złożonej architekturze, a jak Julia sprawdza się w prostszych środowiskach?

Często kiedy koledzy mówią mi, że do wykonania jakiegoś projektu stawiają Sparka na klastrze obliczeniowym, to różnica jest taka, że ja na Julii jestem w stanie analogiczne zadanie wykonać na laptopie, o ile będę miał dostęp do przetwarzanych danych. Oczywiście w Pythonie te zadania również da się wykonać, jednak często analityk stoi wtedy przed dylematem: albo wybrane komponenty systemu będą tworzone w innym języku, np. w C++, i Python będzie je tylko wywoływał, albo wymagane jest tworzenie środowisk o znacznie bardziej złożonej architekturze. Taka złożona architektura niesie za sobą nie tylko koszt zarządzania nią, ale również bezpośredni wyższy koszt samego sprzętu i energii elektrycznej, które są niezbędne, aby je uruchamiać. Zagadnienie to ilustruję we wstępie do książki „Julia for Data Analysis”. Większość podstawowych pakietów tworzonych dla Pythona nie jest pisana w tym języku z powodów wydajnościowych. Inaczej jest w języku Julia, gdzie analogiczne pakiety są również pisane w Julii.

Może Pan podać przykład tego rodzaju wdrożenia?

Dr Przemysław Szufel z SGH wprowadził w firmie Kross rozwiązanie służące optymalizacji produkcji rowerów. Ze względu na bardzo dużą skalę procesu zdecydowano się na skorzystanie z języka Julia. Rozwiązanie pozwala na bardzo wydajne planowanie i optymalizację procesu. Udało się to zrobić w krótkim czasie, na w miarę małym środowisku obliczeniowym. Bazując na moim doświadczeniu, muszę stwierdzić, że w innych technologiach koszt i czas, stworzenia i wdrożenia produkcyjnego finalnego rozwiązania byłby znacznie większy.

Atrakcyjność Pythona charakteryzuje się dużą dostępnością bibliotek. Jak jest w przypadku Julii?

Dowolna biblioteka, która jest dostępna w Pythonie, jest też w Julii. Każdy data scientist z poziomu Julii może bardzo łatwo wywoływać biblioteki zarówno pythonowe, jak i r-owe, jeśli ma taką potrzebę. Łatwość integracji jest jedną z istotnych zalet języka Julia, która bywa niezauważana przez osoby, które dopiero go poznają.

Jak Pan Profesor wyobraża sobie przyszłość wykorzystywania analityki decyzji w biznesie?

Generalny trend, który widzę, a który jeszcze 10 lat temu nie był tak mocno zauważalny, to coraz większe wykorzystywanie wspomnianych wcześniej digital twins. Oczywiście analityka, tak dziś, jak i w przyszłości będzie wykorzystywana na bardzo różne sposoby. Jednak coraz więcej firm się orientuje, że aby dobrze wspomagać podejmowanie decyzji, nie wystarczy zrobić punktowy model, który będzie prognozował jedną zmienną, i już mamy zagadnienie analityczne rozwiązane. Nie wystarczy, aby przedsiębiorstwo handlowe prognozowało sobie np. tylko popyt i na podstawie tej prognozy realizowało procesy operacyjne. Firma oczywiście potrzebuje prognoz popytu, ale potrzebuje także zoptymalizować zatowarowanie, transport czy grafiki pracy. Aby te wszystkie komponenty działały efektywnie, powinny być zintegrowane w jeden ekosystem analityczny. A zatem przedsiębiorstwa będą chciały tworzyć rozwiązania, które w sposób kompleksowy zamodelują proces biznesowy i pozwolą go optymalizować oraz prowadzić analizy scenariuszowe.

2023 rok rozpoczyna się ciekawymi inicjatywami przygotowanymi z myślą zarówno o ekspertach, jak i nowicjuszach nauki o danych. W ramach Akademii Młodych Talentów studenci i absolwenci uczelni technicznych mogą przekonać się, jak wygląda praca data scientisty. A podczas Hakatonu stawią czoła społecznym i biznesowym wyzwaniom.

Akademia Młodych Talentów jest bezpłatnym programem edukacyjnym. Stanowi propozycję dla osób z kierunków technicznych (szczegóły rekrutacji można znaleźć niżej), które chcą poszerzyć wiedzę w dziedzinie analizy danych. Uczestnicy poznają m.in. Data Integration Studio, czyli środowisko, które służy do zarządzania procesami integracji danych z różnych źródeł. Nauczą się programować w językach 4GL, SQL i Macro oraz łączyć pisany w nich kod. Słuchacze Akademii dowiedzą się także, jak efektywnie przetwarzać dane i wydobywać z nich wiedzę potrzebną w biznesie. A wszystko przy wsparciu specjalistów SCS Expert, przedsiębiorstwa konsultingowego, które od lat zajmuje się analityką i zarządzaniem danymi. Firma w swoich projektach korzysta z rozwiązań SAS oraz z aplikacji otwartoźródłowych.

Dlaczego warto spróbować sił w Akademii Młodych Talentów?

Uczestnicy przede wszystkim zyskają wiedzę pod kątem pierwszych kroków na drodze do wyspecjalizowania się w dziedzinie analityki danych. Przystąpią też do egzaminów zakończonych uznawanym na świecie certyfikatem. Najlepsi dostaną propozycję pracy przy projektach SAS w Polsce i na świecie, a najlepsi z najlepszych (troje absolwentów) otrzymają nagrody. Szkolenie pozwala zdobyć dokument SAS Certified Specialist: Base Programming Using SAS 9.4, poświadczający znajomość zagadnień związanych z tworzeniem struktur danych, zarządzania danymi, obsługą błędów i przygotowywaniem raportów.

W Akademii Młodych Talentów mogą wziąć udział studenci i studentki 3, 4 i 5 roku studiów informatycznych bądź technicznych, a także absolwenci, jednak pod warunkiem, że mury uczelni opuścili maksymalnie dwa lata wcześniej. Wymagane umiejętności to: dobra znajomość języka zapytań SQL i jednego z języków programowania (np. Pythona, C, C++ czy Javy). Dodatkowo, niezbędny jest język angielski. Kandydaci muszą być gotowi do uczestniczenia w szkoleniach prowadzonych od 13 do 24 lutego, a później, w czasie roku akademickiego, powinni jeszcze wygospodarować co najmniej 96 godzin miesięcznie (3/5 etatu). Udział w szkoleniu i certyfikaty mogą zmienić perspektywy zawodowe. Zgodnie z badaniami Pearson VUE, pracownicy w branży IT, którzy podnoszą kompetencje, dostają podwyżki w ciągu kilku miesięcy od zakończenia kursu. Szersze informacje o najnowszej edycji Akademii Młodych Talentów są w serwisie pracuj.pl.

Masz pomysł na użycie danych, by zmienić świat?

Wkrótce wystartuje też Hakaton SAS, podczas którego programiści, studenci, startupy oraz firmy zyskają szansę urzeczywistnienia pomysłów na poprawę świata lub biznesu. Zarówno początkujący, jak i specjaliści data science, od 15 marca będą mieli miesiąc, żeby wykorzystać dane i specjalistyczne narzędzia do opracowania rozwiązań, które następnie wprowadzą na rynek albo wdrożą we własnych organizacjach. W wydarzeniu będą rywalizowały zespoły złożone z 2-10 osób. Zgłoszenia na stronie Hakatonu są przyjmowane do 28 lutego. Aplikować mogą członkowie i liderzy już dobranych zespołów oraz śmiałkowie, którzy chcą dołączyć do jednej z tworzących się grup. Uczestnicy z całego świata dostaną podczas rywalizacji wsparcie merytoryczne ekspertów. Zyskają także dostęp do wirtualnych laboratoriów edukacyjnych, szkoleń i innych materiałów niezbędnych do wprowadzenia koncepcji w życie. Co istotne, nie trzeba mieć doświadczenia z narzędziami SAS – posługujący się na co dzień takimi językami, jak R czy Python, poradzą sobie bez problemu. 15 kwietnia, kiedy Hakaton zakończy się, jury rozpocznie głosowanie. W czerwcu poznamy zespoły nagrodzone w poszczególnych regionach i branżach, a zwycięski zespół – we wrześniu, podczas wydarzenia SAS Explore: An Analytics Experience for Technologists.

Do ubiegłorocznej edycji Hakatonu zgłosiło się 1300 osób z 75 krajów. Ostatecznie nad innowacjami dla biznesu i społeczeństwa pracowało 70 zespołów, których członkowie reprezentowali łącznie 135 organizacji. Ponad 2/3 grup poświęciło czas w Hakatonie, żeby rozwiązać realne problemy w przedsiębiorstwach. Wśród dotychczasowych laureatów konkursu są takie zespoły, jak War On Cancer, który skupił się na rozwiązaniach mających służyć zdrowiu psychicznemu pacjentów onkologicznych, LangTech, który dokumentuje rdzenne języki Kamerunu, jak również JAKSTAT, za sprawą którego w Indonezji powstała platforma optymalizująca pomoc dla małych firm w trakcie pandemii. Z kolei Innova Data Hub, zespół z Hiszpanii, skoncentrował się na usprawnieniu – z pomocą modelowania predykcyjnego – madryckiej usługi wypożyczania rowerów.

Hakaton SAS stara się pokazać, że odpowiednie wykorzystanie danych potrafi wesprzeć wiele obszarów życia. Tymczasem dziś tylko 21 proc. osób między 16 a 24 rokiem życia potrafi analizować dane. Według Data Literacy Project, mniej niż ¼ pracowników sprawnie porusza się w świecie cyfrowych informacji.