– Przenoszenie algorytmów na pokład satelity, łazika czy landera, musi się wydarzyć, a w zasadzie to już się dzieje. Rozwój tych technologii w kosmosie będzie kluczowy i
powszechny. Jako KP Labs staramy się przenieść tę autonomiczność na różnym
poziomie abstrakcji w kosmos, żeby móc efektywniej, łatwiej, bezpieczniej i lepiej
eksplorować przestrzeń – informuje dr hab. inż. Jakub Nalepa.

Dr hab. inż. Jakub Nalepa, profesor Politechniki Śląskiej w Katedrze Algorytmiki i Oprogramowania oraz szef działu AI w KP Labs, zajmuje się fundamentalnymi i praktycznymi wyzwaniami związanymi ze sztuczną inteligencją, od lat łącząc świat nauki i przemysłu. Koncentruje się na klasycznym i głębokim uczeniu maszynowym, analizie i przetwarzaniu danych – zwłaszcza satelitarnych i medycznych – oraz rozwiązywaniu złożonych problemów optymalizacyjnych. Laureat prestiżowej Nagrody im. Witolda Lipskiego (2017) oraz Nagrody Naukowej Tygodnika Polityka (2020), w 2021 r. nominowany do The AIconics Award (AI Solutions Provider Innovator of the Year, The AI Summit, Londyn).

Algorytmy w przestrzeni kosmicznej. Dla niektórych może to brzmieć bardzo abstrakcyjnie. Na czym więc polega Wasza praca w KP Labs?

W KP Labs kompleksowo zajmujemy się misjami satelitarnymi. Firma tworzy komponenty w postaci np. algorytmów, oprogramowania i sprzętu, które umożliwiają wdrożenie takich misji w życie. Jeśli chcemy wysłać satelitę w przestrzeń kosmiczną, to potrzebny jest nie tylko hardware i software, ale także wszystkie algorytmy, które przetwarzają dane. Osobiście zajmuję się częścią algorytmiczną, w której główny akcent kładziemy na sztuczną inteligencję, a algorytmy tworzymy w ścisłej współpracy z agencjami kosmicznymi: europejską, kanadyjską oraz z NASA.

Jakie konkretnie rozwiązania przygotowujecie?

Jednym z filarów działalności KP Labs dotyczącej sztucznej inteligencji i przetwarzania danych jest analiza obrazów – to mogą być obrazy barwne, multispektralne, hiperspektralne. Ten ostatni przypadek to specyficzny rodzaj danych, w których rejestrujemy obraz w wielu długościach fali elektromagnetycznej. Nie wchodząc w szczegóły, dzięki pozyskaniu większej ilości danych, również we fragmentach spektrum poza obszarem światła widzialnego, możemy „zobaczyć” to, co jest niewidoczne gołym okiem. W tym celu tworzymy szeroki wachlarz algorytmów. Za pomocą klasycznych metod wstępnie przygotowujemy surowe dane i tworzymy z nich trójwymiarową kostkę danych, aby móc je dalej przetworzyć z wykorzystaniem metod sztucznej inteligencji.

Czyli kluczowa jest wieloetapowa analiza danych. Dlaczego?

Należy pamiętać, że sam proces akwizycji danych i zrobienie zdjęcia dzieje się w środowisku ekstremalnym, w przestrzeni kosmicznej, i jest różny od tego, który może odbywać się na Ziemi, np. w związku z różnymi warunkami atmosferycznymi.  Warto pamiętać, że dane satelitarne mogą być „zaszumione”. Szumy, związane z warunkami zewnętrznymi, czy charakterystyką poszczególnych komponentów sprzętowych, możemy modelować jeszcze na Ziemi. Dzięki temu przygotowujemy się na ich pojawienie i uodporniamy na nie nasze algorytmy analizy danych. 

Analiza danych i ich oczyszczenie z szumów to jedno. Jednak tworzycie też algorytmy, które same tworzą potrzebne dane.

W KP Labs tworzymy również algorytmy, których celem jest poprawa jakości obrazów, na przykład z wykorzystaniem metod tzw. rekonstrukcji nadrozdzielczej. Przeprowadza się ją po to, aby zwiększyć rozdzielczość przestrzenną obrazów. Wyobraźmy sobie, że satelita robi zdjęcie konkretnego obszaru, w którym długość boku jednego piksela odpowiada np. 50 metrom. Niekoniecznie w ramach tak dużego obszaru jesteśmy w stanie znaleźć obiekty, które są niewielkie, a bardzo nam potrzebne w procesie analizy danych w niektórych praktycznych zastosowaniach. Możemy poprawiać rozdzielczość przestrzenną obrazów z wykorzystaniem np. jednego obrazu i to jest tzw. jednoobrazowa rekonstrukcja nadrozdzielcza lub wielu obrazów, które zostały pozyskane dla tego samego obszaru Ziemi i są na przykład delikatnie przesunięte względem siebie. Wykorzystując przeróżne techniki fuzji danych możemy stworzyć jeden obraz, który jest dużo lepszej jakości. 

Jakie informacje można pozyskać w ten sposób?

Jeśli korzystamy z algorytmów zainstalowanych w satelicie, skalowalność takiego rozwiązania jest ogromna. Korzystając z danych hiperspektralnych, możemy analizować parametry i stan gleby na wskazanym zdjęciu, śledzić obiekty, statki na morzach, analizować pożary, oceniać powierzchnię i stan lasów. Zastosowań „downstreamowych” jest dużo, wielu z nich jeszcze nie znamy i dopiero poznajemy. Jeżeli chcemy robić to skutecznie i efektywnie, trzeba mieć algorytmy do analizowania trudnych i wysokowymiarowych danych. W KP Labs tworzymy algorytmy oparte na sztucznej inteligencji. Korzystamy zarówno z klasycznego, jak i głębokiego uczenia maszynowego. Często te algorytmy są generyczne i bardzo szybko możemy je dostosować do nowego problemu z zakresu obserwacji Ziemi. 

Powiedział Pan, że algorytmy działają z poziomu satelity. Dlaczego nie analizujemy ich z Ziemi?

Gdybyśmy chcieli wysłać dane hiperspektralne z satelity, żeby przetworzyć je na Ziemi, to należy pamiętać, że jest ich bardzo dużo, a przesył jest kosztowny. Dlatego jednym z naszych celów jest przeniesienie algorytmów na pokład satelity, aby szybko i skutecznie przetworzyć dane i wysłać konkretną informację do użytkownika. Chcemy, żeby „mózg”, czyli algorytm do analizy danych był blisko „oczu” – sensora pozyskującego dane obrazowe.

Tworzycie algorytmy, które pozwalają na przetwarzanie obrazów. Ale KP Labs pracuje też nad analizą sygnałów z przestrzeni kosmicznej. 

To prawda, w KP Labs opracowujemy też algorytmy do analizy satelitarnych danych telemetrycznych, które są seriami czasowymi. Naszym celem jest detekcja anomalii, czyli sytuacji niespodziewanych, które wydarzyły się lub dzieją się na pokładzie satelity. Dzięki wykorzystaniu tego typu algorytmów możemy szybciej podjąć akcję zaradczą czy naprawczą. Idziemy w stronę uruchamiania takich technik na pokładzie jednostek wysyłanych w kosmos, żeby nie trzeba było wysyłać całych danych telemetrycznych na Ziemię i ich analizować przed podjęciem decyzji. 

Czy to oznacza, że algorytmy do analizy satelitarnych danych telemetrycznych nie działają na Ziemii?

Oczywiście, że działają. Wszystkie algorytmy, jakie mamy, możemy uruchomić na Ziemi i możemy przykładowo przetworzyć dane historyczne. Tak naprawdę algorytmy są tworzone na Ziemi – często są dostosowywane do wymagań i charakterystyki docelowej platformy sprzętowej, ale możemy je uruchomić na zwykłym, ziemskim sprzęcie.

Jakie są już dziś praktyczne zastosowania, w których możemy wykorzystać algorytmy tworzone w KP Labs? 

W tym momencie skupiamy się na analizie gleby. Nasze rozwiązanie zostanie wykorzystane na pokładzie satelity tworzonego przez KP Labs – Intuition-1. Będą to algorytmy, które mają za zadanie zlokalizować konkretne obszary glebowe, a następnie wyznaczyć parametry i właściwości gleby w tych obszarach, np. jej kwasowość. Drugim przykładem jest detekcja anomalii w danych telemetrycznych. Uruchomiliśmy niedawno algorytm detekcji anomalii na prawdziwym satelicie, który już działa. Chodzi o satelitę OPS-SAT, który jest nazywany latającym laboratorium Europejskiej Agencji Kosmicznej. 

Ile osób jest potrzebnych, aby analizować takie dane?

Zespół KP Labs liczy ok. 80 osób, w tym ok. 15 osób zajmuje się uczeniem maszynowym i szeroko rozumianą sztuczną inteligencją. Mamy pełen przekrój ekspertów – są elektronicy, software’owcy, algorytmicy, mechanicy, specjaliści zajmujący się termiką i sprzętem. Wyróżnia nas kompleksowy system tworzenia rozwiązań satelitarnych – mamy wszystko w jednym miejscu i potrafimy skonsolidować wiedzę z różnych dziedzin. Są wśród nas osoby, które zajmują się inżynierią systemową, czyli zaprojektowaniem i zaplanowaniem pełnej misji. Wszyscy ze sobą bardzo ściśle współpracujemy. Nie jesteśmy zamknięci wyłącznie w swojej działce. 

Czy przy tworzeniu algorytmów działających w przestrzeni kosmicznej potrzebne są jakieś bardzo zaawansowane narzędzia? 

Przy budowaniu algorytmów na „ziemskim” sprzęcie korzystamy z klasycznych narzędzi, głównie z Pythona. Oczywiście to są podstawowe narzędzia na początku tworzenia algorytmów, które są następnie portowane, kompresowane, optymalizowane i benchmarkowane dla docelowych architektur sprzętowych, z wykorzystaniem bardziej specjalistycznych narzędzi, np. Vitis AI. 

Jakie są największe wyzwania w pracy z algorytmami?

W przypadku technik tzw. nadzorowanego uczenia maszynowego są to wyzwania związane z brakiem danych wzorcowych w sytuacji, kiedy chcemy wdrożyć nowe zastosowanie. Zazwyczaj nie ma danych przykładowych, na których moglibyśmy trenować algorytm uczenia maszynowego, bo świat nie jest „oetykietowany”. Jeżeli chcemy stworzyć zbiór danych przeznaczonych do treningu, to jest to ekstremalnie kosztowne i czasochłonne. Nawet w przypadku badania obrazów gleby, taka kampania zebrania próbek, wysłania ich do laboratorium, to jest czas, ale przede wszystkim niemałe pieniądze. Warto wspomnieć, że możemy dane symulować, za pomocą np. cyfrowego bliźniaka konkretnego sensora, wykorzystując ograniczoną próbkę danych rzeczywistych. Wiemy jednak, że danych rzeczywistych jest mało i musimy algorytmy tworzyć w taki sposób, żeby sobie z tym poradzić. Trzeba pamiętać, że algorytmy powinny działać na danych rzeczywistych, które zostaną zebrane na pokładzie satelity. 

Tu przechodzimy do drugiego wyzwania. Uruchamiamy algorytmy na pokładzie urządzeń wysyłanych w przestrzeń kosmiczną, a zatem cały proces wdrożenia algorytmu musi być bardzo rygorystyczny, powtarzalny i obiektywny. Dlatego bardzo nam zależy, aby w każdym kroku przetwarzania dokładnie zrozumieć, jak wygląda jakość stworzonego przez nas modelu, jego parametry niefunkcjonalne, czas przetwarzania danych i czy może być wykorzystany w rzeczywistym środowisku uruchomieniowym. 

Jak można tego dokonać? 

Stworzyliśmy pełny łańcuch tworzenia algorytmów sztucznej inteligencji dla urządzeń brzegowych, w którym wszechstronnie oceniamy algorytmy. Zaczynając od modelu stworzonego na komputerze przechodzimy kolejne kroki, które są niezbędne do tego, aby na samym końcu skutecznie wdrożyć ten algorytm na konkretnym sprzęcie. W ramach łańcucha przetwarzania zbieramy dane dotyczące jakości działania algorytmu i weryfikujemy, czy nic złego po drodze się nie stało. 

To, co nas jeszcze wyróżnia to fakt, że bardzo rygorystycznie podchodzimy do eksperymentów. Wszystko u nas musi być powtarzalne, zawsze korzystamy z narzędzi statystycznych, które pozwalają nam dowieść, że coś działa albo zrozumieć, dlaczego coś nie działa. Mamy to w pełni oparametryzowane i powtarzalne. Zawsze możemy ponownie uruchomić każdy eksperyment.  

Jak widzi Pan przyszłość wykorzystania algorytmów w kosmosie?

Techniki sztucznej inteligencji będą wykorzystywane coraz szerzej, nie tylko do analizy procesów zachodzących w samych urządzeniach kosmicznych. Musimy pamiętać, że pewne działania już dziś trzeba automatyzować, żeby móc w ogóle eksplorować kosmos. Komunikacja z satelitą jest trudna i zajmuje dużo czasu. Dlatego pewne decyzje powinny być podejmowane autonomicznie, choć ta autonomia może być mniej lub bardziej ograniczona. Może dotyczyć decyzji o tym, jaki obszar z orbity powinien zostać sfotografowany, ale to może być też przeprowadzenie procedury dokowania danego urządzenia. Co więcej, systemy oparte na algorytmach sztucznej inteligencji chronią np. łaziki kosmiczne przed ewentualnym rozbiciem o kamienie, poprzez przeprowadzenie analizy obszaru wokół niego. Przenoszenie algorytmów na pokład urządzeń brzegowych musi się wydarzyć i to już się dzieje. Rozwój tych technologii w kosmosie będzie kluczowy i powszechny. Jako KP Labs staramy się przenieść tę autonomiczność na różnym poziomie abstrakcji w kosmos, żeby móc efektywniej, łatwiej, bezpieczniej i lepiej eksplorować przestrzeń. 

Hurtownie danych integrują informacje z różnych źródeł i umożliwiają ich analizę, uwzględniając również zmiany w czasie. Organizacje korzystające z tych rozwiązań, usprawniają procesy i podejmują lepsze decyzje. W artykule piszemy, jak przygotować się do wdrożenia hurtowni danych w przedsiębiorstwie.

Hurtownie danych (nazywane też czasem magazynami danych) gromadzą informacje z różnych systemów organizacji — zarówno wewnętrznych, jak i zewnętrznych, które mogą dotyczyć np. sprzedaży, marketingu, pracowników i innych czynników związanych z otoczeniem biznesowym. Dane, rozproszone w różnych miejscach w strukturze firmy, są porównywane pod względem aktualności i adekwatności, aby stworzyć jak najdokładniejszy model procesów biznesowych i wskaźników opisujących sytuację przedsiębiorstwa. Hurtownie danych umożliwiają generowanie raportów dotyczących wszystkich istniejących zbiorów, niezależnie od tego, czy pochodzą z baz danych, systemów sprzedaży czy plików Excela. Na podstawie takiej analizy osobom zarządzającym dużo łatwiej jest identyfikować trendy, prognozować wyniki i podejmować decyzje o charakterze strategicznym.

Różnice między bazami danych a hurtowniami danych

W bazach danych przechowuje się ustrukturyzowane informacje dotyczące poszczególnych podsystemów. Z kolei hurtownie danych są bardziej zaawansowanym narzędziem, które integruje i ułatwia analizę informacji z różnych źródeł, aby uzyskać pełniejszy obraz i wyciągać bardziej miarodajne wnioski. W przeciwieństwie do baz danych hurtownie pozwalają użytkownikom na odczytywanie zarówno historycznych jak i bieżących informacji. Zazwyczaj hurtownie mają wbudowane narzędzia OLAP (skrót od ang. Online Analytical Processing), które pozwalają wygodnie przeglądać dane w sposób zagregowany lub bardziej szczegółowy, w zależności od wybranego widoku.

Rodzaje hurtowni danych

Systemy OLAP mogą być realizowane albo w sposób relacyjny (tzw. ROLAP) albo w postaci wielowymiarowych kostek (w przypadku implementacji MOLAP). Istnieją także systemy hybrydowe (HOLAP), które łączą cechy obu podejść.

ROLAP

W modelu relacyjnym dane gromadzone są w tablicach faktów oraz tablicach wymiarów. Najczęściej, ze względu na optymalizację, w tego typu rozwiązaniach mamy do czynienia z jedną centralną tabelą faktów, powiązaną z wieloma tabelami wymiarów. Taką strukturę nazywamy strukturą gwiazdy lub płatka śniegu (w przypadku gdy tabele wymiarów są znormalizowane). Realizacje, które wymagają wielu tabel faktów, nazywamy konstelacjami.

MOLAP

MOLAP (skrót od ang. Multidimensional Online Analytical Processing) wykorzystują wielowymiarowe struktury wstępnie przetworzonych danych. Zaletą tej rodziny rozwiązań jest szybkość przetwarzania i oszczędność pamięci potrzebnej do przechowywania zebranych informacji.

Kiedy powinienem skorzystać z hurtowni danych?

Hurtownie danych przydają się, szczególnie kiedy chcemy na dużą skalę przeprowadzić zaawansowaną analizę procesów biznesowych i ustalić, w jakiej kondycji jest przedsiębiorstwo. Organizacje zazwyczaj mają wiele różnych systemów i sposobów przechowywania informacji. Wprowadzenie hurtowni danych ułatwia zarządzanie, pozwala określić miejsca, które wymagają usprawnienia oraz trendy, jak np. zmieniające się zachowania klientów. Dobrze zaprojektowana hurtownia danych pozwala dużo szybciej reagować na zmieniające się warunki w otoczeniu biznesowym.

Jak przygotować organizację do wprowadzenia hurtowni danych?

Wprowadzenie hurtowni danych jest złożonym przedsięwzięciem i wymaga odpowiedniego przygotowania, projektowania i wdrożenia. Warto zacząć od analizy potrzeb organizacji i potencjalnych korzyści, jakie może przynieść inwestycja w zintegrowany system analizy dużych zbiorów danych.

Dobrze też ustalić cel do osiągnięcia w wyniku wdrożenia hurtowni danych: czy chodzi o poprawę procesów decyzyjnych, lepsze raportowanie, analizę klientów, a może coś jeszcze innego? Sprecyzowanie celów pomoże wyznaczyć priorytety i zdefiniować wymagania dla projektowanego systemu.

Ocena istniejących zbiorów danych

Kolejny etap polega na określeniu, jakie typy i źródła danych występują w organizacji. Warto ocenić jakość przetwarzanych informacji, a także przyjrzeć się, jakie relacje występują pomiędzy różnymi osobami (np. pracownikami, działami, klientami, menadżerami etc.). Wstępna analiza pomoże w opracowaniu odpowiedniego modelu i planu integracji istniejących zbiorów, które będą później przetwarzane w hurtowni w odpowiednich strukturach.

Wybór narzędzi i technologii

Po zebraniu informacji na temat istniejących zbiorów danych i procesów biznesowych przychodzi czas na wybór narzędzi, które najlepiej sprawdzą się w danych warunkach. Na rynku istnieje wiele rozwiązań, które różnią się od siebie zarówno ceną jak i możliwościami. Wybierając daną technologię poza kosztami, powinniśmy wybrać takie rozwiązanie, które będzie zgodne z określonymi celami oraz zapewni odpowiednią skalowalność biznesu.

Zbieranie i czyszczenie danych

Po wybraniu technologii i opracowaniu odpowiedniego modelu należy opracować plan zbierania i wstępnej obróbki (czyszczenia) danych. Dobrze upewnić się, że przetwarzane informacje są spójne i kompletne. To jeden z ważniejszych kroków, który źle przeprowadzony może doprowadzić do błędnych wniosków i w efekcie złych decyzji biznesowych.

Wdrożenie hurtowni danych może poprawić jakość podejmowanych decyzji i przynieść sukces w postaci lepszych usług i produktów, a także zadowolenia klientów, co w efekcie przełoży się na zwiększenie sprzedaży i wyników finansowych. Organizacje, które opierają swoje strategiczne decyzje na analizie danych, są bardziej odporne na różne zmiany w otoczeniu biznesowym, ponieważ reagują na nie szybciej od konkurentów, którzy nie mają pełnej wiedzy o wszystkich procesach biznesowych.

– Modele uczenia maszynowego, z których nasi franczyzobiorcy korzystają na co dzień, opierają się na dziesiątkach cech z obszarów takich, jak historyczna sprzedaż, aktualne i nadchodzące promocje i wydarzenia, prognozy pogody czy lokalizacja. Dzięki nim przygotowujemy rekomendacje na poziomie pojedynczego sklepu, sugerując franczyzobiorcy, ile produktów powinien zamówić do sklepu, ale też chociażby ile bułek powinien upiec w danej porze dnia, aby zmaksymalizować swój zysk i zminimalizować straty – tłumaczy Bartłomiej Przybylski, manager zespołu Data Insights & Analytics w sieci sklepów Żabka.

Bartłomiej Przybylski pełni rolę managera zespołu Data Insights & Analytics w Departamencie Analityki i Data Science w Grupie Żabka. Pracuje też jako adiunkt na Wydziale Matematyki i Informatyki Uniwersytetu im. Adama Mickiewicza w Poznaniu, gdzie od wielu lat zajmuje się tworzeniem wydajnych algorytmów dla problemów optymalizacyjnych. Jest członkiem Polskiego Towarzystwa Informatycznego oraz rzeczoznawcą Izby Rzeczoznawców PTI.

Dziś prawie każda firma jest po części przedsiębiorstwem technologicznym. W jakich obszarach wykorzystują państwo nowoczesne rozwiązania?

Jeżeli chodzi o wykorzystanie narzędzi analitycznych w naszej codziennej pracy, to w zasadzie trudno wskazać obszar, gdzie tego nie robimy. Mamy bardzo rozwiniętą analitykę, a także rozbudowany zespół data science, który odpowiada za budowę modeli uczenia maszynowego, a obecnie szczególnie mocno skupia się na możliwościach generatywnej sztucznej inteligencji. W zasadzie we wszystkich strategicznych obszarach funkcjonowania Żabki stosujemy algorytmy SI, niezależnie od tego, czy mówimy o aplikacji mobilnej, sprzedaży czy o działaniach na rzecz zrównoważonego rozwoju i ESG (skrót oznaczający czynniki, w oparciu o które tworzone są ratingi i oceny pozafinansowe przedsiębiorstw, państw i innych organizacji. Składają się one z 3 elementów: E – Środowisko, S – Społeczna odpowiedzialność i G – Ład korporacyjny). Te obszary są naszpikowane technologią. Najpowszechniej znanym przykładem zastosowania u nas SI są sklepy Żabka Nano, gdzie wykorzystujemy algorytmy głębokiego uczenia do rozpoznawania, jaki produkt klient zabrał z półki. Można powiedzieć, że gdzie się w Żabce nie obejrzymy, tam jest analityka i sztuczna inteligencja.

Wspomniał pan o ESG – to ostatnio ważne zagadnienie.

Od pewnego czasu jestem szczególnie mocno zaangażowany w działania analityczne związane właśnie z raportowaniem niefinansowym. W tej chwili mamy cztery kluczowe strumienie, w których rozwijamy analitykę dotyczącą ESG. To przeciwdziałanie marnowaniu żywności, dekarbonizacja, czyli zmniejszanie śladu węglowego, cyrkularność i dobre żywienie. Data science stosujemy zwłaszcza w pierwszym obszarze, czyli przeciwdziałaniu marnowaniu żywności. Jeśli chodzi o pozostałe, tam narzędzia sztucznej inteligencji ustępują obecnie głębokiej analityce, ale prawdopodobnie zmieni się to za jakiś czas.

Jak przeciwdziałają państwo marnowaniu żywności w kilku tysiącach sklepów?

Jesteśmy firmą opartą o model franczyzowy. Dajemy naszym franczyzobiorcom pewne narzędzia i możliwości wykorzystania innowacji, ale musimy pamiętać, że są to niezależni przedsiębiorcy, którzy mają prawo do podejmowania własnych decyzji biznesowych. To oni prowadzą sklepy i za nie odpowiadają. Kiedy więc mówimy o przeciwdziałaniu marnotrawieniu żywności, patrzymy na to z dwóch perspektyw. Z jednej strony działamy tak, aby nasze operacje wewnętrzne – np. w centrach logistycznych – generowały tak mało strat żywności, jak to jest tylko możliwe. Z drugiej strony mamy franczyzobiorców, którzy zamawiają u nas towary, ale czasami biorą na siebie ryzyko, że towary nie zostaną sprzedane. Jeżeli tak się stanie, mogą zostać zmuszeni do ich likwidacji, czyli wyrzucenia. Dlatego staramy się wspierać franczyzobiorców w tym, żeby redukować poziom marnotrawienia żywności przy jednoczesnym zachowaniu poziomu potencjalnej sprzedaży, jakiego franczyzobiorcy oczekują.

Jaka jest skuteczność tego typu wdrożeń i jak pozyskujecie dane potrzebne do analiz?

Jak wynika z naszego raportu odpowiedzialności za 2022 rok, udało się zredukować straty żywności w działaniach własnych o ponad 25 proc. r/r. To duże osiągnięcie naszych działów logistycznych. Jeśli zaś chodzi o franczyzobiorców, wspieramy ich i sugerujemy pewne działania, a następnie monitorujemy, co się dzieje w sklepach. Dzięki wykorzystaniu spływających do nas danych wiemy, ile konkretnego produktu zamówił franczyzobiorca, ile go sprzedał, a ile zlikwidował. Staramy się na bieżąco badać straty po stronie sklepów. Po pierwsze, opieramy się na tym, co deklaruje sam franczyzobiorca w tzw. protokołach likwidacji. Po drugie, wykorzystujemy narzędzia analityczne, aby oszacować, jakie są rzeczywiste straty. Co ciekawe, narzędzia pozwalają nam analizować nie tylko straty wynikające z upłynięcia terminu przydatności do spożycia, ale także np. z awarii sprzętu. Ta wiedza bardzo pomaga budować skuteczne rozwiązania na rzecz redukcji strat.

W jaki sposób franczyzobiorca może się o tym wszystkim dowiedzieć?

Umowa franczyzowa między Żabką a franczyzobiorcą niesie za sobą pewne oczekiwania dotyczące systemowego wsparcia franczyzobiorcy w prowadzeniu działalności. W kontekście sztucznej inteligencji, realizujemy to przez narzędzia nazywane Optiplan oraz Cyberstore. Z perspektywy franczyzobiorcy oferujemy dwa szczególnie interesujące komponenty wykorzystujące modele uczenia maszynowego, które mają przeciwdziałać marnotrawieniu żywności. Mam tu na myśli model odpieku pieczywa i model Automated Replenishment. Model odpieku pieczywa wspiera franczyzobiorcę w podejmowaniu decyzji o tym, ile pieczywa powinien przygotować dla swoich klientów. Warto zauważyć, że pieczywo odpiekane jest dosyć “wrażliwą” kategorią produktową. Sprzedaż zmienia się w ciągu dnia, a termin przydatności do spożycia jest względnie krótki. Mamy tu więc do czynienia z dużym ryzykiem strat. Dlatego opracowaliśmy algorytm, który proponuje sprzedawcy, ile i kiedy powinien wstawić bułek do piekarnika, żeby, po pierwsze, zapotrzebowanie czy popyt na to pieczywo został zaspokojony, a po drugie, żeby marnotrawienie żywności było tak małe, jak to jest możliwe. Model, który wykorzystujemy opiera się na około 100 cechach z obszarów takich, jak historyczna sprzedaż, aktualne promocje, warunki pogodowe, czy lokalizacja. Bierzemy więc pod uwagę specyfikę konkretnego sklepu. Same rekomendacje są także przygotowywane na poziomie pojedynczego sklepu.

Jak działa ten algorytm i skąd pobieracie dane?

Algorytm opiera się o LGBM, czyli o drzewa decyzyjne wzmocnione gradientowo. Większość danych, na których się opieramy, to nasze dane wewnętrzne, takie jak informacje o sprzedaży czy promocjach. Mamy też oczywiście dane zewnętrzne, jak np. prognozy pogody. Staramy się być data-driven company, czyli firmą opartą o dane, dlatego korzystamy z wielu źródeł informacji. Mam na myśli chociażby dane typowo statystyczne, ale też właśnie dane pogodowe. Współpracujemy także z zewnętrznymi dostawcami specjalistycznych danych, którzy poszerzają naszą perspektywę na otaczającą nas rzeczywistość. Natomiast decyzje o tym, jakie dane wykorzystujemy w poszczególnych modelach i w jaki sposób to robimy, podejmują już nasi data scientiści.

Jak duży mają państwo zespół pracujący nad danymi?

Ponad 100 osób zajmuje się kwestiami analitycznymi, budową modeli, raportowaniem oraz insightem. Część z tych osób przygotowuje modele uczenia maszynowego albo bada najnowsze trendy w zakresie sztucznej inteligencji.

A co to jest Automated Replenishment, o którym pan wspomniał?

To model uczenia maszynowego, zbudowany przez nasz zespół AR. Jego cel jest bardzo prosty – w momencie, kiedy franczyzobiorca składa zamówienia na produkty, a może to zrobić codziennie, system podpowiada mu, ile sztuk poszczególnych produktów powinien zamówić. Mówiąc precyzyjniej, franczyzobiorca zamawia konkretny produkt, a system podpowiada mu, jaka ilość tego produktu byłaby odpowiednia, biorąc pod uwagę sprzedaż, sezonowość, dzień tygodnia, nadchodzące święta, pogodę czy promocje. Bierzemy też pod uwagę zamówienia, które franczyzobiorca już złożył, ale jeszcze nie otrzymał towaru, dzięki czemu nasze rekomendacje są zawsze osadzone w aktualnej sytuacji. Algorytm jest bardzo rozbudowany, wykorzystuje informacje z kilkunastu obszarów, w tym z zakresu zgodności z wewnętrznymi regulacjami Żabki.

Jak pogodzić oszczędność w magazynach czy centrach logistycznych z oczekiwaniami poszczególnych sklepów?

Wspomniane rekomendacje uwzględniają szereg naszych regulacji wewnętrznych. Kluczowym wyzwaniem tego algorytmu jest, aby działał w interesie franczyzobiorcy, ale równocześnie w interesie całej sieci. Algorytm bierze pod uwagę wszystkie zależności i znajduje złoty środek, który zaspokaja wszystkie potrzeby. Dla potwierdzenia mogę powiedzieć, że franczyzobiorcy w zdecydowanej większości akceptują nasze rekomendacje bez zmian. Żabka analizuje też, jak franczyzobiorcy wchodzą w interakcje z algorytmem Automated Replenishment. Jeśli franczyzobiorca pomimo naszych rekomendacji zamawia mniej albo więcej towaru, zastanawiamy się, dlaczego tak się dzieje i czy jest coś, czego możemy się od tego franczyzobiorcy nauczyć. Mamy w tej chwili ponad 9400 sklepów, ale proszę pamiętać, że nasze sklepy są bardzo zróżnicowane pod względem lokalizacji, wielkości, asortymentu czy otoczenia. Dlatego podczas analizy danych trudno byłoby o wychwycenie pewnych trendów, nawet w poszczególnych podgrupach. Pojedyncze sklepy różnią się w kilkudziesięciu wymiarach, a wszystkie cechy wpływają na to, jak dany sklep się zachowuje. Oczywiście bierzemy te różnice pod uwagę, ale jest to duże wyzwanie.

A co z jakością danych?

Rzeczywiście kolejnym wyzwaniem w modelu franczyzowym jest fakt, że franczyzobiorcy nie mają obowiązku realizowania pewnych działań, których można by oczekiwać w sieciach niefranczyzowych. Przygotowując rekomendacje dla franczyzobiorcy, bierzemy pod uwagę również dane przez niego dostarczone, np. o tym, ile danego produktu zlikwidował i ile jeszcze ma na stanie. Jeżeli z jakiegoś powodu nam tych informacji nie poda albo przesunie te informacje w czasie, jakość naszych rekomendacji pogarsza się. Jednak franczyzobiorcy wkładają dużo pracy, żeby nas w tym wspierać, ponieważ dostrzegają korzyść w jak najlepszych rekomendacjach.

Ale rekomendacje to chyba nie wszystko.

Model funkcjonowania Żabki jest dosyć złożony. Staramy się sprawdzać, weryfikować i testować różnego rodzaju zmiany, a następnie patrzymy, w jaki sposób one wpływają na funkcjonowanie franczyzobiorcy, w tym na sprzedaż, i jak wpływają na straty żywności. Na przykład, możemy sugerować różne sposoby prowadzenia przecen i obserwować, jak to wpływa na sprzedaż i na straty, ale – znowu – decyzja o skorzystaniu z naszej sugestii należy do franczyzobiorcy. Chcielibyśmy oczywiście, żeby te straty były jak najmniejsze, ale żeby franczyzobiorca też nie był stratny finansowo. Obecnie testujemy zmiany w różnych obszarach, a także dostosowania naszych algorytmów uczenia maszynowego. Zastanawiamy się, czy jeśli byśmy wprowadzili pewne zmiany podczas konstrukcji danego modelu, czy wpłynęłoby to pozytywnie, czy negatywnie na poziom sprzedaży i strat. Takie testy odbywają się właściwie przez cały czas w wybranych grupach sklepów. Chcemy, żeby za każdą decyzją, którą podejmiemy w obszarze rekomendacji zawsze stała analiza danych.

Jak Żabka zamierza rozwijać swoją analitykę danych?

Mamy szczęście mieć duże zbiory danych, wiele informacji, których szkoda byłoby nie wykorzystać. W najbliższym czasie w Żabce jeszcze bardziej pogłębimy opieranie naszych decyzji biznesowych o dane i o to, co z tych danych wynika. W naszym Departamencie Analityki i Data Science stawiamy sobie za cel szybko dowiadywać się na podstawie danych o tym, co się stało. Często przyglądamy się szczegółowo zjawiskom, które zaszły w przeszłości, i analizujemy przyczyny. Jeśli je dobrze zrozumiemy, będziemy w stanie wykorzystać tę wiedzę do podejmowania jeszcze lepszych decyzji biznesowych. Trzecia kwestia to perspektywa, co się stanie w przyszłości i tu wchodzimy już w modele predykcyjne uczenia maszynowego, a także w zaawansowane analizy. Staramy się odpowiedzieć na pytanie, jaka będzie przyszłość oraz co należy zrobić, aby z niej dobrze skorzystać.

To stanowisko, na którym będzie dużo nauki. Ale warto, żeby młodszy specjalista big data przyszedł do nowej pracy już ze znajomością kilku narzędzi i języków. Jakich? Piszemy o tym poniżej i sprawdzamy, ile średnio zarabia w Polsce junior big data.

Początkujący w tej dziedzinie muszą mieć podstawową wiedzę oraz umiejętności związane z gromadzeniem, przetwarzaniem i analizowaniem dużych zbiorów danych. Wśród codziennych obowiązków juniorów są: czyszczenie danych, przekształcanie ich do odpowiednich formatów, pisanie skryptów w językach programowania, a także tworzenie zapytań w SQL. Część zadań wiąże się z weryfikowaniem poprawności rozwiązań oraz wykrywaniem błędów. Zespoły, do których dołączy junior big data, a także inni członkowie organizacji oraz klienci skorzystają z przygotowanych przez młodszego specjalistę wizualizacji, prezentacji oraz raportów. Ponieważ stanowisko juniorskie to jeden z pierwszych zawodowych kroków – osoba w tej roli sporo czasu będzie musiała poświęcić na naukę i rozwój w swojej dziedzinie.

Znajomość technologii

W ofertach dla juniorów big data można często spotkać wymogi odnoszące się do przynajmniej podstawowej znajomości narzędzi Apache Hadoop i Spark. To platformy programistyczne służące do przetwarzania danych. Spark jest często używany również do analiz prowadzonych w czasie rzeczywistym. Jeśli chodzi o języki programowania, najczęściej pojawia się Python (wraz z bibliotekami: NumPy, Pandas i matplotlib), ale istnieją również ogłoszenia, gdzie w wymogach znajdziemy Javę bądź Scalę. Trudno o propozycję pracy, która nie zawierałaby strukturalnego i deklaratywnego języka SQL, potrzebnego do odpytywania baz danych. W pracy juniorów big data przydaje się również wiedza o nierelacyjnych systemach bazodanowych (NoSQL), jak MongoDB oraz Apache Cassandra. 

Umiejętności miękkie w pracy młodszych specjalistów big data

W pracy z dużymi zbiorami danych niezbędne jest analityczne myślenie pozwalające wykrywać wzorce oraz anomalie, jak również wyciągać wnioski. Juniorzy big data potrzebują kreatywności w podejściu do rozwiązywania problemów, na przykład przez rozłożenie ich na mniejsze części. Pośród ważnych kompetencji miękkich pracodawcy wskazują umiejętność pracy zespołowej, potrzebnej do sprawnej kooperacji nie tylko ze specjalistami z tej samej dziedziny, ale też z inżynierami oprogramowania czy administratorami systemów. W tym zakresie istotna jest skuteczna komunikacja, ułatwiająca precyzyjne przedstawianie wyników analiz. Juniorzy big data powinni śledzić aktualne trendy i łatwo dostosowywać się do nowych technik, narzędzi i metod pracy.

Niezbędny angielski

Wśród języków obcych wymaganych przez pracodawców angielski oczywiście pojawia się najczęściej. Jego znajomość jest konieczna nie tylko w pracy w międzynarodowych środowiskach. Dokumentacja, artykuły naukowe czy kursy przydatne zarówno w codziennej pracy, jak i w pogłębianiu wiedzy są zazwyczaj dostępne w języku Szekspira. 

Ile zarabiają specjaliści big data?

Z raportu “Rynek IT w Polsce w 2022 roku”, przygotowanego przez portal NoFluffJobs, wiemy, że liczba ogłoszeń dla specjalistów big data wzrosła o 39 proc. w porównaniu z rokiem 2021. To drugie miejsce w gronie kategorii branych pod uwagę, zaraz po supporcie (+58 proc.), a przed analityką biznesową (+17 proc.). Mediana widełek wynagrodzeń w ofertach pracy dla specjalistów big data w Polsce wynosiła w ubiegłym roku 4,2-5,7 tys. euro dla pracujących na kontraktach B2B oraz 3,2-4,5 tys. euro w przypadku osób zatrudnionych w oparciu o umowy o pracę. Analogiczne zakresy na Ukrainie to: 3,8-5,7 oraz 3,6-4,8 tys. euro, zaś w Czechach: 4,2-5,8 oraz 3,0-4,9 tys. euro.

Publikacja zawiera również dane odnoszące się do stanowisk juniorskich, aczkolwiek tylko dla Polski. Młodsi specjaliści big data mogą zarobić nad Wisłą 1,7-2,8 tys. euro, jeśli mają własne firmy, lub 1,5-2,1 tys. euro, kiedy podpisują umowy o pracę. Opracowanie było przygotowane, kiedy kurs euro był na poziomie 4,69 zł.

Na koniec warto zaznaczyć, że stanowisko pracy, związane z big data, nie musi mieć w nazwie bezpośredniego wskazania na tę dziedzinę. Osoby, które myślą o zatrudnieniu w kontekście przetwarzania dużych zbiorów danych, nie powinny skupiać się wyłącznie na przeglądaniu ofert, które już w nagłówkach odwołują się do tego obszaru. Bardzo często dopiero z treści ogłoszenia wynika, że poszukiwany inżynier czy analityk danych, będzie się zajmował przede wszystkim big data.

Na rynku pracy coraz większe znaczenie przywiązuje się do umiejętności związanych z analityką danych, która wykorzystywana jest nie tylko w sektorze IT, ale również w medycynie czy finansach. W odpowiedzi na rosnące zapotrzebowanie na specjalistów w tej dziedzinie, polskie uczelnie podjęły wyzwanie i oferują kierunki studiów ze specjalizacją data science. Poniżej przedstawiamy najciekawsze z nich.

Informatyka ze specjalnością sztuczna inteligencja i data science – Akademia Ekonomiczno-Humanistyczna w Warszawie 

W trakcie tych studiów można zdobyć wiedzę z zakresu nauk inżynieryjno-technicznych. Studenci poznają metody i narzędzia inżynierii oprogramowania, algorytmy sztucznej inteligencji oraz ich praktyczne zastosowanie w systemach informatycznych. Ze względu na specjalizację uczelnia skoncentrowała się również na nauce obsługi systemów zarządzania bazami danych czy korzystania z protokołów sieciowych. To również dobra okazja dla studentów na poznanie technik tworzenia aplikacji rozproszonych, w efekcie czego absolwenci tego kierunku będą potrafili projektować i realizować witryny internetowe, zaimplementować system informatyczny, administrować systemami operacyjnymi i sieciami informatycznymi z uwzględnieniem wymagań bezpieczeństwa.

Poziom: I stopnia. 

Tryb studiów: niestacjonarny – online.

Czas trwania: 4 lata (8 semestrów). 

Więcej informacji na stronie.

Informatyka stosowana ze specjalnością data science – Politechnika Bydgoska im. Jana i Jędrzeja Śniadeckich

Informatyka stosowana to kierunek, na którym studenci poznają metodykę analizy i projektowania programów komputerowych, konstrukcję i działanie systemów operacyjnych, podstawy działania sieci komputerowych, programowanie baz danych, działanie i wykorzystanie Internetu oraz najnowszych technologii z nim związanych. Dodatkowo, omawiane są zagadnienia: sztucznej inteligencji, systemów zintegrowanych oraz grafiki komputerowej. Projekty i zajęcia laboratoryjne pozwalają studentom na zdobycie i poszerzenie wiedzy potrzebnej do tworzenia oprogramowania zarówno dla nowoczesnych urządzeń mobilnych, systemów wbudowanych jak i aplikacji WWW.

Poziom: I stopnia. 

Tryb studiów: stacjonarny.

Czas trwania: 3,5 roku (7 semestrów). 

Więcej informacji na stronie.

Informatyka i ekonometria za specjalnością data science – metody i systemy analityki danych – Uniwersytet Ekonomiczny w Katowicach

Celem kształcenia na kierunku Informatyka i ekonometria jest rozwój wiedzy i umiejętności w zakresie: zarządzania nowoczesnymi organizacjami z wykorzystaniem technologii teleinformatycznych, a także zastosowania metod podejmowania decyzji. Kierunek kształci zatem ekonomistów-informatyków, specjalizujących się w modelowaniu i analizie rzeczywistości ekonomicznej oraz projektowaniu i wdrażaniu systemów informatycznych wspomagających działalność operacyjną w organizacjach, a także jej analizę oraz podejmowanie decyzji menedżerskich.

Poziom: II stopnia. 

Tryb studiów: stacjonarny, niestacjonarny

Czas trwania: 2 lata (4 semestry). 

Więcej informacji na stronie.

Sztuczna inteligencja i data science na Politechnice Częstochowskiej

Program tych studiów uwzględnia zarówno zagadnienia analizy danych (analizę statystyczną, uczenie maszynowe, inteligencję obliczeniową, czy metody uczenia głębokiego), jak i różne metody dostępu do danych. Absolwent będzie znał zarówno teoretyczne podstawy różnych współczesnych metod analizy danych, a także będzie potrafił wykorzystać te metody na różnych polach, takich jak analiza danych złożonych, analiza danych medycznych, zastosowania w ekonomii, czy w robotyce.

Poziom: II stopnia. 

Tryb studiów: stacjonarny

Czas trwania: 1,5 roku (3 semestry). 

Studia data science na polskich uczelniach

Więcej informacji na stronie.

Sprawdź też: Studia data science na polskich uczelniach

Informatyka i ekonometria ze specjalnością data science na Uniwersytecie Szczecińskim

Absolwent tych studiów wyróżnia się wiedzą z zakresu projektowania i wdrażania systemów informatycznych oraz portali korporacyjnych. Cechuje go umiejętność modelowania i symulowania procesów gospodarczych abstrakcyjnego myślenia, precyzyjnego formułowania problemów i ich rozwiązań oraz stosowania narzędzi informatycznych. Potrafi analizować dane z wykorzystaniem metod statystycznych i zarządzać przedsięwzięciami informatycznymi.

Poziom: II stopnia. 

Tryb studiów: stacjonarny, niestacjonarny

Czas trwania: 2 lata (4 semestry). 

Więcej informacji na stronie.

Informatyka stosowana ze specjalnością data science na Politechnice Łódzkiej

Studia drugiego stopnia na tym kierunku dostarczają wiedzy z grafiki komputerowej, technologii gier i symulacji komputerowych. Co więcej, studenci mają okazję zdobyć umiejętności z zakresu inżynierii oprogramowania i uczenia maszynowego, a także zastosowania informatyki w przemyśle.

Poziom: II stopnia. 

Tryb studiów: stacjonarny, niestacjonarny

Czas trwania: 1,5 roku (3 semestry). 

Więcej informacji na stronie.

Ekonomia ze specjalnością data science – Uczelnia Łazarskiego w Warszawie

Studenci na tym kierunku uczą się podejmować decyzje strategiczne dla rozwoju przedsiębiorstwa, analizować i oceniać współczesne zjawiska gospodarczo-społeczne, a także posługiwać się branżowym językiem angielskim. Ekonomia na Uczelni Łazarskiego w Warszawie to również zdobywanie kompetencji analitycznych i menedżerskich, jak również wysokich kwalifikacji umożliwiających założenie własnej działalności.

Poziom: I stopnia. 

Tryb studiów: stacjonarny, niestacjonarny.

Czas trwania: 3 lata (6 semestrów). 

Więcej informacji na stronie.

Finanse i rachunkowość ze specjalnością data science na Lubelskiej Akademii WSEI

Jakie konkretne umiejętności zdobędziesz na tych studiach? Przede wszystkim wiedzę z zakresu precyzyjnej analizy danych, big data i data science w finansach, a także wykorzystania wyników analizy danych związanych z podatkami. Zyskasz również wiedzę w obszarze rachunkowość i finansów podmiotów gospodarczych.

Poziom: I stopnia. 

Tryb studiów: stacjonarny, niestacjonarny

Czas trwania: 3 lata (6 semestrów). 

Więcej informacji na stronie.

Informatyka ze specjalnością data science na Politechnice Krakowskiej im. Tadeusza Kościuszki

Ten kierunek jest dla Ciebie, jeżeli interesujesz się możliwościami zastosowania rozszerzonej rzeczywistości i systemami inteligentnymi. To również dobra okazja na to, aby poznać technologie wykorzystywane do zarządzania danymi i ich analizą.

Poziom: II stopnia. 

Tryb studiów: stacjonarny.

Czas trwania: 1,5 roku (3 semestry). 

Więcej informacji na stronie.

Sprawdź też: Studia big data na polskich uczelniach

Informatyka ze specjalnością data science na Wyższej Szkole informatyki i Zarządzania w Rzeszowie

Na tych studiach uzyskasz szeroką wiedzę z zakresu ogólnych zagadnień informatyki stosowanej oraz umiejętności techniczne związane z wykorzystaniem systemów   informatycznych i programowaniem. Wybór tego kierunku to szansa na zdobycie wielu znaczących certyfikatów, na przykład: Linux Professional Institute Certificate, MCSA SQL Server, MCSA Universal Windows Platform. 

Poziom: I stopnia. 

Tryb studiów: stacjonarny

Czas trwania: 3,5 roku (7 semestrów). 

Więcej informacji na stronie.

Udostępnij link

https://www.datasciencerobie.pl/specjalizacje-data-science-na-polskich-uczelniach/