Artykuły w serwisie - Data Science robię

Dane mogą znacznie uprościć procesy decyzyjne w przedsiębiorstwach. Ale jest warunek. Muszą być przedstawiane tak, żeby każdy mógł wyciągnąć właściwe wnioski. Wizualizacja w data science przygotowana przez analityków przyśpiesza ustalenia z klientami i menadżerami. Z jakich form graficznych warto korzystać, aby pokazać zależności, powiązania i proporcje w obrębie danych?

Tylko w 2022 roku świat wytworzy 97 zettabajtów danych, a w 2026 przyrost ma postępować dwukrotnie szybciej niż to się dzieje obecnie. Oczywiście nie wszystkie informacje, które są w zasięgu firm są równie istotne ze strategicznego punktu widzenia. Aby odróżnić to, co może mieć wpływ na skuteczność działań biznesowych i właściwe zrozumienie potrzeb klienta, już dziś sięga się po zaawansowane narzędzia, umożliwiające badanie relacji i poszukiwanie związków przyczynowo-skutkowych, a jednocześnie odsiewające nieistotny szum. Staranna analiza to jednak dopiero połowa sukcesu — przekonanie klientów i osób podejmujących decyzje wymaga dodatkowej umiejętności: zaprezentowania danych i płynących z nich wniosków w sposób na tyle przystępny, by odbiorcy bez trudu zobaczyli w gąszczu danych to, co najważniejsze.

Dane mogą opowiadać ciekawą historię

Niezależnie od tego, czy celem jest poprawa sprzedaży, lepsze dotarcie z przekazem marketingowym, optymalizacja procesów czy redukcja kosztów, prezentowane dane powinny w logiczny sposób pokazywać, jaki wpływ na ogólny wynik ma konkretne zjawisko albo zdarzenie, które starasz się przedstawić. Wiadomo, że nikt nie zna przyszłości, ani nie ma kryształowej kuli, jednak opierając się na istniejących danych, można w przybliżeniu oszacować zmiany sprzedaży w nadchodzących kwartałach albo zapotrzebowanie na części zamienne lub surowce. Użytecznym narzędziem do realizacji takich zadań jest np. platforma SAS Viya, która dla konkretnych danych potrafi automatycznie dobrać algorytm pozwalający prognozować przyszłe wyniki.

Algorytmy wybiorą formę wizualizacji

Odpowiedni wybór wykresu ma duże znaczenie z perspektywy odbiorcy przekazu. To nie tylko kwestia estetyki, ale przede wszystkim czytelności. Forma wizualizacji powinna być tak dobrana, aby już na pierwszy rzut oka było wiadomo, które dane są istotne, jakie są relacje pomiędzy poszczególnymi elementami i na co odbiorca powinien zwrócić uwagę. Dlatego warto poświęcić trochę czasu na przemyślenie, czy w danym wypadku lepiej sprawdzi się histogram, wykres pierścieniowy czy może drzewo decyzyjne. I tu też pomogą inteligentne narzędzia w rodzaju SAS Visual Analytics. Algorytmy po zbadaniu informacji zaproponują wykresy i wizualizacje, które później można modyfikować, a finalnie umieścić w prezentacji lub dokumencie.

Wykresy kołowe?

Wykresy kołowe od lat są źródłem kontrowersji. Na pierwszy rzut oka wyglądają ciekawiej niż wykresy z dwiema osiami i w naturalny sposób pokazują proporcje. Z tego powodu często są wykorzystywane do prezentowania danych procentowych. Jednak przeciwnicy modeli kołowych zwracają uwagę, że ludzki mózg nie najlepiej radzi sobie z porównywaniem pól powierzchni, przez co takie wykresy mogą być odczytywane niewłaściwie. Aby zniwelować niekorzystną właściwość zmysłów człowieka, stworzono ulepszoną wersję wykresu kołowego, czyli wykres pierścieniowy z wyciętym środkiem (stąd angielska cukiernicza nazwa: donut chart). W jego środek warto wpisać wartość, którą pokazujemy. Niestety nawet po modyfikacji odbiorcy mogą mieć problem z porównaniem odcinków, zwłaszcza jeśli te nie znajdują się obok siebie, dlatego omawiany typ wykresu najlepiej sprawdzi się w przypadku kilku wartości, opisanych procentowo. Dodatkową wadą wykresów kołowych jest to, że zazwyczaj wymagają więcej przestrzeni niż wykresy słupkowe i liniowe, co z kolei ma istotne znaczenie w przypadku prezentowania danych na urządzeniach mobilnych (do nich jeszcze w artykule wrócimy).

Mówmy o danych tak prosto, jak to tylko możliwe, ale nie prościej

Duże ilości informacji niestety zazwyczaj trudno przedstawić na jednym histogramie albo wykresie kołowym. Zbytnie uproszczenia mogą wprowadzać w błąd. Parafrazując słowa Einsteina: “o danych powinniśmy mówić tak prosto, jak to tylko możliwe, ale nie prościej”. Czytelniejszym sposobem na pokazanie korelacji pomiędzy różnymi typami danych jest skorzystanie z diagramów sieciowych, drzew decyzyjnych albo wykresów pudełkowych. Ostatnie, choć precyzyjnie pokazują wartości odstające, medianę czy rozstęp międzykwartylowy (różnicę między pierwszym a trzecim kwartałem), to dla osoby, która nie zajmuje się na co dzień statystyką opisową, mogą być na pierwszy rzut oka niejasne.

Drzewa decyzyjne

Jedną z ciekawych technik przedstawiania informacji są drzewa klasyfikacyjne i ich szczególny typ — drzewa decyzyjne. Z ich pomocą zależności pomiędzy różnymi danymi można dostrzec szybciej niż wówczas, gdy są prezentowane np. przy użyciu tabeli. Zaletą drzew decyzyjnych jest łatwość interpretacji nawet przez laików, natomiast osoby bardziej doświadczone będą w stanie szybciej zbudować hipotezy dotyczące związków przyczynowo-skutkowych, co jest kluczowe dla stworzenia ciekawej narracji.

Diagramy sieciowe

Diagramy sieciowe przydają się do przedstawiania danych, które trudno ubrać w sensowne struktury i zawierają wiele relacji pomiędzy elementami. W przypadku diagramów sieciowych poszczególne dane reprezentowane są za pomocą węzłów, jakie mogą występować np. w postaci różnej wielkości okręgów. Natomiast relacje pomiędzy nimi da się przedstawić poprzez łączące je linie (krawędzie grafu). Tego typu wizualizacja w data science przydaje się, kiedy chcemy pokazać zależności np. w logistyce albo dane na temat poszczególnych regionów i miast (jak w przypadku informacji o poziomie przestępczości, sprzedaży produktów etc.). Dobrym urozmaiceniem podobnych prezentacji będzie umieszczenie grafu na mapie regionu, do którego odnoszą się prezentowane dane.

Innym ciekawym sposobem wizualizacji nieustrukturyzowanych informacji jest chmura słów, w której wielkość danego wyrazu odpowiada liczbie jego wystąpień. W ten sposób można przedstawić wyniki ankiety lub dane zebrane z mediów społecznościowych.

Wizualizacja w data science dostosowana do widoku mobilnego

Prezentując dane, warto uwzględnić urządzenia, na których będą wyświetlane. Dziś coraz częściej wykresy przegląda się na ekranie smartfonu lub tabletu np. podczas podróży, co jest dodatkowym wyzwaniem dla autorów wizualizacji. Mniejsze wyświetlacze wymuszają zastosowanie skromniejszych elementów graficznych, ale też dokładne przemyślenie podejścia do zakresów informacji. Trudno o komfort zapoznawania się z wykresem miesięcznej sprzedaży pokazującym dzienne wartości, gdy w dłoni trzyma się kilkucalowe urządzenie.

– Błędy, które popełnia sieć neuronowa, pokazują nam, w jaki sposób taka sieć uczy się. Możemy zobaczyć, co jest dla niej ciężkim zadaniem, jak próbuje sobie je ułatwić. Możemy też zauważyć, które elementy w naszym zbiorze danych są dla sieci ciekawe. Zatem jest to pewnego rodzaju interpretacja artystyczna, trochę inny sposób patrzenia na zbiory danych, który może nam coś nowego o nich powiedzieć, a jednocześnie coś, na co sami byśmy nie wpadli – opowiada Ivona Tautkute-Rustecka, artystka tworząca prace z użyciem sztucznej inteligencji.

Dr Ivona Tautkute-Rustecka jest twórczynią sztuki generatywnej, wykorzystującą AI. W fotografii eksperymentalnej stosuje sieci neuronowe oraz kod programistyczny, a za cel stawia sobie wywołanie emocji dzięki sztucznej inteligencji. Zdjęcia przekształca przy użyciu generatywnych sieci neuronowych. Na co dzień zajmuje się wizją komputerową także korzystającą ze sztucznej inteligencji. Doktorat w dziedzinie AI obroniła w Polsko-Japońskiej Akademii Technik Komputerowych.

Obydwie pani zawodowe aktywności łączy sztuczna inteligencja. Jak wygląda ta relacja?

W dziedzinie wizji komputerowej mam do czynienia z sieciami neuronowymi i podobnie, kiedy tworzę swoje prace. I to o tyle przyjemne połączenie, że metody AI w obydwu zakresach pokrywają się. Dowiadywanie się o najnowszych algorytmach pomaga mi w obu zajęciach, połączeń jest bardzo dużo, więc podzielenie czasu na dwie profesje nie jest aż tak bolesne.

A co dokładnie robi pani w ramach wizji komputerowej jako data scientist?

Pracuję w firmie, która jest software housem, w związku z czym projekty, którymi zajmowałam się w ostatnich latach są bardzo różnorodne. To np. rozwiązania rozpoznające ludzi wewnątrz pojazdów autonomicznych czy rozpoznające różne typy pożywienia w inteligentnych piekarnikach. Obecnie pracuję nad projektem, który jest bardzo mocno powiązany z modelami generatywnymi. Dla naszego klienta polepszamy jakość zdjęć portretowych, więc tutaj chodzi o super resolution i poprawianie fotografii.

Główna praca i obszar związany ze sztuką przenikają się, czyli używa pani w obydwu podobnych narzędzi i metod?

Tak, w szczególności GAN-ów i StyleGAN-a. StyleGAN2 to jedna z metod, którą bardzo mocno wykorzystuję w sztuce generatywnej. Natomiast GAN-y to też metoda do tworzenia zdjęć, którą stosuję w pracy na co dzień. Oczywiście modele się różnią, są to inne architektury – w pracy kreatywnej korzystam na przykład ze StyleGAN2-ADA, który daje mi najciekawsze wyniki. Jest zmodyfikowany pod moje potrzeby, więc umiejętność zrozumienia poszczególnych bloków architektury pozwala na kreatywne bawienie się nią i zmienianie różnych elementów w taki sposób, żeby otrzymać ciekawsze wyniki. Natomiast inne typy GAN-ów wykorzystuję w pracy związanej z wizją komputerową.

Generative Adversarial Network to model sieci neuronowej. A jakich narzędzi używa pani do pracy z nią?

Stack narzędzi AI jest tutaj dość podobny we wszystkich zastosowaniach. Używa się głównie biblioteki PyTorch czy TensorFlow do trenowania modeli. Używa się też Pythona do dopisania dodatkowych funkcji, więc stack jest raczej dość podstawowy. Trenowanie może odbywać się również na Amazonie albo na przykład na Google Cloudzie.

Jak wygląda proces przetwarzania fotografii z użyciem sztucznej inteligencji z takim celem, aby powstało dzieło sztuki?

Pierwszym krokiem i jednym z najważniejszych jest przygotowanie danych, aby były dobrej jakości. To bardzo istotne w machine learningu. GAN-y są dość czułe na wszelkie błędy, które mogą występować w danych, więc trzeba zadbać, żeby jakość zdjęć treningowych była jak najlepsza. Zdjęcia nie powinny mieć dziwnych artefaktów, pikseli, watermarków. Wszystkie powinny być w podobnym stylu. W jednym z moich projektów artystycznych skupiłam się na starych fotografiach, które były portretami osób, dlatego najpierw użyłam modelu rozpoznawania twarzy w celu wycropowania i wycentrowania tych twarzy. Dzięki temu GAN-owi jest dużo łatwiej uczyć się dystrybucji różnych zdjęć, gdyż po prostu pewne elementy znajdują się zawsze na tych samych miejscach. Przygotowanie zbioru danych jest o tyle istotne, że potem ułatwia proces uczenia i jesteśmy w stanie uzyskać lepsze wyniki, lepsze obserwowanie tekstury i lepsze odwzorowanie różnego rodzaju detali. W efekcie powstają zdjęcia tak bardzo realistyczne, że można podejrzewać, że to autentyczne stare fotografie, a nie wygenerowane przez sieć neuronową.

Sztuczna inteligencja dostaje od pani konkretne zadanie czy to tylko ogólne polecenie w rodzaju “zrób coś z tymi danymi”?

Zadanie brzmi “wygeneruj zdjęcia, które będą jak najbliższe rozkładowi prawdziwych zdjęć”. Ale w moich modelach często modyfikuję funkcję straty, która wyznacza kierunek uczenia się sieci neuronowej. To jest zawsze definiowane poprzez stratę, czyli narzucam karencję za pewne elementy, które model generuje, i model teraz chce zminimalizować tę funkcję straty, tak aby generować pewne elementy, które będą bliższe temu, co chcę osiągnąć. Jednak głównym zadaniem pozostaje wygenerowanie zdjęć, które będą jak najprawdziwsze z punktu widzenia modelu.

A czym z punktu widzenia sztucznej inteligencji wykorzystywanej do tworzenia sztuki jest błąd? I co to jest przypadkowość?

Tak bym nazwała odbieganie od prawdziwego rozkładu tych zdjęć uczących, które pokazuję sztucznej inteligencji. Błąd jest czymś, czego nie chcę zniwelować do zera, bo jeśli pokażę zbiór uczący i on zostanie idealnie wyuczony przez sieć, to oczywiście będzie spore osiągnięcie pod kątem naukowym czy aplikacyjnym, natomiast pod kątem kreatywnym taki projekt będzie całkowicie nieciekawy. Bo po co generować coś, co istnieje? Natomiast błędy, które sieć neuronowa popełnia, czyli nieidealne odwzorowanie rzeczywistości, są czymś, co pokazuje nam, w jaki sposób taka sieć uczy się. Możemy zobaczyć, co jest dla niej ciężkim zadaniem, a jednocześnie zaobserwować, w jaki sposób ta próba generalizacji pewnych cech przebiega. Czasem widzimy ułatwienia, na jakie sieć neuronowa idzie, czyli “dobra, zobaczyłam jakiś dziwny szlaczek, więc go teraz powielę dziesięć razy”. I tak powielając, sieć neuronowa próbuje ułatwić sobie zadanie. Dzięki temu możemy też zauważyć, które elementy w naszym zbiorze danych są dla sieci ciekawe. Zatem to jest pewnego rodzaju interpretacja artystyczna, coś, do czego AI może być wykorzystywana. To po prostu trochę inny sposób patrzenia na te zbiory danych, który może nam coś nowego o nich powiedzieć, a jednocześnie coś, na co sami byśmy nie wpadli, czy czego sami byśmy nie stworzyli w taki sposób.

Kto jest twórcą w przypadku tego rodzaju projektów, w pani ocenie – bardziej człowiek czy bardziej technologia?

Powiedziałabym, że wciąż człowiek. Sieci neuronowe są świetnym narzędziem, ale nigdy nie wymyślają sobie zadania. Człowiek wciąż określa cel, funkcję straty, człowiek każe sieci się uczyć – i to jest narzucone z góry. Natomiast oczywiście proces uczenia już przebiega całkowicie bez naszej ingerencji. Wyliczanie funkcji straty i jej optymalizacja posiada elementy stochastyczne, w związku z czym uczenie nie przebiega za każdym razem identycznie i mamy do czynienia z pewną nieprzewidywalną losowością. Natomiast pierwszy etap, a także ostatni w tej całej pracy są czymś, na co sztuczna inteligencja nie ma wpływu. Sieć neuronowa nie powie, że już skończyła pracę, ona może się uczyć w nieskończoność. A to my stwierdzamy “dobra, w tym momencie otrzymane efekty odpowiadają moim oczekiwaniom”. I na tę decyzję również sieć nie ma wpływu. Oczywiście moglibyśmy mieć inny model, który być może byłby wytrenowany na preferencjach ascetycznych i oceniałby, które “outputy” są lepsze lub gorsze. Natomiast ten model też musiałby być przez kogoś zaprojektowany i odwzorowywać czyjeś preferencje. Wciąż ludzkie preferencje, tak naprawdę.

Przeczytaj również: “Data scientist czy AI – kto jest artystą?”

Z kursów, w których uczestniczą pracownicy, korzystają również pracodawcy i całe zespoły. Opisujemy, jakie certyfikaty data science mogą zdobyć obecni oraz przyszli specjaliści, żeby poprawić zarówno swoją pozycję na rynku pracy, jak i konkurencyjność firmy.

Z punktu widzenia pracownika podnoszenie umiejętności otwiera nowe ścieżki rozwoju osobistego, a także wiąże się z szansą awansu i wzrostu pensji. Dodatkowe zalety to zwiększenie pewności siebie i poczucia własnej wartości. Jak wynika z badania przeprowadzonego w 2021 roku przez Pearson VUE wśród 21 tysięcy pracowników z branży IT, którzy zdecydowali się podnieść kompetencje zawodowe, aż 93 proc. w ciągu roku otrzymało podwyżkę, a w przypadku 55 proc. ankietowanych pracodawcy nagrodzili ich starania w zaledwie 3 miesiące od otrzymania dokumentu potwierdzającego ukończenie kursu. 29 proc. badanych otrzymało ponad 20-proc. podwyżkę, natomiast co czwarty mógł liczyć na podniesienie wynagrodzenia o 11-20 proc.

Większe szanse na rynku pracy – kursy i certyfikaty data science

Ze względu na pandemię większość szkoleń w badanych firmach w latach 2019-2021 dotyczyła kwestii związanych z usługami sieciowymi, cloud computingiem i cyberbezpieczeństwem. Jednak jak wynika z badania Pearson VUE, w najbliższych latach zarządy firm zamierzają kłaść dużo większy nacisk na podnoszenie umiejętności pracowników w zakresie analityki biznesowej, sztucznej inteligencji i machine learningu. Umiejętności obchodzenia się z big data będą głównym czynnikiem różnicującym firmy na ciągle zmieniającym się rynku, a to oznacza potrzebę zatrudniania nowych specjalistów albo szkolenia załogi w zakresie bardziej efektywnej eksploracji danych biznesowych.

Większość certyfikatów data science dostępnych na rynku potwierdza umiejętności analitycznego myślenia i rozwiązywania podstawowych zadań napotykanych w pracy z narzędziem do analizy danych. Decyzja o wyborze danego certyfikatu powinna być związana z tym, jakich konkretnych programów i rodzajów danych zamierzamy używać. Ceny egzaminów wahają się od kilkuset dolarów do kilku tysięcy. Zazwyczaj organizatorzy dostarczają niezbędne materiały, a także dostęp do platformy, której dotyczy egzamin.

SAS Certified Data Scientist

SAS Certified Data Scientist to tytuł poświadczający wszechstronną wiedzę na temat analizy danych i narzędzi zarówno open source, jak również powszechnie stosowanego oprogramowania SAS. Aby zdobyć ten certyfikat, trzeba zdać egzamin SAS Data Curation Professional, który potwierdza umiejętność przygotowania danych w narzędziach SAS oraz Hadoop. Na kolejnym etapie można wybrać jedną z dwóch ścieżek: SAS Advanced Analytics Professional lub SAS AI & Machine Learning Professional. Oba certyfikaty wymagają zdania 3-częściowego egzaminu. Pierwszy dokumentuje znajomość środowisk SAS 9.4 i SAS Enterprise Miner 7, 13 lub 14, a także umiejętność przeprowadzania eksperymentów oraz tworzenia modeli predykcyjnych.

Zdolności w zakresie posługiwania się otwartoźródłowymi narzędziami i platformą SAS Viya potwierdza druga ścieżka, kończąca się certyfikatem SAS Certified Professional: Artificial Intelligence and Machine Learning. Zdający egzamin muszą wykazać się wiedzą w zakresie uczenia maszynowego, prognozowania i optymalizacji oraz języka naturalnego i wizji komputerowej. Warto odnotować, że obie ścieżki w ramach SAS Certified Data Scientist funkcjonują również samodzielnie – poszczególne certyfikaty można zdobyć osobno.

Na stronie internetowej SAS są przykładowe pytania egzaminacyjne i 5-częściowe kursy przygotowawcze (bezpłatne przez 30 dni). Po ich ukończeniu uczestnicy mogą podejść do egzaminów. Wcześniej warto zapoznać się z podstawami pracy zarówno z platformą SAS Viya, jak i z elementami statystyki. Szczególnie warto zwrócić uwagę na zrozumienie regresji liniowej oraz analizy wariancji (ANOVA).

SAS ModelOps Specialist

Certyfikat SAS ModelOps Specialist zaświadcza o umiejętnościach modelowania statystycznego, począwszy od tworzenia i zarządzania modelem, po wszystkie etapy jego funkcjonowania. Egzamin potwierdza zdolność do podejmowania decyzji biznesowych na podstawie dostępnych danych i modeli biznesowych, a także porównywania różnych modeli i ich dopasowywania. Test składa się z 65 pytań (zarówno otwartych, jak i wielokrotnego wyboru) i trwa 110 minut. Aby zdobyć certyfikat SAS ModelOps Specialist, kandydat musi uzyskać minimum 65 proc. punktów.

MIT Applied Data Science Program

Massachusetts Institute of Technology przygotował kurs online poświęcony podejmowaniu decyzji w oparciu o analizę danych biznesowych. Po przejściu przez wszystkie zagadnienia uczestnicy otrzymują certyfikat ukończenia szkolenia. Kurs trwa 12 tygodni: podczas pierwszych dwóch kursanci poznają podstawy analizy danych, przez kolejne zgłębiają tajniki uczenia maszynowego, deep learningu, sieci neuronowych i wizji komputerowej. Uczestnicy uczą się podstaw programowania w Pythonie, a także opanowują narzędzia matematyczne i statystyczne przydatne w data science. Pomagają w tym praktyczne zajęcia z przygotowania, eksploracji i analizy danych.

Harvard/EdX Professional Certificate in Data Science

To z kolei kurs przygotowany przez Uniwersytet Harvarda we współpracy z platformą e-learningową EdX. Szkolenie skupia się na rozwijaniu umiejętności posługiwania się językiem R i otwartoźródłowymi platformami, jak RStudio, git, GitHub oraz Linux. W trakcie 17 miesięcy (około 3 godzin tygodniowo) uczestnicy poznają podstawy języka R, wizualizacji danych, teorii prawdopodobieństwa i statystyki, przygotowania danych i budowania modeli. Zwieńczeniem kursu jest przygotowanie systemu rekomendacji filmów za pomocą algorytmów uczenia maszynowego oraz prezentacja zdobytej wiedzy.

Certyfikaty data science to wartość dla firmy

Z perspektywy pracodawcy, inwestycja w szkolenie pracownika podnosi umiejętności konkretnej osoby, ale pośrednio wpływa także na cały zespół. Wiedza pozyskana podczas przygotowywania się do egzaminu jest przekazywana współpracownikom na co dzień i podczas wewnętrznych szkoleń. Z tego powodu, jak wskazuje raport “2020 IT Skills and Salary”, certyfikat jednego pracownika oznacza około 10 tysięcy dolarów wartości dodanej dla całej organizacji.

– Analiza pomiarów sieci polega na wyciąganiu danych z bardzo dużego zbioru, aby znaleźć pewne korelacje i zależności. Mogą one wskazywać, że wystąpił problem albo dlaczego wystąpił. Następnie trzeba zwizualizować problemy w postaci wykresów i analiz. Do tego celu używamy metod data science – opowiada dr hab. inż. Krzysztof Grochla.

Krzysztof Grochla bada skalowalność sieci bezprzewodowych, wydajność protokołów sieciowych i systemy internetu rzeczy. Jest kierownikiem Zespołu IoT w Instytucie Informatyki Teoretycznej i Stosowanej Polskiej Akademii Nauk. W pracy naukowej zajmuje się także efektywnością sieci telekomunikacyjnych, projektowaniem protokołów i algorytmów dla sieci bezprzewodowych LP WAN oraz systemami wykrywania bliskości i lokalizacji urządzeń. Ma doświadczenie w zarządzaniu i realizacji dużych projektów badawczo-rozwojowych. Jako ekspert współpracował m.in. z Komisją Europejską, Narodowym Centrum Badań i Rozwoju oraz Ministerstwem Funduszy i Polityki Regionalnej.

Około 10 lat temu wiele mówiło się o internecie rzeczy, jako futurystycznej wizji. Zaskoczyło Pana, że tak szybko IoT stało się codziennością?

Prawdę powiedziawszy, nie byłem tym zaskoczony. Będąc blisko technologii, obserwując rozwój i powszechność podłączania do internetu różnych rodzajów komputerów i serwerów, a później coraz większej liczby kolejnych urządzeń, spodziewałem się wykładniczego przyrostu złożoności sieci. Rzeczywiście skala powszechności wykorzystania internetu i to, że podłączamy do sieci już nawet pralki, telewizory czy drobne urządzenia domowe, jest ogromna. Jednak śledząc rozwój sieci bezprzewodowych i sieci komputerowych, można było przewidywać prawdopodobne skutki.

A co w obrębie internetu rzeczy jest dziś problemem lub pozostanie wyzwaniem w najbliższym czasie? Co wymaga opracowania nowych rozwiązań technologicznych?

Na pewno ogromnym wyzwaniem jest skalowalność protokołów i mechanizmów transmisji danych, ponieważ wraz ze wzrostem liczby urządzeń rośnie także wielkość i różnorodność transmisji danych, wykonywanych przez te urządzenia. Systemy i algorytmy zarządzania transmisją muszą się do tego dopasować i odpowiednio rozwijać. Innym problemem jest automatyzacja i ułatwienie rozwoju sieci, ponieważ to, co mogliśmy dotąd ręcznie skonfigurować i zaktualizować na komputerze, jest często niemożliwe na małym urządzeniu, które uruchamiamy i zapominamy o nim. Nowe urządzenia muszą więc same konfigurować się i naprawiać, a także same zgłaszać nam ewentualne problemy w działaniu. Jeszcze jednym dużym wyzwaniem jest bezpieczeństwo, ponieważ tak duża liczba urządzeń w domach i wszędzie wokół powoduje, że bardzo łatwo nas podsłuchać, nagrać albo wykraść prywatne dane. Zapewnienie bezpieczeństwa wielu małym urządzeniom jest dużo trudniejsze niż jednemu komputerowi, który dawniej był jedynym urządzeniem podłączonym w domu do internetu.

A to jest w ogóle możliwe, zwłaszcza uwzględniając komplikacje związane z różnorodnością małych czy nietypowych urządzeń i aktualizowaniem ich oprogramowania?

Jest to na pewno bardzo trudne i przy aktualnie stosowanych rozwiązaniach w zakresie bezpieczeństwa wydaje się niemożliwe. Natomiast cały czas są prowadzone prace standaryzacyjne, dotyczące rozwoju technologii, żeby na przykład wymóc na producentach stosowanie rozwiązań, które zapewnią dostępność aktualizacji oprogramowania w zakresie bezpieczeństwa. Przydadzą się też odpowiednie oznaczenia sprzętu etykietami informującymi o aktualizacjach, które będą gwarantowały zachowanie pewnych funkcjonalności. Już poza samymi aspektami bezpieczeństwa – często stajemy przed problemem, że urządzenia bez aktualizacji oprogramowania przestają poprawnie działać. Np. nie są w stanie połączyć się z serwisem strumieniowania wideo, ponieważ nie obsługują najnowszych kodeków.

Ma pan na myśli przygotowywane nowe prawo europejskie?

Tak, mówię o nowych wytycznych Komisji Europejskiej w sprawie obowiązku zapewniania aktualizacji przez minimum 5 lat od wprowadzenia urządzenia na rynek. W Polsce prace nad adaptacją tych standardów są prowadzone między innymi w ramach Grupy Roboczej ds. Internetu Rzeczy, kiedyś działającej przy Ministerstwie Cyfryzacji, a obecnie Kancelarii Premiera.

Specjalizuje się pan w badaniu skalowalności sieci bezprzewodowych. Na czym ono polega?

Jeśli w danej sieci pracuje kilka czy kilkanaście urządzeń, możemy łatwo sprawdzić, czy wszystkie ich funkcje działają poprawnie. Natomiast problemy pojawiają się, gdy tych urządzeń mamy tysiąc albo dziesiątki tysięcy. Ze względu na koszty i pracochłonność praktycznie żaden producent sprzętu nie jest w stanie pozwolić sobie na przetestowanie tysiąca urządzeń, żeby sprawdzić, jak na przykład serwer zachowa się w odpowiedzi na zapytania przesłane przez wszystkie te urządzenia. Dlatego stosujemy tzw. symulację zdarzeń dyskretnych, która w pamięci komputera PC odtwarza zachowanie wielu urządzeń bądź wielu równoczesnych transmisji w sieciach bezprzewodowych lub zwykłych. W ten sposób symulujemy to, co działoby się w rzeczywistości na tysiącu albo dziesiątkach tysięcy urządzeń w ciągu sekund bądź minut pracy komputera.

Jakie narzędzia służą do takich badań?

W zakresie samych symulacji protokołów sieciowych dwa najczęściej stosowane narzędzia to ns-3 i OMNeT++. Natomiast z punktu widzenia systemów data science i systemów serwerowych używamy też narzędzi do testów performance’owych, które wykorzystujemy do odzwierciedlenia działania wielu urządzeń czy wielu klientów. Przykładami takich narzędzi są JMeter i Locust.

A jakie miejsce analityka danych zajmuje w badaniu skalowalności sieci bezprzewodowych?

Poza modelowaniem i analizowaniem efektywności poszczególnych protokołów zajmujemy się również analizą pomiarów rzeczywistych sieci. I to jest zagadnienie typowo dotyczące data science, bo polega na wyciąganiu danych z bardzo dużego zbioru, aby znaleźć pewne korelacje i zależności wskazujące, że wystąpił jakiś problem albo dlaczego ten problem wystąpił. Następnie trzeba zwizualizować te problemy w postaci wykresów czy analiz. Tu korzystamy z metod data science. Z drugiej strony wyniki naszych symulacji często generują bardzo duże zbiory danych, które później musimy przeglądać z użyciem metod analitycznych.

W ostatnich latach media dużo czasu poświęciły sieci 5G, jako generacji, która skokowo poprawia wydajność i prywatnych, i przemysłowych zastosowań. Co wpływa na efektywność łączności piątej generacji?

W przypadku 5G największym wyzwaniem jest zapewnienie gęstego zapełnienia pasmem terenów, które są mocno zurbanizowane. Czyli chodzi o zwiększenie dostępnej przepustowości dla osób, które są w miejscach, gdzie jest bardzo duże zagęszczenie klientów. Rozwiązuje się ten problem, z jednej strony zwiększając liczbę stacji bazowych i zmniejszając ich moc nadawania, po to aby móc wielokrotnie wykorzystać tą samą częstotliwość na danym obszarze. Z drugiej strony dużym wyzwaniem jest takie zaprojektowanie rozmieszczenia stacji bazowych, żeby dopasować się do gęstości użytkowników na danym terenie i do ich wymagań dotyczących zapotrzebowania na przepustowość sieci. Ważnym aspektem koniecznym do uwzględnienia w projektowaniu takich sieci jest zmienność obciążenia w czasie. Zupełnie inne obszary miasta wymagają dużej przepustowości w godzinach pracy, a zupełnie inne po południu czy wieczorami, gdy ludzie wracają do domu.

Jeżeli na danym terenie jest więcej osób, sieć działa gorzej.

Tak, ale też ogromne znaczenie ma charakter ruchu – dużo mniejszym obciążeniem dla sieci jest transmisja rozmowy telefonicznej niż transmisja strumienia wideo czy wideokonferencji.

A jak wygląda kwestia zakłóceń w sieci 5G?

Rodzina standardów 5G zawiera szereg mechanizmów zwiększających odporność transmisji na zakłócenia, takich jak np. kodowanie nadmiarowe oraz mechanizm HARQ. Dodatkowo w 5G wprowadzono tzw. numerologie, które pozwalają lepiej dopasować sposób transmisji do szerokości dostępnego pasma. Umożliwia to urządzeniom 5G lepiej współdziałać z innymi standardami transmisji i zapewnić większą odporność transmisji na zakłócenia.

5G rozwija się, tymczasem trwają już prace nad standardem 6G. Co przyniesie nam szósta generacja łączności?

6G jest naturalnym rozwojem standardu 5G w zakresie dalszego zwiększania przepływności transmisji danych, na przykład poprzez zwiększenie wykorzystania anten MIMO, które umożliwiają transmisję do wielu użytkowników na tym samym obszarze z wykorzystaniem tych samych częstotliwości i slotów czasowych. A zatem jest to dalsze dopasowywanie sieci do obsługi bardzo dużej liczby urządzeń, ponieważ w przypadku sieci 4G, 3G i starszych problemem były ograniczenia dotyczące liczby urządzeń wspieranych przez jedną stację bazową i działających w ramach jednej komórki. W przypadku urządzeń IoT nie przepustowość sieci stanowi główne wyzwanie, ale właśnie możliwość obsługi większej liczby urządzeń. Standardy 5G i 6G przychodzą tu z pomocą.

Powoli oswajamy się z obecnością AI w nauce, pracy i codziennym życiu. Teraz przychodzi czas na sztukę. Twórczość algorytmów to nowy rozdział dla galerii i muzeów, które potrzebują ekspertów oraz budowania kompetencji umożliwiających właściwą ocenę dzieł. Sztuczna inteligencja w sztuce to też sporo kontrowersji odnośnie praw do utworów.

Rok temu w galerii sztuki w Wellington można było podziwiać obrazy wykreowane na bazie fotografii mrówek. Wcześniej popularnością cieszyła się interaktywna wystawa “AI: More than Human” w londyńskim centrum sztuki Barbican Centre, pokazująca możliwości i wpływ sztucznej inteligencji na świat. Kolejne dzieła, które powstają z pomocą cyfrowych modeli, sprawiają, że prowadzący instytucje kultury muszą zdobywać wiedzę o metodach twórczości AI, a także wsparcie ekspertów data science. Obecność algorytmów w sztuce wymaga dodatkowo odpowiedzi na pytanie – kto jest artystą?

Pod koniec sierpnia usłyszeliśmy o zwycięstwie sztucznej inteligencji z zawodowymi grafikami. Praca pt. “Théâtre D’opéra Spatial” zgłoszona przez Jasona M. Allena, projektanta gier komputerowych, wygrała w konkursie sztuki cyfrowej podczas Colorado State Fair (dorocznym festiwalu organizowanym w amerykańskim mieście Pueblo). Kontrowersje wzbudziło powstanie dzieła — Allen wykorzystał program Midjourney, który pozwala tworzyć obrazy na podstawie słów kluczowych. Praca autora sprowadzała się do podania wyrazów definiujących nastrój na scenie, którą chwilę potem odmalowała AI. Spośród kilkuset obrazów Allen wytypował 3, a następnie zgłosił do konkursu pod swoim nazwiskiem z adnotacją “via Midjourney”. Po ogłoszeniu werdyktu wielu komentatorów stwierdziło, że procesu wyszukiwania i selekcji nie można porównywać z pracą zawodowych grafików, którzy spędzają długie godziny nad dopracowywaniem swoich obrazów.

Dyskusja o tym, czy dzieła tworzone z wykorzystaniem sztucznej inteligencji powinny być traktowane tak samo jak prace fotografów i grafików przypomina debaty, jakie pojawiły się po wejściu na rynek aparatów fotograficznych. Wówczas obrońcy malarzy argumentowali, że naciśnięcie spustu migawki aparatu nie powinno być traktowane na równi z namalowaniem obrazu. Z jednej strony, nie sposób się nie zgodzić ze stronnikami malarzy i grafików. Z drugiej, warto pamiętać, że tak aparaty, jak i algorytmy sztucznej inteligencji to tylko narzędzia i choć ułatwiają przygotowywanie dzieła, to o ostatecznym efekcie i tak decyduje człowiek. Autor projektu dobiera parametry, przygotowuje dane, na podstawie których AI opracuje wyniki, a na końcu wybiera jeden z zaproponowanych przez algorytmy obrazów.

Prawdziwa sztuka automatyzacji się nie boi?

Łatwość i dostępność narzędzi do tworzenia obrazów na podstawie słów kluczowych jest też pewnego rodzaju pułapką — sztuczna inteligencja pozwala kopiować styl znanych malarzy i grafików, jednak tego typu prace dość szybko powszednieją i po kilku tygodniach selfie z filtrem w stylu Rembrandta czy van Gogha już nikogo nie zadziwi. Łatwość, z jaką odbiorcy generowanej komputerowo sztuki mogą się nią znudzić, powoduje, że osoby odpowiedzialne za organizowanie wystaw powinny rozpoznawać obrazy wygenerowane za pomocą AI. Muszą także umieć ocenić, czy dane dzieło można uznać za wyjątkowe – czy jest pracą raczej pospolitą i łatwą do odtworzenia przez kogokolwiek.

Zarówno Midjourney, jak i Stable Diffusion oraz DALL-E pokazują, że AI nie poprzestaje na nauce czy biznesie i bez trudu wchodzi w kolejne obszary życia, uznawane dotąd za domenę ludzi. Te algorytmy z pewnością znajdą zastosowanie na rynku i stanowią zagrożenie dla grafików zajmujących się tworzeniem ilustracji do książek, czasopism i gier planszowych, szczególnie gdy czas i cena będą grały kluczową rolę. Jednak w przypadku galerii sztuki, gdzie z założenia liczy się coś więcej niż zwykłe naśladownictwo, te nowe cyfrowe narzędzia stanowią dobre pole do popisu dla artystów, którzy zechcą wyróżnić się kreatywnością i talentem.

Kultura remiksu

Skutkiem zwycięstwa sztucznej inteligencji w konkursie plastycznym i nagłośnienia tego faktu był gwałtowny wzrost zainteresowania programami do automatycznego tworzenia grafiki na podstawie słów kluczowych. Jednak, aby program mógł przygotować zadowalający wynik w postaci cyfrowego obrazu, wcześniej musi powstać model stworzony w oparciu o bazę grafik. W ten sposób sztuczna inteligencja zamienia się w kopistę znanych malarzy i grafików z różnych epok. Co ciekawe, artystą, którego kreska jest najczęściej kopiowana w ten sposób, jest Grzegorz Rutkowski — polski grafik zajmujący się tworzeniem ilustracji i koncept-artów do takich gier, jak “Horizon Forbidden West” czy “Magic the Gathering”. Jego nazwisko pada najczęściej jako kryterium stylu, w jakim użytkownicy Midjourney chcieliby, aby sztuczna inteligencja stworzyła im obraz.

Wzorowanie się na innych twórcach znajdziemy praktycznie u każdego artysty. Parafrazując: najbardziej lubimy te obrazy, które już kiedyś widzieliśmy. Wcześniej przez to, z czym mierzą się zawodowi graficy, przechodzili muzycy. Wykorzystywanie fragmentów utworów (tzw. sampli) i linii melodycznych było powodem wielu procesów sądowych i doprowadziło do uregulowania kwestii korzystania z utworów zależnych co najmniej przez odpowiednie oznaczanie autorstwa. W przypadku utworów powstałych z wykorzystaniem sztucznej inteligencji będzie zapewne podobnie. Wobec tego kuratorzy wystaw i organizatorzy konkursów artystycznych powinni zwracać szczególną uwagę na zawartość zbiorów danych, na których trenowane były algorytmy uczenia maszynowego. Być może dobrym rozwiązaniem byłoby włączenie do jury i zespołów zarządzających instytucjami data scientistów, którzy umieliby rzetelnie ocenić nadsyłane i wystawiane prace.

Problem praw autorskich

To ludzie odpowiadają za wybór słów kluczowych i konkretnego zbioru danych, na podstawie których algorytmy remiksują obrazy, tworząc zupełnie nowe grafiki. Dlatego obecnie raczej nie ma podstaw, żeby sztucznej inteligencji przyznawać prawa autorskie. W przyszłości jednak granica może zostać przesunięta jeszcze bardziej, dlatego instytucje kultury i prawodawcy powinni przygotować się na programy, które zaczną tworzyć bez jakiegokolwiek udziału człowieka. W strategii polskiego rządu dotyczącej rozwoju sztucznej inteligencji zaplanowano stworzenie przepisów, zgodnie z którymi programy komputerowe nie będą miały praw autorskich do dzieł.

Skoro jednak sztuczna inteligencja nie ma praw, to komu one przysługują? Twórcom dzieł zawartych w bazach treningowych algorytmów? Autorom algorytmów? Dyskusja w doktrynie trwa. Za stanowiskiem, według którego ani maszyny, ani ludzie nie mają praw do obrazów wytworzonych przez algorytmy, przemawiają m.in. postanowienia odrzucające kolejne wnioski eksperta AI, dr. Stephena Thalera, o ochronę prawnoautorską obrazu pt. „A Recent Entrance to Paradise” opracowanego przez algorytm „Creative machine”. Zdaniem Thalera, sztuczna inteligencja mogłaby działać na rzecz ludzi na podstawie doktryny „work made for hire”, zgodnie z którą pracodawca, a nie pracownik jest właścicielem utworu. Prawnicy zwracają jednak uwagę, że autor to nie to samo, co właściciel, ponadto SI nie może skutecznie zawrzeć umowy. Polska badaczka, prof. Aleksandra Nowak-Gruca, zauważa natomiast, że podejście Thalera może być o tyle słuszne, że przyznając prawa osobom i organizacjom korzystającym z algorytmów, udałoby się rozwiązać problem odpowiedzialności za wytwory AI.

Systemy prawne będą musiały nadążyć za komputerowymi i określić, komu przypadają prawa, gdy utwór stworzy sztuczna inteligencja. Bez tego pod znakiem zapytania staną choćby takie kwestie, jak możliwość podpisywania dzieł oraz wypłacania tantiem i honorariów za wystawy.

AI jeszcze długo nie zastąpi artystów

Warto zwrócić uwagę na ograniczenia, z jakimi wiąże się korzystanie z narzędzi AI. Zarówno opracowany przez zespół OpenAI system DALL-E, jak i Midjourney, mogą generować wyniki dyskryminujące określone społeczności i utrwalające stereotypy, na co zwrócili uwagę dziennikarze Washington Post. Okazuje się, że wpisując frazy “CEO” i “prawnik”, program podsuwa obrazy przedstawiające jedynie białych mężczyzn w średnim wieku, a słowo “terrorysta” spowoduje, że ujrzymy portrety osób z długimi brodami i w turbanach. Te przykłady najlepiej pokazują, że choć grafiki tworzone z udziałem sztucznej inteligencji robią wrażenie, to jednak ciągle większość pracy koncepcyjnej spoczywa na człowieku. To jego zadaniem jest ujarzmienie twórczego chaosu sztucznej inteligencji, z pomocą której powstaje artystyczna wypowiedź.

Wywiad z Ivoną Tau o sztuce AI

Wkrótce w portalu Data Science robię porozmawiamy z dr Ivoną Tautkute-Rustecką, tworzącą, jako Ivona Tau, dzieła za pomocą narzędzi SI. Artystka równolegle zajmuje się zawodowo data science, specjalizując się w wizji komputerowej.