Jak dane syntetyczne zmieniają świat w dobie AI
Przemysław Janicki, Sr Pre-Sales Solutions Architect, Risk Solutions GSZ/CE, SAS
Przystępując do codziennej pracy analityka danych czy twórcy modeli zwykle nie zastanawiamy się nad naturą naszych danych. W dotychczasowej praktyce były one bowiem niemal zawsze wytworem otaczającej nas rzeczywistości, stanowiąc jej ilościowy lub jakościowy opis w czasie lub przestrzeni. Dane telekomunikacyjne, finansowe, odnoszące się do zdrowia populacji czy zwyczajów zakupowych konsumentów – wszystkie łączy jedno: są to dane, które stanowią rezultat rzeczywistych zjawisk czy procesów mających miejsce w określonym momencie w przeszłości.
Dlaczego dane rzeczywiste nie zawsze wystarczają?
W niektórych dziedzinach zastosowań wykorzystanie danych rzeczywistych nie zawsze jest jednak możliwe lub racjonalne – choćby z powodu kosztów związanych z ich pozyskaniem. W innych przypadkach, choć dane takie będą co do zasady stanowiły podstawę naszej pracy, ograniczanie się do ich analizy w postaci „as is” nie zawsze będzie rozwiązaniem optymalnym – tu za przykład może nam posłużyć jakże częsty przypadek niezbilansowanej próby, gdy wybrane jej segmenty (grupy, warstwy) okazują się niedoreprezentowane (nadreprezentowane), prowadząc do istotnego obciążenia (bias) wskazań modelu – lub też sytuacja gdy nasza próba jest zbyt mało liczna, by w oparciu o nią móc przeprowadzić racjonalne wnioskowanie (albo też będzie wykazywała zbyt małą wewnętrzną zmienność, odzwierciedlając tylko niewielką część możliwych kombinacji stanów wektora wejściowego dla modelowanego zjawiska).
W jeszcze innych sytuacjach oparcie wnioskowania na danych rzeczywistych nie będzie w ogóle możliwe, ponieważ dane takie po prostu nie będą istnieć. Mamy tu na myśli wszelkiego rodzaju analizy symulacyjne lub scenariuszowe, które często towarzyszą wprowadzaniu na rynek nowego produktu czy usługi, weryfikowaniu skuteczności nowatorskiej terapii (medycznej) czy choćby ocenie skutków regulacji. W tych i innych przypadkach przychodzą nam z pomocą dane syntetyczne (por. rysunek 1).
Rysunek 1. Przykładowe obszary i sposoby wykorzystania danych syntetycznych.
Jak dane syntetyczne uzupełniają rzeczywistość?
Dane syntetyczne to klasa danych, które są generowane sztucznie. W przeciwieństwie do danych rzeczywistych, które zostały bezpośrednio zaobserwowane i zarejestrowane, dane syntetyczne zostały celowo i w uporządkowany sposób wytworzone. Kluczem do zrozumienia sensu ich wykorzystania jest właśnie owa celowość. Nie należy bowiem mylić danych syntetycznych z danymi przypadkowymi – przeciwnie, generując dane syntetyczne dążymy do tego, by w jak największym stopniu oddawały one charakterystyki rozkładu (lub inne cechy) danych, które wzbogacają lub zastępują. Tworzymy syntezę danych rzeczywistych i na tej podstawie generujemy nowe, nierejestrowane w przeszłości, dane – w szczególności generując je dla warunków, których (jeszcze) nie zaobserwowano. Choć więc dane rzeczywiste będą prawie zawsze najlepszą podstawą wnioskowania (z zastrzeżeniem wymienionych wcześniej przypadków – prawie w tym przypadku naprawdę robi wielką różnicę), prawidłowo skonstruowane dane syntetyczne mogą się okazać skutecznym uzupełnieniem lub alternatywą dla danych rzeczywistych, które dzięki swoim właściwościom pozwolą nam tworzyć bardziej adekwatne, wiarygodne i skalowalne modele.
Kiedy warto sięgnąć po dane syntetyczne?
Choć te zalety uwidaczniają się w przypadku modelu każdego niemal typu, szczególnego znaczenia nabierają w przypadku modeli generatywnej sztucznej inteligencji (generative AI), która na własne potrzeby konsumuje olbrzymie ilości danych uczących. Znany dziś już chyba każdemu ChatGPT na pytanie czym jest generatywna sztuczna inteligencja, w 2023 roku udzielił następującej odpowiedzi: „Są to systemy sztucznej inteligencji typu black box, które wykorzystują techniki głębokiego uczenia na bardzo dużych zbiorach danych, aby tworzyć nowe treści tekstowe, wizualne i dźwiękowe na podstawie podpowiedzi lub istniejących danych”[1]. W tym kontekście truizmem wydaje się znane powiedzenie, że nie ma dobrej AI bez dobrej jakości danych. W szczególności danych, które sztuczna inteligencja może przetwarzać w sposób bezpieczny, gdyż, jak pokazują wyniki niektórych badań, nawet 75% decydentów jest zatroskanych o prywatność i bezpieczeństwo danych, które w ich organizacjach przetwarzane są przy wykorzystaniu generatywnej sztucznej inteligencji (z drugiej strony aż 80% z nich wykazało duże zainteresowanie wykorzystaniem danych syntetycznych do rozwiązywania problemów związanych z danymi i ich użyciem na potrzeby generatywnej sztucznej inteligencji – por. rysunek 2)[2].
Rysunek 2. Dane syntetyczne jako potencjalne remedium na problem bezpieczeństwa danych w systemach AI.
Dane syntetyczne – podobnie jak sama generatywna sztuczna inteligencja – zawierają więc w sobie potencjał, którego nie warto lekceważyć, na co w swych raportach wskazują najbardziej uznane branżowe organizacje analityczne i doradcze (por. rysunek 3). Co więcej, umożliwiają one wykorzystanie sztucznej inteligencji tam, gdzie niedostatek dobrej jakości (rzeczywistych) danych uczących sprawia, że zastosowanie technik generatywnej sztucznej inteligencji staje się zbyt ryzykowne z powodu zjawiska, które określa się słowem, jakie dotąd zarezerwowane było raczej dla zachowań przedstawicieli inteligencji naturalnej – zjawiska halucynacji – kiedy to system, z pełnym „przekonaniem” o prawdziwości udzielonej odpowiedzi (które to przekonanie może udzielić się również jej odbiorcy), konfabuluje. Odpowiednio wygenerowane dane syntetyczne mogą więc to ryzyko ograniczyć.
Rysunek 3. Wybrane opinie na temat rynkowego potencjału danych syntetycznych.
Rachunek zysków i strat
Niewątpliwe zalety wykorzystania danych syntetycznych w codziennej pracy analityka to jednak tylko jedna strona medalu – nie powinniśmy ignorować także ryzyka, jakie z korzystaniem z nich się wiąże, a decyzje o ich zastosowaniu podejmować po odpowiednim zważeniu zysków i strat. Na szczęście można chyba sformułować tezę, że główne ryzyko – jakość danych wynikowych i ich porównywalność do danych będących podstawą syntezy – da się w znacznym stopniu kontrolować, a wraz z doskonaleniem technik generowania danych syntetycznych także w coraz większym stopniu mitygować.
Wszystkim zainteresowanym technikami generowania danych syntetycznych polecam artykuł „Praktyczny przewodnik po generowaniu danych syntetycznych” link
[1] Black box AI systems that use deep learning on extremely large datasets to create new written, visual and auditory content given prompts or existing data.
[2] https://www.sas.com/en_us/offers/24q2/generative-ai-reports.html