Jeden obraz wart więcej niż gigabajty informacji, czyli wizualizacja w data science

Jeden obraz wart więcej niż gigabajty informacji, czyli wizualizacja w data science

Dane mogą znacznie uprościć procesy decyzyjne w przedsiębiorstwach. Ale jest warunek. Muszą być przedstawiane tak, żeby każdy mógł wyciągnąć właściwe wnioski. Wizualizacja w data science przygotowana przez analityków przyśpiesza ustalenia z klientami i menadżerami. Z jakich form graficznych warto korzystać, aby pokazać zależności, powiązania i proporcje w obrębie danych?

Tylko w 2022 roku świat wytworzy 97 zettabajtów danych, a w 2026 przyrost ma postępować dwukrotnie szybciej niż to się dzieje obecnie. Oczywiście nie wszystkie informacje, które są w zasięgu  firm są równie istotne ze strategicznego punktu widzenia. Aby odróżnić to, co może mieć wpływ na skuteczność działań biznesowych i właściwe zrozumienie potrzeb klienta, już dziś sięga się po zaawansowane narzędzia, umożliwiające badanie relacji i poszukiwanie związków przyczynowo-skutkowych, a jednocześnie odsiewające nieistotny szum. Staranna analiza to jednak dopiero połowa sukcesu — przekonanie klientów i osób podejmujących decyzje wymaga dodatkowej umiejętności: zaprezentowania danych i płynących z nich wniosków w sposób na tyle przystępny, by odbiorcy bez trudu zobaczyli w gąszczu danych to, co najważniejsze.

Dane mogą opowiadać ciekawą historię

Niezależnie od tego, czy celem jest poprawa sprzedaży, lepsze dotarcie z przekazem marketingowym, optymalizacja procesów czy redukcja kosztów, prezentowane dane powinny w logiczny sposób pokazywać, jaki wpływ na ogólny wynik ma konkretne zjawisko albo zdarzenie, które starasz się przedstawić. Wiadomo, że nikt nie zna przyszłości, ani nie ma kryształowej kuli, jednak opierając się na istniejących danych, można w przybliżeniu oszacować zmiany sprzedaży w nadchodzących kwartałach albo zapotrzebowanie na części zamienne lub surowce. Użytecznym narzędziem do realizacji takich zadań jest np. platforma SAS Viya, która dla konkretnych danych potrafi automatycznie dobrać algorytm pozwalający prognozować przyszłe wyniki.

Algorytmy wybiorą formę wizualizacji

Odpowiedni wybór wykresu ma duże znaczenie z perspektywy odbiorcy przekazu. To nie tylko kwestia estetyki, ale przede wszystkim czytelności. Forma wizualizacji powinna być tak dobrana, aby już na pierwszy rzut oka było wiadomo, które dane są istotne, jakie są relacje pomiędzy poszczególnymi elementami i na co odbiorca powinien zwrócić uwagę. Dlatego warto poświęcić trochę czasu na przemyślenie, czy w danym wypadku lepiej sprawdzi się histogram, wykres pierścieniowy czy może drzewo decyzyjne. I tu też pomogą inteligentne narzędzia w rodzaju SAS Visual Analytics. Algorytmy po zbadaniu informacji zaproponują wykresy i wizualizacje, które później można modyfikować, a finalnie umieścić w prezentacji lub dokumencie.

Wykresy kołowe?

Wykresy kołowe od lat są źródłem kontrowersji. Na pierwszy rzut oka wyglądają ciekawiej niż wykresy z dwiema osiami i w naturalny sposób pokazują proporcje. Z tego powodu często są wykorzystywane do prezentowania danych procentowych. Jednak przeciwnicy modeli kołowych zwracają uwagę, że ludzki mózg nie najlepiej radzi sobie z porównywaniem pól powierzchni, przez co takie wykresy mogą być odczytywane niewłaściwie. Aby zniwelować niekorzystną właściwość zmysłów człowieka, stworzono ulepszoną wersję wykresu kołowego, czyli wykres pierścieniowy z wyciętym środkiem (stąd angielska cukiernicza nazwa: donut chart). W jego środek warto wpisać wartość, którą pokazujemy. Niestety nawet po modyfikacji odbiorcy mogą mieć problem z porównaniem odcinków, zwłaszcza jeśli te nie znajdują się obok siebie, dlatego omawiany typ wykresu najlepiej sprawdzi się w przypadku kilku wartości, opisanych procentowo. Dodatkową wadą wykresów kołowych jest to, że zazwyczaj wymagają więcej przestrzeni niż wykresy słupkowe i liniowe, co z kolei ma istotne znaczenie w przypadku prezentowania danych na urządzeniach mobilnych (do nich jeszcze w artykule wrócimy).

Mówmy o danych tak prosto, jak to tylko możliwe, ale nie prościej

Duże ilości informacji niestety zazwyczaj trudno przedstawić na jednym histogramie albo wykresie kołowym. Zbytnie uproszczenia mogą wprowadzać w błąd. Parafrazując słowa Einsteina: "o danych powinniśmy mówić tak prosto, jak to tylko możliwe, ale nie prościej". Czytelniejszym sposobem na pokazanie korelacji pomiędzy różnymi typami danych jest skorzystanie z diagramów sieciowych, drzew decyzyjnych albo wykresów pudełkowych. Ostatnie, choć precyzyjnie pokazują wartości odstające, medianę czy rozstęp międzykwartylowy (różnicę między pierwszym a trzecim kwartałem), to dla osoby, która nie zajmuje się na co dzień statystyką opisową, mogą być na pierwszy rzut oka niejasne.

Drzewa decyzyjne

Jedną z ciekawych technik przedstawiania informacji są drzewa klasyfikacyjne i ich szczególny typ — drzewa decyzyjne. Z ich pomocą zależności pomiędzy różnymi danymi można dostrzec szybciej niż wówczas, gdy są prezentowane np. przy użyciu tabeli. Zaletą drzew decyzyjnych jest łatwość interpretacji nawet przez laików, natomiast osoby bardziej doświadczone będą w stanie szybciej zbudować hipotezy dotyczące związków przyczynowo-skutkowych, co jest kluczowe dla stworzenia ciekawej narracji.

Diagramy sieciowe

Diagramy sieciowe przydają się do przedstawiania danych, które trudno ubrać w sensowne struktury i zawierają wiele relacji pomiędzy elementami. W przypadku diagramów sieciowych poszczególne dane reprezentowane są za pomocą węzłów, jakie mogą występować np. w postaci różnej wielkości okręgów. Natomiast relacje pomiędzy nimi da się przedstawić poprzez łączące je linie (krawędzie grafu). Tego typu wizualizacja w data science przydaje się, kiedy chcemy pokazać zależności np. w logistyce albo dane na temat poszczególnych regionów i miast (jak w przypadku informacji o poziomie przestępczości, sprzedaży produktów etc.). Dobrym urozmaiceniem podobnych prezentacji będzie umieszczenie grafu na mapie regionu, do którego odnoszą się prezentowane dane.

Innym ciekawym sposobem wizualizacji nieustrukturyzowanych informacji jest chmura słów, w której wielkość danego wyrazu odpowiada liczbie jego wystąpień. W ten sposób można przedstawić wyniki ankiety lub dane zebrane z mediów społecznościowych.

Wizualizacja w data science dostosowana do widoku mobilnego

Prezentując dane, warto uwzględnić urządzenia, na których będą wyświetlane. Dziś coraz częściej wykresy przegląda się na ekranie smartfonu lub tabletu np. podczas podróży, co jest dodatkowym wyzwaniem dla autorów wizualizacji. Mniejsze wyświetlacze wymuszają zastosowanie skromniejszych elementów graficznych, ale też dokładne przemyślenie podejścia do zakresów informacji. Trudno o komfort zapoznawania się z wykresem miesięcznej sprzedaży pokazującym dzienne wartości, gdy w dłoni trzyma się kilkucalowe urządzenie.

Udostępnij link

https://www.datasciencerobie.pl/procesy-decyzyjne-w-firmach-a-wizualizacja-w-data-science/