“Wróżenie” z hiperkostki danych, czyli dojrzałe decyzje biznesowe

“Wróżenie” z hiperkostki danych, czyli dojrzałe decyzje biznesowe

Sklep rowerowy z siedzibą w Toruniu chce kontrolować, ile sprzedał rowerów. Do tego wystarczy mu prosta baza danych. Ale jeśli chciałby wiedzieć, ile w tej puli było rowerów górskich, ile trekkingowych, gravelowych i miejskich oraz jak sprzedaż zmieniała się w kolejnych miesiącach w różnych sklepach, wtedy musi już budować wielowymiarową bazę. Jednak dzięki przetwarzaniu bardziej złożonych informacji sklep ma szansę dowiedzieć się znacznie więcej o rynku i o swojej działalności. Potrzebuje do tego specjalistycznych narzędzi oraz kompetencji.

Opisany przykład jest uproszczeniem, bo wymiarów danych może być znacznie więcej. Każdy rodzaj roweru można jeszcze np. podzielić według zakresów cenowych: 1-2,5 tys. zł, 2,5-5 tys. zł i 5-10 tys. zł. Do tego dodajemy nowe wymiary czasu, oprócz miesięcy, także tygodnie i kwartały. Nasza kostka danych rośnie. Komplikuje się, ale teraz, obracając ją i modyfikując kategorie, znacznie dokładniej zaobserwujemy trendy i zjawiska – obiecujące i niepokojące. A w następstwie będziemy mogli podejmować lepsze decyzje biznesowe – na podstawie danych.

Hiperkostka MOLAP

Operacje na zbudowanych z wielu wymiarów tzw. kostkach danych są możliwe dzięki oprogramowaniu MOLAP (Multidimensional Online Analytical Processing). To jeden z trzech rodzajów narzędzi typu OLAP, czyli Online Analytical Processing, które rozwinęły się z prostszego modelu OLTP (Online Transaction Processing). Obok wielowymiarowego przetwarzania danych w gronie OLAP-ów mamy jeszcze relacyjne (ROLAP, Relational Online Analytical Processing) i hybrydowe (HOLAP, Hybrid Online Analytical Processing). Relacyjne bazy danych zawierają informacje o konsekwentnej strukturze i są uporządkowane za pomocą związków pomiędzy poszczególnymi składowymi. Modele hybrydowe, zgodnie z nazwą, łączą podejście relacyjne i wielowymiarowe.

Z kolei MOLAP to rozwiązanie, w którym dane mają wiele kategorii, ułożonych jako wielowymiarowa tablica, gdzie informacje są wstępnie przeliczone i składowane w kostce. Systemy MOLAP dają większe możliwości niż bazy relacyjne – przede wszystkim warto docenić wysoką wydajność zapytań, mniejszy rozmiar danych i szybki dostęp do informacji. Po stronie minusów jest wolniejsze wstępne przetwarzanie informacji, zwłaszcza w przypadku dużych zbiorów. Najprościej mówiąc, baza relacyjna przypomina kartkę papieru wypełnioną danymi. Natomiast kostka w modelu MOLAP jest przestrzenna, nawet nie trój-, ale wielowymiarowa. Bardziej precyzyjnie możemy zatem określić ją jako hiperkostkę.

Co można zrobić z hiperkostką?

Hypercube wypełniona wieloma wymiarami danych umożliwia analitykom wykonywanie kilku typów operacji. Działania służą zmniejszeniu rozmiaru danych, dopasowaniu ich wizualizacji do konkretnych potrzeb, a przede wszystkim do wydobycia z kostki istotnych informacji. Data scientiści przeprowadzają na modelu wielowymiarowym 5 typów operacji:

zwijanie (roll-up) – polega na łączeniu kategorii danych w większe grupy, przez co pozwala na analizowanie informacji gęściej zagregowanych, ale o mniejszej szczegółowości (zamiast 4 kategorii rowerów: sprzedawanych w Toruniu, Wrocławiu, w sklepie www i na Allegro – mamy 2 kategorie: rowery sprzedawane w realu i w sieci)

rozwijanie (drill-down) – operacja odwrotna do zwijania, zyskujemy dane mniej zagregowane, o większej szczegółowości (ogólne kanały sprzedaży znowu dzielimy na konkretne lokalizacje lub internetowe narzędzia)

filtrowanie (screening) – to zdefiniowanie pewnej zasady dla analizowanych danych (sprawdzamy, w których konkretnych kanałach sprzedaży klienci najczęściej kupowali rowery o wartości przekraczającej 2,5 tys. zł)

wycinanie (slice-and-dice) - ograniczenie widoku danych do wybranego wymiaru (ile sklep sprzedał rowerów gravelowych w poszczególnych zakresach cenowych w każdym z trzech ostatnich miesięcy)

obracanie (pivoting) – tu mamy do czynienia z operacją na wymiarach, np. przenosimy dane z kolumn do wierszy, żeby zobaczyć je z innej perspektywy (zamiast widoku akcentującego osobno liczbę sprzedanych rowerów górskich, trekkingowych, miejskich i gravelowych w różnych kanałach i czasie – otrzymujemy kostkę, w której widzimy najpierw miesiące z podziałem na kanały i typy rowerów; czyli zamiast informacji o liczbie sprzedanych rowerów poszczególnych typów, dostajemy dane o sprzedaży w poszczególnych miesiącach, ale nadal z uwzględnieniem wszystkich wymiarów).

Dylematy i szanse z punktu widzenia wdrożeniowca

Na etapie wdrożenia w firmie rozwiązania pod kątem wielowymiarowej analizy trzeba uwzględnić dwie perspektywy: użytkownika systemu i działu IT. Analitycy biznesowi i menadżerowie potrzebują widoku danych uporządkowanych według kategorii, zgodnie z którymi widzą swoją firmę. Z kolei dla administratora IT znaczenie ma długa lista technicznych kwestii. Są wśród nich m.in.: potrzebna przestrzeń dyskowa, parametry serwerowe, warunki aktualizowania i backupowania danych czy wydajność budowania modeli.

Istotna w podobnych procesach jest także kompresja danych mająca na celu ich lepszą integrację i sprawniejsze zarządzanie. Przedsiębiorstwo zyskuje czas, który może przeznaczyć na trenowanie zaawansowanych modeli analitycznych. Problemem wielu organizacji jest powtarzalny przepływ danych, ręcznie prowadzone procesy oraz silosowość zbiorów, co utrudnia wydobywanie wniosków przedkładanych na korzyści biznesowe. Kompresja danych upraszcza i przyśpiesza zadania obliczeniowe. W konsekwencji decyzje zarządcze mogą być podejmowane szybciej.

Tego rodzaju rozwiązania wpływają równocześnie na koszty i złożoność działań na każdym etapie procesu. Dodatkowo zmniejsza się ryzyko, a maksymalizuje ilość przetwarzanych informacji z pominięciem konieczności przesyłania ich między platformami. Integracja chmurowych rozwiązań analitycznych i kontenerowych pozwala obsługiwać cały cykl życia analityki wspieranej przez sztuczną inteligencję – począwszy od zdobywania danych, przez budowanie modeli, a skończywszy na podejmowaniu decyzji. Z takich narzędzi korzystają banki, urzędy, szpitale… mogę także sklepy rowerowe.

Więcej wymiarów to głębsze wnioski

Jeżeli prezes firmy rowerowej z Torunia, który wdrożył tego typu narzędzie, potrzebuje ogólnych informacji o stanie biznesu, uzyska je z jedno lub dwuwymiarowej bazy. Jednak jeśli stoi przed skomplikowanym problemem biznesowym – np. nie wie dlaczego trwale spadła sprzedaż w jednym kanale, choć z dostępnych informacji wynika, że warunki się nie zmieniły, wtedy musi sięgnąć po wielowymiarowe bazy. Kiedy informacje będą odpowiednio szczegółowe, obracanie kostki danych, filtrowanie i rozwijanie modeli pokaże zarządzającemu lub jego analitykowi nowe perspektywy. A z nich wynikną pytania, które pozwolą określić kolejne wymiary potrzebnych danych. Uzupełnienie kostki poszerzy dostępną wiedzę i umożliwi wyciągnięcie głębszych wniosków.

Może okazać się, że firma sprzedaje mniej rowerów górskich w sklepie internetowym od 2 miesięcy, kiedy Google zmieniło algorytm wyszukiwania dotyczący użytkowników w wieku 30-35 lat, mieszkających w miastach powyżej 100 tysięcy mieszkańców w Europie Środkowo-Wschodniej… Bez wielowymiarowej analityki ten ważny sprzedażowo fakt może być nie do wyłapania. A wiedza o nim to punkt wyjścia do nowych decyzji biznesowych, opartych na danych.

Udostępnij link

https://www.datasciencerobie.pl/wrozenie-z-hiperkostki-danych-czyli-dojrzale-decyzje-biznesowe/