— Since training an AI model can require billions of data samples, injecting intentionally malicious information into the process can be easier than expected. Much of the data used comes directly from the internet, and just a small amount of bad data can skew or otherwise bias a model while going undetected. The result is either bad data or, perhaps worse, an ‘invisible’ impact that goes unnoticed until it creates a larger problem — warns Philip King, Confidential Computing expert and Technical Solution Specialist at Intel® Americas.

Phil King is a 22-year Intel veteran and has 30 years of experience in Enterprise IT, ranging from PC migration/installation to solution engineering for very large enterprise deployments. More recently, Phil has made Security his focus, highlighting things like Confidential Computing and Platform Trust. He is also an expert on data center products and technologies, including but not limited to CPU, Memory, SSD, NIC, and other peripherals.

What do you think are the biggest challenges today that could hamper the potential of technology transformation?

Clearly, Artificial Intelligence is a technology transformation that is taking the world by storm. Compared to the AI of yesteryear, modern AI offers generative capabilities that can be seen as a co-pilot to the human user. At the same time, AI raises concerns about unintended side effects from things like data poisoning, model bias, or ‘hallucinations’ (aka confabulation or delusion). Hallucinations describe the scenario where the AI begins to misinterpret (or overanalyze) the data it’s been given, providing plausible, random falsehoods or unjustified responses. In the AI practitioner community, this is a major problem in Large Language Model (LLM) technology (like ChatGPT).

The challenge that this creates can generally be defined as a shortage. The key resources that enable AI to be leveraged are well-organized data, high-speed processing access, and skilled hands to bring it all together into a functional solution. Each resource has its own constraints that present challenges for any entity working towards greater AI enablement.

In today’s digital economy, all eyes are on the applications that deliver real-time insights, but what is often forgotten is the underlying hardware that makes it all possible.

It’s true. Aside from the legacy speeds and feeds, today’s hardware continues to integrate new features that enable great efficiency, density, and performance depending on how they are applied. One example would be the integrated accelerators in the 4th Generation Intel® Xeon® Scalable processors. With specific features designed to:

● Off-load and accelerate database analytics (Intel® In-Memory Analytics Accelerator – IAA)
● Accelerate AI workloads (Intel® Advanced Matrix Extensions (AMX)
● Off-load security and compression operations (Intel® Quick Assist Technology – QAT)
● Deliver built-in, high-performance load balancing (Intel® Dynamic Load Balancer – DLB)
● Off-load and accelerate data streaming (Intel Data Streaming Accelerator – DSA).

In addition, these CPUs also feature Intel® Trust Domain Extensions (TDX), adding the ability to create a secure enclave on shared hardware that is protected from other tenants & administrators alike. I could also point out that accelerators implement the required functionality in custom IP blocks that run at higher performance with lower power. They also free up CPU cores for other tasks. The result is increased efficiency and a powerful performance boost for enterprise tasks.

The exponential growth of computing power led to the development of new applications and technologies that shape how we live and work today. What applications and processes need the highest level of computing power today, as opposed to needing it in the near future? Is the potential of computing power limitless, or can we expect a slowdown in its performance?

The AI phenomenon has gained traction and represents the most compute-heavy workload segment of interest today. Many AI algorithms use a brute-force approach to training, which requires many cycles to compute the necessary model logic that gives AI its amazing capabilities. With the advent of the GP-GPU(General Purpose-Graphics Processing Unit), it is now possible to share the work required across both the primary CPU(s) and any GPUs installed in the system. This can yield faster time-to-result for both training and inference.

While computing power may be perceived as being limitless, the reality is that the amount of performance that can be delivered by a single server host is gated by the technology that it leverages. The good news for the industry is that Intel and the industry continue to innovate, with Intel running at a torrid pace to bring the next generation of computing devices to market in ever-shrinking time windows. One example of this at Intel is delivering five new technology nodes in just four calendar years. These ever-shrinking silicon designs will be the foundation for future generations of processors that will continue to march computing forward. The roadmap for delivering gen-over-gen innovation is healthy, and we can foresee many years of continued improvement.

Data analytics is a key driver of digital transformation and greatly impacts business growth and competitive advantage. How are Intel solutions enabling data-driven strategies?

Data processing and management are part of the key workloads that Intel tracks as part of our technology development. When designing a new CPU, key metrics are continually monitored to ensure ample benefit and no performance regressions. Most recently, Intel has added acceleration for Data Analytics with the Intel In-Memory Analytics Accelerator that is built-in to the latest 4th Gen Intel Xeon Scalable CPU. Features like this will continue to be integrated into the CPU going forward and will also receive updates over time.

Powerful processors drive AI innovations. What are the major benefits and risks of moving data analytics to the cloud?

Intel’s CPUs available in the cloud market are excellent for AI inference workloads and offer some of the best performance per watt for inference thanks to features like the Advanced Matrix Extensions, which offer accelerated matrix operations that are heavily utilized in AI workloads. In cases where customers want to use GP-GPUs to augment their AI computing performance (esp. for training), Intel offers both hardware and software to simplify the adoption and implementation of these resources. Examples include the Intel ‘Gaudi’ line of GPUs and OpenVINO, which enables a write-once, run-anywhere model for AI workloads.

In terms of Risk, any migration to the cloud requires a careful, measured approach to maintain security. Possible threats include data theft or corruption, stealing of the models and/or associated intellectual property, and the contamination of the model during training. With the rapid evolution of confidential computing in the cloud, it is now possible to protect your data and models from theft while simultaneously removing the cloud administrator from within the trust boundary.

Intel and SAS state: “Leaders in AI have found that it’s far more practical to rely on a single, central, integrated analytics solution built to manage a wide range of AI and non-AI workloads.” Why is a single analytics platform a better solution than multiple applications?

It is a well-known premise in Information Technology that complexity increases with every new platform, technology, or software deployed into your infrastructure. In general, sticking with a smaller subset of richer applications enables the IT practitioner to deliver the necessary functionality without incurring undue complexity.

Why is it an attractive opportunity for Intel to work with an AI company such as SAS?

As a leader in microprocessor technology, Intel has a wide array of tools and techniques to enable software to extract maximum performance from the hardware for the specific needs of the software. By partnering closely, the two companies can share the technical nuances of their individual solutions, thereby enabling each other to take the best advantage of the capabilities provided. AI is complex, and trying to dissect and comprehend another party’s technology or code can prove very challenging. Through collaboration, we can deliver a more optimized solution with faster time-to-market (TTM) when compared to offering individual solutions.

Key focus business areas for both companies are customer intelligence, fraud prevention, risk management, and others. What are the major impacts of reshaping the processes and operations in all these areas?

In order to provide fraud prevention and risk management, it is critical to implement a comprehensive security strategy that embraces modern practices like Zero Trust and Confidential Computing. With Zero Trust, the days of simple firewalls and castle-and-moat-style security are long gone. Instead, every transaction should be authenticated, authorized, and encrypted. In addition, sensitive workloads should be protected using Confidential Computing technologies like Intel® Software Guard Extensions or Intel® TDX to ensure the highest levels of assurance and maintain regulatory compliance. These Confidential Computing technologies are being made available from the major Cloud Service Providers (CSPs) in the second half of 2023 and will also be available for on-premises deployment in 2024. Together, Zero Trust and Confidential Computing can be used to create a highly secure infrastructure that is well-equipped to defend against today’s most common attack vectors.

What are the other risks, challenges, or fresh threats to avoid that you see from the perspective of the security expert?

In addition to the myriad of legacy threats that face the average enterprise, there are some emerging areas of exploitation that every company needs to be aware of. Perhaps the most disconcerting new area of attack is AI Model Data Poisoning. Since training an AI model can require billions of data samples, injecting intentionally malicious information into the process can be easier than expected. Much of the data used comes directly from the internet, and just a small amount of bad data can skew or otherwise bias a model while going undetected. The result is either bad data (garbage in, garbage out) or, perhaps worse, an ‘invisible’ impact that goes unnoticed until it creates a larger problem.

Another emerging area of concern for security is Software Bill-of-Materials (SBOM) Validation. After surviving software supply chain attacks like the Solarwinds incident in 2020, which negatively impacted thousands of organizations, including the US Government, SBOM health has become a genuine concern. This attack used a novel approach of embedding itself inside a known and trusted software package, enabling hackers to access data and networks of the victims. Known as a Supply Chain attack, it targets by embedding malware into 3rd party software instead of attacking the target’s data or network directly.

Relentless patching is likely a part of every discussion on security. The two key tenets here are Timeliness and Efficacy. In order to be effective, patches must be deployed as promptly as possible. Leaving a known exploit unpatched is akin to leaving the door open for hackers to waltz in. Instead, IT practitioners should aspire to patch systems early and often, thereby mitigating this simple but real threat. Similarly, ensuring that all systems are patched is critical as well. Even one unpatched system can provide the breeding ground for staging a larger attack. Therefore, it is important to ensure that patches are rolled out promptly, and measures are taken to reach the entire fleet of computing assets as quickly as possible.

Verizon’s Data Breach Investigation Report identifies 5 types of insider attackers. They are the reckless worker, the internal agent, the disgruntled employee, the malicious whistleblower, and the careless third party. Which of these roles is the most dangerous from a data center security perspective?

While all variations of insider threats are worrisome, I’d posit that the disgruntled employee could pose the greatest threat to an organization’s cybersecurity. This is partly because legacy IT practices often do perceive this as the legitimate issue that it is. Another aspect worthy of consideration is that disgruntled people are often impassioned about achieving a sense of retribution. Therefore, a disgruntled or departing employee might not think twice about knowingly stealing IP, sabotaging systems, or even tampering with virtual or physical assets. They might share their credentials with an outsider to launch an attack, commit fraud, or even go as far as espionage. Even clicking on known phishing links while maintaining plausible deniability can be needed as the basis for a larger, more impactful hack.

Our interview will be published on a Data Science expert website, followed by business decision-makers and senior and young tech professionals interested in future career development. Could you share your experience on the competencies and specializations most wanted in the industry? Can we say that hardware education is as necessary as coding?

In order to make the best use of the hardware with your software, you need to comprehend the functionality offered and exploit it to the greatest extent possible. Knowing how to code is key, but coding without understanding the platform will likely result in inefficient code that does not perform well and creates resource contention. If the coder has a detailed understanding of the features and functions offered by the hardware, they are significantly more well-equipped to deliver clean, high-performance code without the need to go back and re-work it later to address gaps.

— For several years, we have been developing the field of AI called neuro-symbolic artificial intelligence. We combine machine learning with reasoning-based symbolic processing. This allows us to maximize the precision of detection. The goal is for AI to make as few mistakes as possible. If we truly want to prevent online harm, the system must operate autonomously, making independent decisions about whether to block a message or send a real-time intervention, say the co-founders of Samurai Labs, Gniewosz Leliwa and Patrycja Tempska.

Patrycja Tempska – impact co-founder of Samurai Labs. She conducts research on methods to prevent online violence. Together with the educational and support platform Życie Warte Jest Rozmowy (Life is Worth a Conversation), they create the One Life project, where they reach out to people in crisis using neuro-symbolic algorithms that analyze hundreds of millions of online conversations. Co-author of patents and scientific publications in the field of artificial intelligence and social sciences, with a background in philosophy. Included in the Top 100 Women in AI in 2022.

Gniewosz Leliwa – CTO and co-founder of Samurai Labs. Co-creator of AI solutions protecting millions of internet users worldwide from cyberbullying. A theoretical physicist with a background in quantum field theory, who abandoned his PhD to work on artificial intelligence. Author of numerous patents and scientific publications in the field of neuro-symbolic AI and its applications in detecting and preventing phenomena such as cyberbullying, suicidal ideation, and child grooming. Co-founder of Fido.AI and co-creator of natural language understanding technology recognized in the CB Insights’ TOP 100 AI ranking and Gartner’s Cool Vendor.


What does Samurai Labs specialize in?

Patrycja Tempska: Our mission is to promote the well-being of online communities by detecting and preventing various harmful phenomena on the Internet. This includes cyberbullying, racism and gender-based personal attacks, sexism, blackmail, or threats. Recently, we’ve also been focusing on detecting suicidal intentions, thoughts, or declarations. We reach out to people in suicidal crisis by offering them a caring intervention that includes relevant self-help materials and places where they can seek help. We co-create the system in close collaboration with a team of experts – suicidologists from the educational and support platform Życie Warte Jest Rozmowy (Life is Worth a Conversation). These are people who specialize in the study of suicidal behavior, provide support to people in crisis, and work daily in the area of suicide prevention.

In the context of cyberbullying, when such issues arise within a community, depending on the community’s rules and the phenomenon’s severity, we can take various actions. In some cases, written communications are blocked before they reach the user to prevent damage before it’s done. In other cases, interventions might be sent to positively model online discussions. These messages are designed based on social sciences, psychology, and philosophy. All these efforts aim to educate users and promote desired communication norms. As our research shows, these actions result in a reduced number of attacks within specific online communities.

Based on what data do you detect such phenomena?

Gniewosz Leliwa: Essentially, any textual communication is relevant. If we’re talking about platforms like Discord, chats, or online games, we analyze short text messages that users exchange with one another. For forums and sites like Reddit, longer forms of expression as well as comments on these platforms are subject to analysis. On Twitch, the system processes chat messages during streaming. We can also transcribe audio and video files, but our primary focus is on analyzing and processing natural language in texts.

Let’s talk about technologies. What solutions do you use to detect online violence?

GL: For several years, we have been developing the field of AI called neuro-symbolic artificial intelligence. We combine machine learning with reasoning-based symbolic processing. This allows us to maximize the precision of detection. The goal is for AI to make as few mistakes as possible. If we truly want to prevent online harm, the system must operate autonomously, making independent decisions about whether to block a message or send a real-time intervention.

In our approach, the symbolic system controls machine learning components. By doing so, machine learning “understands” language better, and symbolic reasoning prevents statistical components from making common errors. For example, an overly sensitive model to profanity might start detecting it as hate speech or personal attacks.

GL: If it isn’t, it would react to things it shouldn’t. If someone uses a profane word, not to offend anyone but to emphasize emotions, such interventions, warnings, or blocks could be faced with disapproval within the communities we work with. It’s like a bouncer in a club throwing out people who are just having a good time.

How many people work in your team?

GL: Over 20 people are involved in developing and implementing our models. This work is carried out by three engineering teams. The first is the product team, which “wraps” all the models we create into APIs, builds configuration systems, analytical panels, and moderation queues. The second and third are AI teams, one more focused on the symbolic and reasoning aspect, and the other on machine learning.
What is the process of working with data at Samurai Labs like?

GL: As I mentioned, the input data primarily consists of real conversations from various types of chats, forums, and other online communities. We utilize open sources like Reddit, but when possible, we also use data from partners or clients. All collected data is sent to annotation, where specifically trained annotators mark fragments containing the phenomena searched for by the model, using a dedicated tool and following pre-prepared instructions. These phenomena include, for example, personal attacks or suicidal thoughts.

We’ve built our own team of over 20 annotators, whom we try to recruit from people with experience in psychology and pedagogy. We also pay attention to geographic diversity (part of the team comes from South America) and familiarity with the specific topic. For instance, we try to have gamers annotate content from online games. We developed the entire annotation framework ourselves. Initially, we tried to use available datasets, but it quickly turned out that, unfortunately, they were not of the quality we needed.

We also use artificial intelligence in the annotation process itself. We’ve created a so-called virtual annotator, a special AI model whose decisions are compared with those of human annotators. This allows us to detect even slight differences and re-annotate such examples.

What does training such AI models look like?

GL: When we start a new project, we create annotation manuals in collaboration with experts from the specific field, such as suicidology, and the AI team. Instructions are then updated multiple times to capture and include all nuances. Then, the data annotation process begins, along with the training of the initial models that assist in selecting cases for the subsequent rounds of annotation.

Each annotation is done in a 3+1 model at least. This means that three independent annotators evaluate each message, and then a superannotator makes the final decision on disputed cases. When a problem arises that should be included in the instruction, it gets updated. We place great importance on data quality because, as we know, a machine learning model is only as good as the data it was trained on.
The annotated data goes to both AI teams, and the work on the final models begins.

What tools do you use?

GL: When it comes to the symbolic system and its integration with machine learning, this is our proprietary approach and solution. We’ve built our own framework and hold patents in this area.
Regarding machine learning itself, we use transformers and large language models (LLMs). We primarily use libraries like Transformers (Hugging Face), Torch, and Sklearn. For neural network model quantization, we use ONNX. We log experiments using MLFlow and automate processes with DVC. Our environment for running experiments is SageMaker, and for prototyping we use Jupyter Notebook.

What does using models in practice look like? What challenges do you face during data analysis and subsequent detection?

GL: An interesting aspect is using large language models to filter out false positives. We can do that once we have a functioning detection model and want to consider a broader context of the conversation. Imagine a forum post discussing a crime, and users’ comments are not favorably directed at the criminal. Normally, the system might react to those comments, “thinking” they are targeting another forum user. However, thanks to the broader context, the system can decide not to react.

What about the effectiveness of the models?

GL: All of our production models have a precision level of at least 95 percent. This is the main parameter we are interested in, because these models operate autonomously, without human intervention. In the case of competitive solutions, even half of the results returned are false positives.

Every community is different. How do you generate a tailor-made detection model?

GL: Moderating channels for adults, where users don’t want any censorship and only aim to maintain a certain level of discussion, should definitely look different from moderating channels for children. In the latter case, we want to eliminate all potentially harmful content, including profanity or discussions about sensitive topics. At Samurai Labs, we adopt a compositional approach. We break down every large problem into smaller ones, like cyberbullying, which we divide into personal attacks, sexual harassment, rejection, threats, or blackmail. Each of these smaller issues is then broken down even further. In this way, we build narrow and highly precise models that are easy to develop and maintain. They also handle ML model biases much better, especially end-to-end ones that attempt to solve large and complex problems like hate speech or cyberbullying.

How does the Samurai Cyber Guardian work?

GL: It’s a system designed to create and implement an entire moderation workflow tailored to a specific online community. The product consists of several components. We have AI models responsible for detecting specific phenomena and a “control center” that users (e.g., moderators) log into. The control center includes various tools and panels. The configuration panel allows users to decide how the system should react automatically and in what manner, and what should be subject to manual moderation. The moderation queue handles cases for manual moderation. Analytical panels allow users to track the system’s performance and observe changes in user behavior and the overall level of violence within a given community. The product is delivered as an API and can be used to control a moderation bot or any other moderation system. We also offer direct integrations with platforms and services like Discord or Twitch.

Content moderation on a forum is like working with a living organism that evolves in real-time. Are your systems updated?

GL: We operate under the assumption that it’s not possible to build a model that will work always and everywhere, which is similar to antivirus systems. Our models are updated on average once every two weeks – we collect logs, analyze data, and based on that, make adjustments to the models.

A classic method of evading detection is using “leet speak,” which involves replacing letters with similar-looking symbols, such as replacing “S” with a dollar sign. Our system is also highly resilient to this technique, partly due to the neuro-symbolic approach. Furthermore, if users know that a moderation system is AI-driven, they’re more likely to try to cheat it. But the more creative the user, the better our system learns to handle such attempts to bypass the system.

PT: One example involves comments exchanged by teenagers on the anonymous Formspring forum. Today, the site is closed due to widespread cyberbullying that led to several suicide attempts by young individuals. Some comments marked by people as neutral, when processed by our system, turned out to be veiled attacks using leet speak.

Algorithms in the fight against cyberbullying are one thing, but are you also trying to educate communities?

PT: In addition to detecting cyberbullying using neuro-symbolic algorithms, research on the utilization of these methods is crucial. We conduct research to create comprehensive strategies for online communities, where artificial intelligence is used not only to detect cyberbullying but also to proactively prevent it. We explore different strategies for responding to users’ comments with the aim of reducing the number of personal attacks. One such study we conducted took place on an English-language Reddit forum. We created a bot named James, equipped with personal attack detection models and a system to generate various interventions that appealed to empathy or specific norms. Whenever someone attacked users involved in a discussion, James detected the attack in real-time and responded with one of the messages, such as “Hey, most of us address each other here with respect.” Such comments alone were enough for James, in one of the more radicalized Reddit communities, to reduce the level of attacks by 20%.

GL: It’s worth mentioning that the user didn’t know they were interacting with a bot. Our James presented himself as a regular forum user and had his own activity history and background. His interventions had to look natural and not repetitive.

PT: Exactly. That’s why the number of unique interventions reached over 100,000, all created based on a dozen or so basic statements. This study, along with many others conducted by us and other institutions, shows that at the intersection of artificial intelligence, social sciences, and data science, we can empirically validate the effectiveness of specific methods to counter harmful phenomena and maximize their positive social impact.

Does this have a financial dimension for your clients?

PT: Impact indicators (related to positive social impact) are important, but so are the business indicators. After all, we implement our solutions in communities whose owners want to generate income. It turns out that impact indicators are linked to business ones through engagement. About 10 years ago, there was a belief that more aggression implied more user engagement – more comments, clicks, etc. Today, we have evidence to the contrary. According to a study by Riot Games, League of Legends players who experienced toxic interactions upon their first exposure to the game were over three times less likely to return to the game compared to those who didn’t encounter such content.

In Samurai, in one of our observational studies based on around 200,000 comments on Reddit, we showed that attacks significantly reduce the activity of the attacked individuals. We used traditional statistical methods and Bayesian estimation.

Awareness of the social problem grows proportionally to the motivation related to taking care of the well-being of online communities. This is connected with a range of negative behavioral and psychological consequences associated with the experience of cyberbullying, which are increasingly being researched and described.

GL: Additionally, the legal landscape is changing. Take the suicidal ideation detection module, for instance. When we started working on it in 2020, it was still a taboo topic. The average parent could believe that their child might encounter harmful online behavior, such as a pedophile attack, but most parents couldn’t even conceive that their child could commit suicide, partly due to exposure to online content related to self-harm or suicide. Thanks to legal regulations, this awareness is growing.

PT: Here, one of the catalysts for changes in social media policies and the development of new legislation is an example from the UK. It involves the widely publicized case of Molly Russell, a 14-year-old who took her own life after being exposed to content related to suicidal behavior, the visibility of which was amplified by social media algorithms.

What does the future hold for the systems you create? Are you moving towards full autonomy in decision-making?

GL: Samurai Labs is a pioneer when it comes to prevention and autonomous content moderation. I think it’s a natural direction, and the entire industry will strongly lean towards it. If the response comes long after someone has been attacked, they’re already a victim, and others may have read the harmful content, resulting in harm done. Harmful phenomena should be detected as quickly as possible and responded to immediately.

There’s also the issue of data access in terms of legislation. When it comes to detecting suicidal content, messages or farewell letters are often sent through public forums. In the case of pedophilic attacks, private communication is often involved, and the offender aims to quickly transition to encrypted channels.

I think a middle ground will be autonomous systems where artificial intelligence analyzes the content being sent, and there won’t be a need for anyone to read those messages. If AI detects something troubling, it will react by blocking the communication of that predator and inform the site owners or law enforcement.

PT: Shifting the paradigm to operate automatically, without human involvement or with partial human intervention, will allow us to prevent numerous negative consequences of cyberbullying. It’s important to remember that today, there’s a heavy burden mainly put on moderators. Machine learning-based systems don’t operate automatically for the most part; they flag posts for further verification by a human who makes the final decision whether to remove the post or not.

In making these decisions, they encounter extremely drastic content every day, with the cruelty of the world we as humanity generate. It all rests on them. That’s why we see a great need to relieve moderators, allowing them to focus on positively increasing user engagement within online platforms.

— Do trenowania modeli sztucznej inteligencji potrzeba miliardów próbek danych, dlatego celowe wstrzyknięcie do procesu złośliwych informacji może być stosunkowo łatwe. Znaczna część danych wykorzystywanych do szkolenia SI pochodzi bezpośrednio z internetu, a już niewielka ilość “złych danych” może wypaczyć model. Rezultatem będzie wpływ, który pozostanie niezauważony, dopóki nie stworzy większego problemu — ostrzega Philip King, ekspert w zakresie poufności danych i specjalista ds. rozwiązań technicznych w Intel® Americas.

Philip King pracuje w Intelu od 22 lat. Ma 30-letnie doświadczenie w obszarze korporacyjnego IT: od migracji i instalowania PC, po rozwiązania inżynieryjne dla dużych wdrożeń biznesowych. Obecnie specjalizuje się w bezpieczeństwie, zwłaszcza dotyczącym poufnego przetwarzania danych i zaufania cyfrowego. Jest również ekspertem w dziedzinie produktów i technologii dla centrów danych, między innymi: procesorów, pamięci, dysków SSD, kart sieciowych i innych urządzeń peryferyjnych.

Co dziś najbardziej hamuje potencjał transformacji technologicznej?

Bez wątpienia sztuczna inteligencja szturmem zdobywa świat. W porównaniu do AI z przeszłości, nowoczesna sztuczna inteligencja oferuje możliwości generatywne, które można postrzegać jako asystenta użytkownika. Jednocześnie SI budzi obawy o niezamierzone skutki uboczne, takie jak infekowanie danych, stronniczość modeli lub słynne już halucynacje sztucznej inteligencji, zwane też konfabulacjami czy urojeniami. Halucynacje dotyczą sytuacji, w których sztuczna inteligencja zaczyna błędnie interpretować lub nadmiernie analizować otrzymane dane, dostarczając wiarygodnie brzmiących, przypadkowych przekłamań albo nieuzasadnionych odpowiedzi. W społeczności praktyków sztucznej inteligencji jest to postrzegane jako główny problem w technologii Large Language Model, takiej jak ChatGPT.

Ta sprawa jest traktowana jako istotny deficyt AI. Kluczowymi zasobami, które umożliwiają wykorzystanie sztucznej inteligencji, są dobrze zorganizowane dane, dostęp do szybkiego przetwarzania i kompetencje człowieka, które łączą to wszystko w funkcjonalne rozwiązanie. Każdy zasób ma jednak własne ograniczenia, które stanowią wyzwanie dla organizacji pracujących nad poszerzeniem możliwości AI.

W centralnym miejscu gospodarki cyfrowej są aplikacje działające w tzw. czasie rzeczywistym. Natomiast znacznie mniej uwagi poświęca się sprzętowi, który za tym wszystkim stoi.

To prawda. W odróżnieniu od dawniejszych wydajności, dzisiejszy sprzęt integruje nowe funkcje, które zapewniają doskonałą efektywność, pojemność i wydajność, w zależności od sposobu ich wykorzystania. Jednym z przykładów mogą być wbudowane akceleratory w procesorach 4 generacji Intel® Xeon® Scalable. Funkcje takich jednostek są następujące:

  • Odciążanie i przyśpieszanie analizy baz danych (Intel® In-Memory Analytics Accelerator – IAA)
  • Wsparcie dla zadań AI (Intel® Advanced Matrix Extensions – AMX)
  • Odciążanie operacji bezpieczeństwa i kompresji danych (Intel® Quick Assist Technology – QAT)
  • Wbudowane, wysokowydajne równoważenie obciążeń (Intel® Dynamic Load Balancer – DLB)
  • Odciążanie i przyśpieszanie strumieniowania danych (Intel® Data Streaming Accelerator – DSA)

Omawiane procesory są również wyposażone w technologię Intel® Trust Domain Extensions (TDX), która pozwala tworzyć bezpieczną enklawę na współdzielonym sprzęcie, chronioną przed innymi użytkownikami i administratorami. Akceleratory w tych jednostkach obliczeniowych dodają też potrzebne funkcje w niestandardowych blokach IP, które działają wydajniej i oszczędniej energetycznie. Co więcej, zwalniają rdzenie procesora do innych zadań. Rezultatem jest więc wyższa efektywność i znaczny wzrost wydajności w korporacyjnych zastosowaniach.

Wykładniczy wzrost mocy obliczeniowej doprowadził do rozwoju nowych aplikacji i technologii, które kształtują sposób, w jaki funkcjonujemy zawodowo i prywatnie. Które aplikacje i procesy wymagają obecnie największej mocy obliczeniowej? I czy ten potencjał jest nieograniczony, czy też powinniśmy spodziewać się, że tempo przyrostu mocy wyhamuje?

Sztuczna inteligencja bardzo zyskała na popularności i jest teraz najbardziej interesującym segmentem, jeśli chodzi o zadania obliczeniowe. Wiele algorytmów AI na etapie trenowania wykorzystuje podejście typu brute-force, które wymaga wielu cykli do obliczania niezbędnej logiki modelu, dającej potem SI niesamowite możliwości. Wraz z pojawieniem się techniki obliczeń GP-GPU (General Purpose-Graphics Processing Unit) możliwe stało się dzielenie wymaganej pracy pomiędzy głównym procesorem i układami graficznymi zainstalowanymi w systemie. To pozwoliło skrócić czas oczekiwania na wyniki zarówno w przypadku trenowania modeli, jak i wnioskowania.

Chociaż moc obliczeniowa może być postrzegana jako nieograniczona, w rzeczywistości wydajność, jaką może zapewnić pojedynczy host serwera, jest ograniczona przez technologię, którą wykorzystuje. Dobrą wiadomością dla branży cyfrowej jest to, że Intel i cały przemysł nadal wprowadzają innowacje, a Intel działa w zawrotnym tempie, aby wprowadzać na rynek kolejne generacje podzespołów w coraz krótszych oknach czasowych. Dla przykładu, dostarczamy pięć nowych generacji sprzętu w ciągu zaledwie czterech lat. Te coraz częściej debiutujące konstrukcje krzemowe będą stanowiły punkt wyjścia dla przyszłych generacji procesorów, które będą popychały do przodu rozwój technik obliczeniowych. Plan cyklicznego dostarczania innowacji procesorowych działa dobrze i możemy prognozować wiele lat ciągłego podnoszenia możliwości hardware’owych.

Analityka danych to główny napęd dla transformacji cyfrowej. Ma też duży wpływ na rozwój biznesowy i kształtowanie przez firmy ich przewagi konkurencyjnej. W jaki sposób rozwiązania Intela wpływają na realizację strategii, które opierają się na profesjonalnym wykorzystywaniu danych?

Przetwarzanie danych i zarządzanie nimi należą do najważniejszych zadań obliczeniowych, które śledzimy w ramach rozwijania naszych technologii. Podczas projektowania nowego procesora jest to kluczowy wskaźnik, stale monitorowany, aby zapewnić wystarczające korzyści bez pogarszania wydajności. Niedawno Intel wprowadził akcelerację analizy danych w ramach Intel In-Memory Analytics Accelerator, czyli rozwiązania, które jest wbudowane w najnowszy procesor 4 generacji Intel Xeon Scalable. Funkcje tego rodzaju pozostaną częścią CPU w przyszłości, a dodatkowe będą rozwijane.

Wydajne procesory sprzyjają innowacjom w zakresie sztucznej inteligencji. Jakie widzi pan korzyści, ale też zagrożenia związane z tym, że analiza danych przenosi się do chmury?

Nasze procesory dostępne na rynku rozwiązań chmurowych, doskonale sprawdzają się w zadaniach związanych z pracą sztucznej inteligencji i dają jedne z najlepszych wyników w przeliczeniu na waty dzięki funkcjom takim, jak Intel AMX, które przyśpieszają operacje na macierzach, które są intensywnie wykorzystywane w zadaniach AI. W sytuacjach, kiedy klienci chcą korzystać z GP-GPU w celu zwiększenia wydajności obliczeniowej SI, zwłaszcza do trenowania modeli, Intel oferuje zarówno sprzęt, jak i oprogramowanie, które to ułatwia. Mam na myśli linię procesorów graficznych Intel “Gaudi” i narzędzie Intel® OpenVINO™ wspierające AI jednorazowym zapisem danych, połączonym z uruchamianiem modeli w dowolnych miejscach.

Jeśli chodzi o ryzyko, każda migracja do chmury wymaga ostrożnego i wyważonego podejścia w celu zapewnienia bezpieczeństwa. Możliwe zagrożenia obejmują kradzież lub uszkodzenie danych, kradzież modeli i/lub powiązanej własności intelektualnej oraz zanieczyszczenie modelu podczas szkolenia. Wraz z szybkim rozwojem technologii Confidential Computing w chmurze, możliwa jest obecnie ochrona danych i modeli przed kradzieżą połączona z równoczesnym przesunięciem administratora chmury poza obszar zaufania.

Intel i SAS przekonują w jednym ze wspólnych dokumentów: “O wiele bardziej praktyczne jest poleganie na centralnym, zintegrowanym rozwiązaniu analitycznym zbudowanym do zarządzania szerokim zakresem działań AI, niż na rozproszonych systemach”. Dlaczego pojedyncza platforma analityczna jest lepszym rozwiązaniem niż wiele aplikacji?

Jest to dobrze znane w IT założenie. Złożoność wzrasta wraz z każdą nową platformą, technologią lub oprogramowaniem wdrażanym w infrastrukturze. Ogólnie rzecz biorąc, trzymanie się mniejszego podzbioru zaawansowanych aplikacji umożliwia specjalistom dostarczanie niezbędnych funkcji bez ponoszenia negatywnych konsekwencji nadmiernej złożoności.

Co jest dla Intela atrakcyjne we współpracy z firmą analityczną, taką jak SAS?

Jako lider w dziedzinie technologii mikroprocesorowych, dysponujemy szeroką gamą narzędzi i technik umożliwiających oprogramowaniu uzyskanie maksymalnej wydajności ze sprzętu w odniesieniu do konkretnych potrzeb. Dzięki ścisłej współpracy obydwa przedsiębiorstwa mogą dzielić się niuansami technicznymi swoich rozwiązań, umożliwiając sobie nawzajem jak najlepsze wykorzystanie oferowanych możliwości. Sztuczna inteligencja jest skomplikowanym zjawiskiem, a próba przeanalizowania i zrozumienia technologii lub kodu innej firmy może okazać się bardzo trudna. Dzięki współpracy mamy szansę dostarczyć bardziej zoptymalizowane rozwiązania z krótszym czasem wprowadzenia na rynek w porównaniu z sytuacją, kiedy oferowalibyśmy indywidualne rozwiązania.

Do najważniejszych obszarów działalności obydwu firm należą Customer Intelligence, zapobieganie oszustwom i zarządzanie ryzykiem. Jakie są główne skutki unowocześniania procesów i operacji w tych dziedzinach?

W obszarze przeciwdziałania nadużyciom i zarządzania ryzykiem, podstawowe znaczenie ma wdrożenie kompleksowej strategii bezpieczeństwa, która obejmuje praktyki, takie jak Zero Trust i Confidential Computing. Za sprawą Zero Trust minęły czasy prostych firewalli i zabezpieczeń w stylu “zamek i mur”. Zamiast tego proponujemy uwierzytelnianie, autoryzowanie i szyfrowanie każdej operacji. Szczególnie ważne zadania powinny być dodatkowo chronione przy użyciu technologii w rodzaju Intel® Software Guard Extensions (SGX) lub Intel® TDX, aby zapewnić najwyższy poziom bezpieczeństwa i zadbać o spełnienie norm prawnych. Rozwiązania z zakresu Confidential Computing są dostępne u głównych dostawców usług w chmurze od drugiej połowy 2023 roku, a w 2024 będą również dostępne w modelu wdrożeń lokalnych. Połączenie koncepcji Zero Trust i Confidential Computing pomaga budować bezpieczną infrastrukturę informatyczną, która jest dobrze przygotowana do obrony przed najbardziej popularnymi obecnie typami ataków.

Jakie są najnowsze ryzyka i zagrożenia, które widać z perspektywy eksperta ds. korporacyjnego cyberbezpieczeństwa?

Oprócz niezliczonych starszych zagrożeń, które czyhają na przeciętne przedsiębiorstwo, istnieją mniej oczywiste obszary, o których każda firma powinna wiedzieć. Być może najbardziej niepokojącym nowym wektorem ataku jest zanieczyszczanie danych w modelach AI. Ponieważ trenowanie AI może wymagać miliardów próbek danych, celowe wstrzyknięcie do procesu fałszywych informacji może być stosunkowo łatwe. Duża część danych wykorzystywanych podczas uczenia pochodzi bezpośrednio z internetu, a nawet niewielka ilość “złych” danych może niepostrzeżenie wypaczyć model. Rezultatem będą albo błędne wnioski (garbage in, garbage out), albo, co gorsza, wpływ, który pozostanie niewidoczny, dopóki nie stworzy większego problemu.

Innym wyłaniającym się obszarem bezpieczeństwa jest walidacja list oprogramowania (Software Bill-of-Materials). Po atakach na łańcuch dostaw oprogramowania, takich jak incydent Solarwinds z 2020 roku, który spowodował kłopoty dla tysięcy organizacji, w tym rządu USA, jakość SBOM stała się istotnym wyzwaniem. Wspomniany atak wykorzystał nowatorskie podejście polegające na osadzeniu złośliwego kodu w znanym i zaufanym pakiecie oprogramowania, umożliwiając hakerom dostęp do danych i wewnętrznych sieci. Atak typu Supply Chain ma na celu wprowadzenie szkodliwego oprogramowania do produktów firm, zamiast bezpośredniego atakowania ich danych lub sieci.

Nieustanne łatanie luk jest częścią każdej dyskusji na temat bezpieczeństwa. Dwie fundamentalne zasady to terminowość i skuteczność. Aby łatki były skuteczne, muszą być wdrażane tak szybko, jak to możliwe. Pozostawienie znanego exploita bez poprawki jest równoznaczne z pozostawieniem otwartych drzwi dla hakerów. Praktycy IT muszą dążyć do wczesnego i częstego łatania systemów, łagodząc w ten sposób to proste, ale realne zagrożenie. Podobnie, krytyczne znaczenie ma zapewnienie, że wszystkie systemy są szczelne. Nawet jeden dziurawy system może stanowić początek większego i groźnego ataku. Dlatego konieczne jest jak najszybsze dotarcie z aktualizacjami bezpieczeństwa do wszystkich urządzeń w organizacji.

W raporcie Verizon Data Breach zidentyfikowano 5 typów osób atakujących organizacje od wewnątrz. To lekkomyślny pracownik, agent wewnętrzny, niezadowolony pracownik, złośliwy informator i nieostrożna strona trzecia. Która z tych ról, w pana ocenie, jest najbardziej niebezpieczna z punktu widzenia ochrony centrum danych?

Oczywiście wszystkie odmiany zagrożeń wewnętrznych są niepokojące, ale uważam, że największym niebezpieczeństwem z perspektywy przedsiębiorstwa jest niezadowolony pracownik. Starsze podejścia IT często nie postrzegały tej roli jako istotnego problemu. Warto podkreślić, że niezadowoleni pracownicy często są podekscytowani perspektywą zemsty. Dlatego taki np. odchodzący zatrudniony może nie zastanawiać się dwa razy nad kradzieżą własności intelektualnej, sabotowaniem systemów, a nawet manipulowaniem zasobami wirtualnymi lub fizycznymi. Może udostępnić swoje dane uwierzytelniające osobie z zewnątrz w celu przeprowadzenia ataku, dokonania oszustwa, a nawet może posunąć się do szpiegostwa. Nawet kliknięcie z premedytacją linków phishingowych może być wystarczające, żeby doszło do włamania, które spowoduje duże straty.

Serwis “Data Science robię” czytają eksperci, ale też młodsi adepci analityki danych, którzy myślą o rozwoju swojej kariery zawodowej. Jakie kompetencje i specjalizacje są teraz w branży IT najbardziej poszukiwane? Wiedza hardware’owa jest tak samo potrzebna, jak umiejętność kodowania?

Aby jak najlepiej wykorzystać sprzęt na poziomie software’owym, trzeba rozumieć oferowaną przez hardware funkcjonalność. Umiejętność kodowania jest bardzo ważna, ale kodowanie bez wiedzy o danej platformie prawdopodobnie przyniesie nieefektywny kod, który nie będzie przydatny biznesowo. Jeśli programista zna szczegółowo cechy i funkcje sprzętu, jest znacznie lepiej przygotowany do dostarczania czystego, wydajnego oprogramowania bez konieczności późniejszego przerabiania go w celu usunięcia luk i błędów. Mówiąc krótko, te kompetencje powinny iść w parze.

Gromadzimy od roku dane o ruchu na stronie internetowej. Teraz postanowiliśmy określić, jak będzie wyglądał kwartalny raport na temat wyświetleń treści, unikatowych użytkowników, czasu spędzonego na www i innych ważnych parametrów. Niestety w tej kolejności działań możemy nie osiągnąć dobrego rezultatu. Cel raportu i jego charakter warto zaplanować, jeszcze zanim zaczniemy gromadzić i analizować dane – niekoniecznie o ruchu internetowym. Podobnie będzie w przypadku zakładu produkcyjnego albo sklepu. Poniżej propozycja 9 kroków, które warto wykonać, kiedy chcemy stworzyć czytelny raport z analizy danych.

  1. Po co robisz raport?

Często raporty analityczne powstają reaktywnie. Autor próbuje wydobyć ze zbioru danych najciekawsze, najbardziej efektowne informacje, które mogą prowadzić do wniosków sygnalizujących ryzyka, błędy lub potwierdzających, że badane przedsięwzięcie funkcjonuje dobrze i rozwija się. I nic w tym złego, podobne podejście też ma szansę przynieść wartościowe wnioski. Jednak lepiej już na początku zastanowić się, po co nam albo naszej organizacji ten raport. Co chcemy nim osiągnąć, czego się dowiedzieć, dlaczego prowadzimy analizę danych? Czyli – jaki jest cel? W przypadku fabryki może to być próba optymalizacji procesów operacyjnych. Sklep będzie potrzebował oceny wyników kampanii marketingowej. A menadżer odpowiedzialny za portal zapewne zechce przekonać się, jakie typy publikacji powodują, że rośnie ruch organiczny.

  1. Jakie masz źródła danych?

To bardzo ważny etap. Jeśli go pominiemy, musimy liczyć się z problemami w dalszej części prac nad raportem. Chodzi o zrozumienie danych, którymi dysponujemy. Inne źródła będziemy mieli w analityce www, inne w fizycznym sklepie, a jeszcze inne w firmie produkcyjnej. Ważne, żebyśmy wiedzieli, skąd dokładnie pochodzą, kto je wprowadza, kiedy i jak, jeśli robi to człowiek. Jakie urządzenia, za pomocą jakiej technologii i w jakim standardzie? – jeżeli to oczujnikowane maszyny w fabryce. Musimy wiedzieć, jakie zafałszowania są charakterystyczne dla tych źródeł. Co dokładnie oznaczają elementy tabel, kategorie lub wiersze? I wreszcie, trzeba nawiązać do 1 kroku i pomyśleć, co chcemy finalnie uzyskać, czyli czy źródła, którymi dysponujemy, mają szansę przynieść nam odpowiedzi zaplanowane w biznesowym celu raportu.

  1. Przygotowanie do analizy.

W zaproponowanym modelu dopiero teraz mamy odpowiedni moment na pracę analityczną. Będzie przyjemniejsza, a przede wszystkim bardziej efektywna, bo wiemy, po co ją robimy i znamy specyfikę danych. Zgromadzony zbiór trzeba przygotować do właściwej analizy. Pomoże tutaj EDA, czyli Exploratory Data Analysis. Eksploracyjna Analiza Danych pozwala prześledzić ich strukturę, rozpoznać nietypowe wartości i błędy oraz zająć się potencjalnymi problemami. Błędy i braki mogą wynikać z niedopatrzenia człowieka lub być faktyczną luką w danych. Zatem potrzebne będzie zarówno skorygowanie fałszywych wartości, jak i określenie, czy brakujące informacje da się uzupełnić. W ramach EDA przyda się również zdefiniowanie rozkładu zmiennych i odfiltrowanie odstających wartości. Koniecznym elementem Eksploracyjnej Analizy Danych jest skontrolowanie zależności i korelacji między zmiennymi. Po przeprowadzeniu procesu EDA przychodzi czas na właściwą analizę pod kątem raportu.

  1. Jak chcesz pokazać wyniki?

Już wiemy, że publikacje artykułów o objętości powyżej 300 słów między 9:00 a 14:30 przynosiły serwisowi najlepsze efekty lub że największy wpływ na produkcję w fabryce mają awarie maszyn CNC, do których dochodzi zwykle w weekendy. Teraz musimy uporządkować wyniki, żeby móc je zwizualizować. Możemy samodzielnie na podstawie doświadczenia lub znajomości danych i własnej wyobraźni zdecydować, czy najbardziej komunikatywne będą wykresy kołowe, drzewa klasyfikacyjne, czy może diagramy sieciowe. Ale możemy też skorzystać ze wsparcia narzędzi algorytmicznych, które po przeskanowaniu wyników podpowiedzą typy wykresów i wizualizacji. Później możemy je jeszcze przekształcać, zanim trafią do raportu.

  1. Przemyślana struktura raportu.

To również krok, który może wydawać się oczywisty, a bywa pomijany. Przed rozpoczęciem wypełniania raportu treścią dobrze jest zaplanować jego strukturę. Stworzenie formy dla informacji i wniosków bardzo pomoże nam potem w konstruowaniu raportu i od razu pokaże, czego jeszcze w nim potrzebujemy. Co powinien zawierać raport? Wprowadzenie (problem i cel analizy), metodologię (narzędzia i techniki), wyniki (tylko najważniejsze ustalenia oparte o dane), wnioski (co-wynika-z–wyników), zalecenia (jak wnioski przełożyć na działania i decyzje biznesowe) i bibliografię (źródła danych i narzędzi, żeby raport był transparentny i wiarygodny).

  1. Wprowadź odbiorców raportu.

W tym kroku wróć znowu na chwilę do punktu 1. Napisz wprowadzenie do raportu, w którym wytłumaczysz, jaki cel analityczny sobie postawiłeś i dlaczego. Wytłumacz, dlaczego to ważne dla organizacji, jaki jest kontekst biznesowy badanego problemu oraz na jakie pytania odpowiada opracowanie. Możesz też zapowiedzieć, czego dowiedzą się czytelnicy dokumentu, czyli dlaczego warto go dalej czytać.

  1. Do sedna – wyniki.

Wyniki analizy przedstaw precyzyjnie i szczegółowo, ale opisz je w sposób zrozumiały także dla osób, które nie są ekspertami w zakresie data science lub w obszarze działalności waszej firmy lub instytucji. Prawdopodobnie wiesz, kim są pierwsi odbiorcy raportu, ale możliwe, że ich poziom wiedzy w tych obszarach jest nierówny. Dodatkowo, raport może potem trafić do innych odbiorców. Ważne żeby poza rzetelnością był też jak najbardziej komunikatywny.

  1. Wnioski i rekomendacje.

Załóż, że nie każdy, a nawet mniejszość twoich czytelników, przeczyta opracowanie w całości. Z dużym prawdopodobieństwem ci, którzy będą chcieli poświęcić mu mniej czasu, zajrzą do wprowadzenia i wniosków. Ewentualnie też do wyników i metodologii. Zatem wnioski i rekomendacje powinny być wizytówką raportu. Napisz w tej części o najważniejszych obserwacjach, które wynikają z danych. Zadbaj szczególnie o koherencję, to znaczy sprawdzaj na bieżąco, czy każda podawana informacja na pewno ma oparcie w analizowanych danych. Zawrzyj konkretne zalecenia biznesowe zbudowane na wnioskach z analizy. Zaakcentuj, jakie działanie warto rozważyć, jakie polityki lub strategie mogą posłużyć osiągnięciu biznesowych celów i wyeliminowaniu badanego problemu. Jeśli to możliwe, spróbuj osadzić te propozycje w kontekście rynkowych działań innych podmiotów, które były w podobnej sytuacji.

  1. Podsumowanie oraz bibliografia.

Na koniec podsumuj całość raportu, nie tylko wyniki i wnioski, ale pokaż zwięźle cały proces, który zrealizowałeś w opracowaniu. Skup szczególną uwagę na wartościach i korzyściach biznesowych, a także na rozwiązywaniu realnych problemów danej instytucji lub przedsiębiorstwa. Ważne aby raport kończył się rzetelną bibliografią, która będzie zawierała źródła danych i informacje o wykorzystanych narzędziach. Chodzi o to, żeby fundamentem wiarygodności raportu była możliwość zweryfikowania jego treści.

Sklep rowerowy z siedzibą w Toruniu chce kontrolować, ile sprzedał rowerów. Do tego wystarczy mu prosta baza danych. Ale jeśli chciałby wiedzieć, ile w tej puli było rowerów górskich, ile trekkingowych, gravelowych i miejskich oraz jak sprzedaż zmieniała się w kolejnych miesiącach w różnych sklepach, wtedy musi już budować wielowymiarową bazę. Jednak dzięki przetwarzaniu bardziej złożonych informacji sklep ma szansę dowiedzieć się znacznie więcej o rynku i o swojej działalności. Potrzebuje do tego specjalistycznych narzędzi oraz kompetencji.

Opisany przykład jest uproszczeniem, bo wymiarów danych może być znacznie więcej. Każdy rodzaj roweru można jeszcze np. podzielić według zakresów cenowych: 1-2,5 tys. zł, 2,5-5 tys. zł i 5-10 tys. zł. Do tego dodajemy nowe wymiary czasu, oprócz miesięcy, także tygodnie i kwartały. Nasza kostka danych rośnie. Komplikuje się, ale teraz, obracając ją i modyfikując kategorie, znacznie dokładniej zaobserwujemy trendy i zjawiska – obiecujące i niepokojące. A w następstwie będziemy mogli podejmować lepsze decyzje biznesowe – na podstawie danych.

Hiperkostka MOLAP

Operacje na zbudowanych z wielu wymiarów tzw. kostkach danych są możliwe dzięki oprogramowaniu MOLAP (Multidimensional Online Analytical Processing). To jeden z trzech rodzajów narzędzi typu OLAP, czyli Online Analytical Processing, które rozwinęły się z prostszego modelu OLTP (Online Transaction Processing). Obok wielowymiarowego przetwarzania danych w gronie OLAP-ów mamy jeszcze relacyjne (ROLAP, Relational Online Analytical Processing) i hybrydowe (HOLAP, Hybrid Online Analytical Processing). Relacyjne bazy danych zawierają informacje o konsekwentnej strukturze i są uporządkowane za pomocą związków pomiędzy poszczególnymi składowymi. Modele hybrydowe, zgodnie z nazwą, łączą podejście relacyjne i wielowymiarowe.

Z kolei MOLAP to rozwiązanie, w którym dane mają wiele kategorii, ułożonych jako wielowymiarowa tablica, gdzie informacje są wstępnie przeliczone i składowane w kostce. Systemy MOLAP dają większe możliwości niż bazy relacyjne – przede wszystkim warto docenić wysoką wydajność zapytań, mniejszy rozmiar danych i szybki dostęp do informacji. Po stronie minusów jest wolniejsze wstępne przetwarzanie informacji, zwłaszcza w przypadku dużych zbiorów. Najprościej mówiąc, baza relacyjna przypomina kartkę papieru wypełnioną danymi. Natomiast kostka w modelu MOLAP jest przestrzenna, nawet nie trój-, ale wielowymiarowa. Bardziej precyzyjnie możemy zatem określić ją jako hiperkostkę.

Co można zrobić z hiperkostką?

Hypercube wypełniona wieloma wymiarami danych umożliwia analitykom wykonywanie kilku typów operacji. Działania służą zmniejszeniu rozmiaru danych, dopasowaniu ich wizualizacji do konkretnych potrzeb, a przede wszystkim do wydobycia z kostki istotnych informacji. Data scientiści przeprowadzają na modelu wielowymiarowym 5 typów operacji:

zwijanie (roll-up) – polega na łączeniu kategorii danych w większe grupy, przez co pozwala na analizowanie informacji gęściej zagregowanych, ale o mniejszej szczegółowości (zamiast 4 kategorii rowerów: sprzedawanych w Toruniu, Wrocławiu, w sklepie www i na Allegro – mamy 2 kategorie: rowery sprzedawane w realu i w sieci)

rozwijanie (drill-down) – operacja odwrotna do zwijania, zyskujemy dane mniej zagregowane, o większej szczegółowości (ogólne kanały sprzedaży znowu dzielimy na konkretne lokalizacje lub internetowe narzędzia)

filtrowanie (screening) – to zdefiniowanie pewnej zasady dla analizowanych danych (sprawdzamy, w których konkretnych kanałach sprzedaży klienci najczęściej kupowali rowery o wartości przekraczającej 2,5 tys. zł)

wycinanie (slice-and-dice) – ograniczenie widoku danych do wybranego wymiaru (ile sklep sprzedał rowerów gravelowych w poszczególnych zakresach cenowych w każdym z trzech ostatnich miesięcy)

obracanie (pivoting) – tu mamy do czynienia z operacją na wymiarach, np. przenosimy dane z kolumn do wierszy, żeby zobaczyć je z innej perspektywy (zamiast widoku akcentującego osobno liczbę sprzedanych rowerów górskich, trekkingowych, miejskich i gravelowych w różnych kanałach i czasie – otrzymujemy kostkę, w której widzimy najpierw miesiące z podziałem na kanały i typy rowerów; czyli zamiast informacji o liczbie sprzedanych rowerów poszczególnych typów, dostajemy dane o sprzedaży w poszczególnych miesiącach, ale nadal z uwzględnieniem wszystkich wymiarów).

Dylematy i szanse z punktu widzenia wdrożeniowca

Na etapie wdrożenia w firmie rozwiązania pod kątem wielowymiarowej analizy trzeba uwzględnić dwie perspektywy: użytkownika systemu i działu IT. Analitycy biznesowi i menadżerowie potrzebują widoku danych uporządkowanych według kategorii, zgodnie z którymi widzą swoją firmę. Z kolei dla administratora IT znaczenie ma długa lista technicznych kwestii. Są wśród nich m.in.: potrzebna przestrzeń dyskowa, parametry serwerowe, warunki aktualizowania i backupowania danych czy wydajność budowania modeli.

Istotna w podobnych procesach jest także kompresja danych mająca na celu ich lepszą integrację i sprawniejsze zarządzanie. Przedsiębiorstwo zyskuje czas, który może przeznaczyć na trenowanie zaawansowanych modeli analitycznych. Problemem wielu organizacji jest powtarzalny przepływ danych, ręcznie prowadzone procesy oraz silosowość zbiorów, co utrudnia wydobywanie wniosków przedkładanych na korzyści biznesowe. Kompresja danych upraszcza i przyśpiesza zadania obliczeniowe. W konsekwencji decyzje zarządcze mogą być podejmowane szybciej.

Tego rodzaju rozwiązania wpływają równocześnie na koszty i złożoność działań na każdym etapie procesu. Dodatkowo zmniejsza się ryzyko, a maksymalizuje ilość przetwarzanych informacji z pominięciem konieczności przesyłania ich między platformami. Integracja chmurowych rozwiązań analitycznych i kontenerowych pozwala obsługiwać cały cykl życia analityki wspieranej przez sztuczną inteligencję – począwszy od zdobywania danych, przez budowanie modeli, a skończywszy na podejmowaniu decyzji. Z takich narzędzi korzystają banki, urzędy, szpitale… mogę także sklepy rowerowe.

Więcej wymiarów to głębsze wnioski

Jeżeli prezes firmy rowerowej z Torunia, który wdrożył tego typu narzędzie, potrzebuje ogólnych informacji o stanie biznesu, uzyska je z jedno lub dwuwymiarowej bazy. Jednak jeśli stoi przed skomplikowanym problemem biznesowym – np. nie wie dlaczego trwale spadła sprzedaż w jednym kanale, choć z dostępnych informacji wynika, że warunki się nie zmieniły, wtedy musi sięgnąć po wielowymiarowe bazy. Kiedy informacje będą odpowiednio szczegółowe, obracanie kostki danych, filtrowanie i rozwijanie modeli pokaże zarządzającemu lub jego analitykowi nowe perspektywy. A z nich wynikną pytania, które pozwolą określić kolejne wymiary potrzebnych danych. Uzupełnienie kostki poszerzy dostępną wiedzę i umożliwi wyciągnięcie głębszych wniosków.

Może okazać się, że firma sprzedaje mniej rowerów górskich w sklepie internetowym od 2 miesięcy, kiedy Google zmieniło algorytm wyszukiwania dotyczący użytkowników w wieku 30-35 lat, mieszkających w miastach powyżej 100 tysięcy mieszkańców w Europie Środkowo-Wschodniej… Bez wielowymiarowej analityki ten ważny sprzedażowo fakt może być nie do wyłapania. A wiedza o nim to punkt wyjścia do nowych decyzji biznesowych, opartych na danych.

Udostępnij link

https://www.datasciencerobie.pl/wrozenie-z-hiperkostki-danych-czyli-dojrzale-decyzje-biznesowe/