Przetwarzanie analityczne online - Online analytical processing

Przetwarzanie analityczne online lub OLAP ( / l ® P / ), to podejście do odpowiedzi na wielowymiarowy analityczny (MDA) przesyła się szybko w obliczeniowej . OLAP należy do szerszej kategorii business intelligence , która obejmuje również relacyjne bazy danych , pisanie raportów i eksplorację danych . Typowe zastosowania OLAP obejmują raportowanie biznesowe dla sprzedaży, marketingu , raportowanie zarządcze, zarządzanie procesami biznesowymi (BPM), budżetowanie i prognozowanie ,sprawozdawczość finansowa i podobne obszary, z nowymi aplikacjami wschodzących, takich jak rolnictwo .

Termin OLAP powstał jako niewielka modyfikacja tradycyjnego terminu bazodanowego przetwarzania transakcji online (OLTP).

Narzędzia OLAP umożliwiają użytkownikom interaktywną analizę danych wielowymiarowych z wielu perspektyw. OLAP składa się z trzech podstawowych operacji analitycznych: konsolidacji (roll-up), drążenia oraz krojenia i krojenia. Konsolidacja obejmuje agregację danych, które można gromadzić i obliczać w co najmniej jednym wymiarze. Na przykład, wszystkie biura sprzedaży są połączone z działem sprzedaży lub działem sprzedaży, aby przewidywać trendy sprzedaży. Natomiast drążenie to technika, która pozwala użytkownikom poruszać się po szczegółach. Na przykład użytkownicy mogą przeglądać sprzedaż według poszczególnych produktów, które składają się na sprzedaż regionu. Krojenie i kostkowanie to funkcja, dzięki której użytkownicy mogą pobierać (wycinać) określony zestaw danych z kostki OLAP i przeglądać (odcinać) plasterki z różnych punktów widzenia. Te punkty widzenia są czasami nazywane wymiarami (np. patrzenie na tę samą sprzedaż według sprzedawcy, daty, klienta, produktu, regionu itp.).

Bazy danych skonfigurowane pod kątem OLAP wykorzystują wielowymiarowy model danych, co pozwala na wykonywanie złożonych zapytań analitycznych i ad hoc z szybkim czasem wykonania. Pożyczają aspekty nawigacyjnych baz danych , hierarchicznych baz danych i relacyjnych baz danych.

OLAP jest zwykle w przeciwieństwie do OLTP (przetwarzania transakcji online), który zazwyczaj charakteryzuje się znacznie mniej złożonymi zapytaniami, w większej ilości, w celu przetwarzania transakcji, a nie w celu analizy biznesowej lub raportowania. Podczas gdy systemy OLAP są w większości zoptymalizowane pod kątem odczytu, OLTP musi przetwarzać wszystkie rodzaje zapytań (odczyt, wstawianie, aktualizowanie i usuwanie).

Przegląd systemów OLAP

Rdzeniem każdego systemu OLAP jest kostka OLAP (nazywana również „kostką wielowymiarową” lub hipersześcianem ). Składa się z liczbowych faktów zwanych miarami, które są podzielone na kategorie według wymiarów . Miary są umieszczane na przecięciach hipersześcianu, który jest rozdzielony przez wymiary w przestrzeni wektorowej . Typowym interfejsem służącym do manipulowania modułem OLAP jest interfejs macierzy, taki jak tabele przestawne w programie arkusza kalkulacyjnego, który wykonuje operacje rzutowania wzdłuż wymiarów, takie jak agregacja lub uśrednianie.

Metadane kostki są zwykle tworzone na podstawie schematu gwiaździstego lub schematu płatka śniegu lub konstelacji faktów w relacyjnej bazie danych . Miary pochodzą z rekordów w tabeli faktów, a wymiary pochodzą z tabel wymiarów .

Każda miara może być traktowana jako mająca zestaw etykiet lub powiązanych z nią metadanych. Wymiar to co opisuje te etykiety ; dostarcza informacji o działaniu .

Prostym przykładem może być kostka zawierająca sprzedaż w sklepie jako miarę oraz Data/Godzina jako wymiar . Każda sprzedaż ma etykietę daty/godziny, która opisuje więcej informacji na temat tej sprzedaży.

Na przykład:

 Sales Fact Table
+-------------+----------+
| sale_amount | time_id  |
+-------------+----------+            Time Dimension
|      2008.10|     1234 |----+     +---------+-------------------+
+-------------+----------+    |     | time_id | timestamp         |
                              |     +---------+-------------------+
                              +---->|   1234  | 20080902 12:35:43 |
                                    +---------+-------------------+

Wielowymiarowe bazy danych

Strukturę wielowymiarową definiuje się jako „odmianę modelu relacyjnego, który wykorzystuje struktury wielowymiarowe do organizowania danych i wyrażania relacji między danymi”. Struktura jest podzielona na kostki, które mogą przechowywać dane i uzyskiwać do nich dostęp w obrębie każdej kostki. „Każda komórka w strukturze wielowymiarowej zawiera zagregowane dane dotyczące elementów wzdłuż każdego z jej wymiarów”. Nawet gdy dane są manipulowane, dostęp do nich pozostaje łatwy i nadal stanowi kompaktowy format bazy danych. Dane nadal pozostają ze sobą powiązane. Struktura wielowymiarowa jest dość popularna w przypadku analitycznych baz danych, które wykorzystują aplikacje do przetwarzania analitycznego online (OLAP). Bazy analityczne korzystają z tych baz ze względu na ich zdolność do szybkiego dostarczania odpowiedzi na złożone zapytania biznesowe. Dane można oglądać pod różnymi kątami, co daje szerszą perspektywę problemu w przeciwieństwie do innych modeli.

Agregacje

Stwierdzono, że dla złożonych zapytań kostki OLAP mogą dać odpowiedź w około 0,1% czasu wymaganego dla tego samego zapytania na relacyjnych danych OLTP . Najważniejszym mechanizmem w OLAP pozwalającym na osiągnięcie takiej wydajności jest wykorzystanie agregacji . Agregacje są tworzone na podstawie tabeli faktów, zmieniając szczegółowość określonych wymiarów i agregując dane wzdłuż tych wymiarów za pomocą funkcji agregującej (lub funkcji agregacji ). Liczba możliwych agregacji jest określana przez każdą możliwą kombinację ziarnistości wymiarów.

Połączenie wszystkich możliwych agregacji i danych bazowych zawiera odpowiedzi na każde zapytanie, na które można odpowiedzieć z danych.

Ponieważ zwykle istnieje wiele agregacji, które można obliczyć, często tylko z góry określona liczba jest w pełni obliczana; pozostałe są rozwiązywane na żądanie. Problem decydowania, które agregacje (widoki) należy obliczyć, jest znany jako problem wyboru widoku. Wybór widoku może być ograniczony przez całkowity rozmiar wybranego zestawu agregacji, czas aktualizacji ich ze względu na zmiany w danych podstawowych lub oba te czynniki. Celem wyboru widoku jest zazwyczaj zminimalizowanie średniego czasu odpowiedzi na zapytania OLAP, chociaż niektóre badania również minimalizują czas aktualizacji. Wybór widoku to NP-Complete . Zbadano wiele podejść do tego problemu, w tym algorytmy zachłanne , wyszukiwanie losowe, algorytmy genetyczne i algorytm wyszukiwania A* .

Niektóre funkcje agregacji można obliczyć dla całej kostki OLAP przez wstępne obliczenie wartości dla każdej komórki, a następnie obliczenie agregacji dla zestawienia komórek poprzez agregację tych agregatów i zastosowanie algorytmu dziel i zwyciężaj do problemu wielowymiarowego w celu ich wydajnego obliczenia. Na przykład ogólna suma podsumowania to tylko suma podsum w każdej komórce. Funkcje, które można rozłożyć w ten sposób, nazywane są rozkładalnymi funkcjami agregacji i obejmują COUNT, MAX, MIN,i SUM, które można obliczyć dla każdej komórki, a następnie bezpośrednio zagregować; są one znane jako samorozkładalne funkcje agregacji. W innych przypadkach funkcja agregująca może być obliczona poprzez obliczenie liczb pomocniczych dla komórek, agregowanie tych liczb pomocniczych i na koniec obliczenie całkowitej liczby; przykłady obejmują AVERAGE(śledzenie sumy i liczby, dzielenie na końcu) i RANGE(śledzenie maks. i min., odejmowanie na końcu). W innych przypadkach funkcja agregująca nie może być obliczona bez jednoczesnej analizy całego zbioru, chociaż w niektórych przypadkach można obliczyć przybliżenia; przykłady obejmują DISTINCT COUNT, MEDIAN,i MODE; na przykład mediana zbioru nie jest medianą median podzbiorów. Te ostatnie są trudne do efektywnego zaimplementowania w OLAP, ponieważ wymagają obliczenia funkcji agregującej na danych bazowych, albo obliczania ich online (wolne) albo wstępnego obliczania ich dla możliwych rolloutów (duża przestrzeń).

Rodzaje

Systemy OLAP zostały tradycyjnie podzielone na kategorie przy użyciu następującej taksonomii.

Wielowymiarowy OLAP (MOLAP)

MOLAP (wielowymiarowe przetwarzanie analityczne online) jest klasyczną formą OLAP i jest czasami określana po prostu jako OLAP. MOLAP przechowuje te dane w zoptymalizowanej wielowymiarowej pamięci macierzowej, a nie w relacyjnej bazie danych.

Niektóre narzędzia MOLAP wymagają wstępnego obliczenia i przechowywania danych pochodnych, takich jak konsolidacje – operacja znana jako przetwarzanie. Takie narzędzia MOLAP zazwyczaj wykorzystują wstępnie obliczony zestaw danych, zwany kostką danych . Kostka danych zawiera wszystkie możliwe odpowiedzi na zadany zakres pytań. Dzięki temu mają bardzo szybką odpowiedź na zapytania. Z drugiej strony aktualizacja może zająć dużo czasu w zależności od stopnia wstępnego obliczenia. Wstępne obliczenia mogą również prowadzić do tzw. eksplozji danych.

Inne narzędzia MOLAP, szczególnie te, które implementują funkcjonalny model bazy danych , nie obliczają wstępnie danych pochodnych, ale wykonują na żądanie wszystkie obliczenia, inne niż te, które były wcześniej wymagane i przechowywane w pamięci podręcznej.

Zalety MOLAP

  • Szybka wydajność zapytań dzięki zoptymalizowanej pamięci masowej, wielowymiarowemu indeksowaniu i buforowaniu.
  • Mniejszy rozmiar danych na dysku w porównaniu do danych przechowywanych w relacyjnej bazie danych ze względu na techniki kompresji.
  • Zautomatyzowane obliczanie agregatów danych wyższego poziomu.
  • Jest bardzo kompaktowy dla zestawów danych o małych wymiarach.
  • Modele tablicowe zapewniają naturalne indeksowanie.
  • Efektywna ekstrakcja danych osiągnięta dzięki wstępnej strukturze zagregowanych danych.

Wady MOLAP

  • W niektórych systemach MOLAP etap przetwarzania (ładowanie danych) może być dość długi, zwłaszcza w przypadku dużych ilości danych. Zwykle można temu zaradzić, wykonując tylko przetwarzanie przyrostowe, tj. przetwarzając tylko te dane, które uległy zmianie (zwykle nowe dane), zamiast ponownie przetwarzać cały zestaw danych.
  • Niektóre metodologie MOLAP wprowadzają nadmiarowość danych.

Produkty

Przykładami produktów komercyjnych korzystających z MOLAP są Cognos Powerplay, Oracle Database OLAP Option , MicroStrategy , Microsoft Analysis Services , Essbase , TM1 , Jedox i icCube .

Relacyjne OLAP (ROLAP)

ROLAP działa bezpośrednio z relacyjnymi bazami danych i nie wymaga wstępnych obliczeń. Dane podstawowe i tabele wymiarów są przechowywane jako tabele relacyjne, a nowe tabele są tworzone w celu przechowywania zagregowanych informacji. To zależy od wyspecjalizowanego projektu schematu. Metodologia ta polega na manipulowaniu danymi przechowywanymi w relacyjnej bazie danych, aby nadać wygląd tradycyjnej funkcjonalności OLAP-slicing and dicing. W skrócie, każda akcja krojenia i kostkowania jest równoważna dodaniu klauzuli „WHERE” w instrukcji SQL. Narzędzia ROLAP nie używają wstępnie obliczonych kostek danych, ale zamiast tego wysyłają zapytanie do standardowej relacyjnej bazy danych i jej tabel w celu przywrócenia danych wymaganych do odpowiedzi na pytanie. Narzędzia ROLAP posiadają możliwość zadawania dowolnych pytań, ponieważ metodologia nie ogranicza się do zawartości kostki. ROLAP ma również możliwość drążenia do najniższego poziomu szczegółowości w bazie danych.

Podczas gdy ROLAP używa źródła relacyjnej bazy danych, ogólnie baza danych musi być starannie zaprojektowana pod kątem użycia ROLAP. Baza danych zaprojektowana dla OLTP nie będzie działać dobrze jako baza danych ROLAP. Dlatego ROLAP nadal wiąże się z tworzeniem dodatkowej kopii danych. Jednak ponieważ jest to baza danych, do jej wypełnienia można użyć różnych technologii.

Zalety ROLAP

  • Uważa się, że ROLAP jest bardziej skalowalny w obsłudze dużych wolumenów danych, zwłaszcza modeli o wymiarach o bardzo dużej kardynalności (tj. milionów członków).
  • Dzięki różnym dostępnym narzędziom do ładowania danych oraz możliwości precyzyjnego dostrojenia kodu wyodrębniania, przekształcania i ładowania (ETL) do konkretnego modelu danych, czasy ładowania są zazwyczaj znacznie krótsze niż w przypadku zautomatyzowanego ładowania MOLAP .
  • Dane są przechowywane w standardowej relacyjnej bazie danych i są dostępne za pomocą dowolnego narzędzia do raportowania SQL (narzędzie nie musi być narzędziem OLAP).
  • Narzędzia ROLAP lepiej radzą sobie z niezagregowanymi faktami (np. opisami tekstowymi). Narzędzia MOLAP mają tendencję do spadku wydajności podczas wykonywania zapytań o te elementy.
  • Przez oddzielenie przechowywanie danych z modelu wielowymiarowego, można z powodzeniem modelu danych, które w przeciwnym razie nie pasują do ścisłego modelu wymiarowego.
  • Podejście ROLAP może wykorzystywać mechanizmy autoryzacji bazy danych, takie jak zabezpieczenia na poziomie wiersza, dzięki czemu wyniki zapytania są filtrowane w zależności od ustalonych kryteriów zastosowanych np. do danego użytkownika lub grupy użytkowników ( klauzula SQL WHERE).

Wady ROLAP

  • W branży panuje zgoda, że ​​narzędzia ROLAP mają mniejszą wydajność niż narzędzia MOLAP. Jednak zobacz poniższą dyskusję na temat wydajności ROLAP.
  • Ładowanie tabel zbiorczych musi być zarządzane za pomocą niestandardowego kodu ETL . Narzędzia ROLAP nie pomagają w tym zadaniu. Oznacza to dodatkowy czas na rozwój i więcej kodu do obsługi.
  • Pominięcie etapu tworzenia tabel agregujących powoduje obniżenie wydajności zapytań, ponieważ konieczne jest wykonanie zapytań w przypadku większych tabel szczegółowych. Można temu częściowo zaradzić, dodając dodatkowe tabele zbiorcze, jednak nadal nie jest praktyczne tworzenie tabel zbiorczych dla wszystkich kombinacji wymiarów/atrybutów.
  • ROLAP opiera się na bazie danych ogólnego przeznaczenia do wykonywania zapytań i buforowania, dlatego kilka specjalnych technik stosowanych przez narzędzia MOLAP nie jest dostępnych (takich jak specjalne indeksowanie hierarchiczne). Jednak nowoczesne narzędzia ROLAP wykorzystują najnowsze ulepszenia języka SQL , takie jak operatory CUBE i ROLLUP, DB2 Cube Views, a także inne rozszerzenia SQL OLAP. Te ulepszenia SQL mogą ograniczyć korzyści płynące z narzędzi MOLAP .
  • Ponieważ narzędzia ROLAP do wszystkich obliczeń opierają się na SQL , nie są one odpowiednie, gdy model jest obciążony obliczeniami, które nie przekładają się dobrze na SQL . Przykłady takich modeli obejmują budżetowanie, alokacje, sprawozdawczość finansową i inne scenariusze.

Wydajność ROLAP

W branży OLAP ROLAP jest zwykle postrzegany jako zdolny do skalowania dla dużych ilości danych, ale cierpiący z powodu wolniejszej wydajności zapytań w przeciwieństwie do MOLAP . Badanie OLAP Survey , największe niezależne badanie dotyczące wszystkich głównych produktów OLAP, prowadzone przez 6 lat (2001 do 2006) konsekwentnie wykazało, że firmy korzystające z ROLAP wykazują niższą wydajność niż te, które używają MOLAP, nawet jeśli uwzględniono ilość danych.

Jednak, jak w przypadku każdego badania, istnieje szereg subtelnych kwestii, które należy wziąć pod uwagę podczas interpretacji wyników.

  • Badanie pokazuje, że narzędzia ROLAP mają 7 razy więcej użytkowników niż narzędzia MOLAP w każdej firmie. Systemy z większą liczbą użytkowników będą miały tendencję do większych problemów z wydajnością w godzinach szczytu.
  • Pojawia się również pytanie o złożoność modelu, mierzoną zarówno liczbą wymiarów, jak i bogactwem obliczeń. Ankieta nie oferuje dobrego sposobu kontrolowania tych różnic w analizowanych danych.

Wadą elastyczności

Niektóre firmy wybierają ROLAP, ponieważ zamierzają ponownie wykorzystać istniejące tabele relacyjnych baz danych — te tabele często nie będą optymalnie zaprojektowane do użytku OLAP. Wyższa elastyczność narzędzi ROLAP pozwala na działanie tego mniej niż optymalnego projektu, ale cierpi na tym wydajność. Natomiast narzędzia MOLAP wymusiłyby ponowne załadowanie danych do optymalnego projektu OLAP.

Hybrydowy OLAP (HOLAP)

Niepożądany kompromis między dodatkowym kosztem ETL a niską wydajnością zapytań sprawił, że większość komercyjnych narzędzi OLAP używa teraz podejścia „Hybrid OLAP” (HOLAP), które pozwala projektantowi modelu zdecydować, która część danych będzie przechowywana w MOLAP i jaka porcja w ROLAP.

W branży nie ma wyraźnej zgody co do tego, co stanowi „Hybrid OLAP”, z wyjątkiem tego, że baza danych dzieli dane między pamięcią relacyjną i wyspecjalizowaną. Na przykład w przypadku niektórych dostawców baza danych HOLAP będzie wykorzystywać tabele relacyjne do przechowywania większych ilości szczegółowych danych i wykorzystywać wyspecjalizowaną pamięć masową dla przynajmniej niektórych aspektów mniejszych ilości bardziej zagregowanych lub mniej szczegółowych danych. HOLAP zajmuje się niedociągnięciami MOLAP i ROLAP , łącząc możliwości obu podejść. Narzędzia HOLAP mogą wykorzystywać zarówno wstępnie obliczone kostki, jak i relacyjne źródła danych.

Partycjonowanie pionowe

W tym trybie HOLAP przechowuje agregacje w MOLAP w celu szybkiego wykonania zapytań oraz szczegółowe dane w ROLAP w celu optymalizacji czasu przetwarzania kostki .

Partycjonowanie poziome

W tym trybie HOLAP przechowuje pewien wycinek danych, zwykle nowszy (tj. podzielony według wymiaru Czas) w MOLAP w celu szybkiego wykonania zapytań, a starsze dane w ROLAP . Co więcej, niektóre kości możemy przechowywać w MOLAP, a inne w ROLAP , wykorzystując fakt, że na dużym prostopadłościanie będą gęste i rzadkie podregiony.

Produkty

Pierwszym produktem zapewniającym pamięć masową HOLAP był Holos , ale technologia ta stała się również dostępna w innych produktach komercyjnych, takich jak Microsoft Analysis Services , Oracle Database OLAP Option , MicroStrategy i SAP AG BI Accelerator. Hybrydowe podejście OLAP łączy technologię ROLAP i MOLAP, korzystając z większej skalowalności ROLAP i szybszych obliczeń MOLAP. Na przykład serwer HOLAP może przechowywać duże ilości szczegółowych danych w relacyjnej bazie danych, podczas gdy agregacje są przechowywane w oddzielnym magazynie MOLAP. Usługi Microsoft SQL Server 7.0 OLAP obsługują hybrydowy serwer OLAP

Porównanie

Każdy rodzaj ma określone korzyści, chociaż istnieje różnica zdań co do specyfiki korzyści między dostawcami.

  • Niektóre implementacje MOLAP są podatne na eksplozję bazy danych, zjawisko powodujące wykorzystanie ogromnych ilości przestrzeni dyskowej przez bazy danych MOLAP, gdy spełnione są pewne wspólne warunki: duża liczba wymiarów, wstępnie obliczone wyniki i rzadkie dane wielowymiarowe.
  • MOLAP ogólnie zapewnia lepszą wydajność dzięki wyspecjalizowanym optymalizacjom indeksowania i przechowywania. MOLAP potrzebuje również mniej miejsca do przechowywania w porównaniu z ROLAP, ponieważ wyspecjalizowana pamięć masowa zazwyczaj obejmuje techniki kompresji .
  • ROLAP jest ogólnie bardziej skalowalny. Jednak wstępne przetwarzanie dużych wolumenów jest trudne do efektywnego wdrożenia, dlatego często jest pomijane. Dlatego wydajność zapytań ROLAP może bardzo ucierpieć.
  • Ponieważ ROLAP w większym stopniu opiera się na bazie danych do wykonywania obliczeń, ma więcej ograniczeń w zakresie specjalistycznych funkcji, z których może korzystać.
  • HOLAP stara się łączyć to, co najlepsze z ROLAP i MOLAP. Zasadniczo może szybko przetwarzać wstępne, dobrze skalować i zapewniać dobre wsparcie funkcji.

Inne rodzaje

Czasami używane są również następujące akronimy, chociaż nie są one tak rozpowszechnione jak te powyżej:

  • WOLAP – internetowy OLAP
  • DOLAPPulpit OLAP
  • RTOLAP – OLAP w czasie rzeczywistym
  • GOLAP – Wykres OLAP
  • CaseOLAP – kontekstowy semantyczny OLAP, opracowany do zastosowań biomedycznych. Platforma CaseOLAP obejmuje wstępne przetwarzanie danych (np. pobieranie, wyodrębnianie i analizowanie dokumentów tekstowych), indeksowanie i wyszukiwanie za pomocą Elasticsearch, tworzenie funkcjonalnej struktury dokumentu o nazwie Text-Cube oraz ilościowe określanie zdefiniowanych przez użytkownika relacji fraza-kategoria przy użyciu podstawowego algorytmu CaseOLAP.

API i języki zapytań

W przeciwieństwie do relacyjnych baz danych , które miały SQL jako standardowy język zapytań i szeroko rozpowszechnione API, takie jak ODBC , JDBC i OLEDB , w świecie OLAP przez długi czas nie było takiej unifikacji. Pierwszym prawdziwym standardowym API była specyfikacja OLE DB for OLAP firmy Microsoft, która pojawiła się w 1997 roku i wprowadziła język zapytań MDX . Kilku dostawców OLAP – zarówno serwerowych, jak i klienckich – przyjęło go. W 2001 roku Microsoft i Hyperion ogłosiły specyfikację XML for Analysis , która została zatwierdzona przez większość dostawców OLAP. Ponieważ używało to również MDX jako języka zapytań, MDX stał się de facto standardem. Od września 2011 LINQ może być używany do odpytywania kostek SSAS OLAP z Microsoft .NET.

Produkty

Historia

Pierwszym produktem, który wykonywał zapytania OLAP był Express, wydany w 1970 roku (i przejęty przez Oracle w 1995 roku od Information Resources). Termin ten pojawił się jednak dopiero w 1993 roku, kiedy został ukuty przez Edgara F. Codda , który został opisany jako „ojciec relacyjnej bazy danych”. Artykuł Codda był wynikiem krótkiego zadania konsultingowego, które Codd podjął dla byłego Arbor Software (później Hyperion Solutions , aw 2007 przejętego przez Oracle), jako rodzaj marketingowego zamachu stanu. Firma wypuściła swój własny produkt OLAP, Essbase , rok wcześniej. W rezultacie „dwanaście praw przetwarzania analitycznego online” Codda było wyraźnie odniesione do Essbase. Wywiązały się pewne kontrowersje i kiedy Computerworld dowiedział się, że Codd był opłacany przez Arbor, wycofał artykuł. Rynek OLAP doświadczył silnego wzrostu pod koniec lat 90-tych, wprowadzając na rynek dziesiątki produktów komercyjnych. W 1998 r. firma Microsoft wydała swój pierwszy serwer OLAP — Microsoft Analysis Services , który przyczynił się do szerokiego przyjęcia technologii OLAP i przeniósł ją do głównego nurtu.

Porównanie produktów

Klienci OLAP

Klienci OLAP zawierają wiele programów do arkuszy kalkulacyjnych, takich jak Excel, aplikacja internetowa, SQL, narzędzia pulpitu nawigacyjnego itp. Wielu klientów obsługuje interaktywne eksplorowanie danych, w którym użytkownicy wybierają interesujące ich wymiary i miary. Niektóre wymiary są używane jako filtry (do wycinania i krojenia danych), podczas gdy inne są wybierane jako osie tabeli przestawnej lub wykresu przestawnego. Użytkownicy mogą również zmieniać poziom agregacji (dla drążenia w dół lub rozwijania) wyświetlanego widoku. Klienci mogą również oferować różnorodne widżety graficzne, takie jak suwaki, mapy geograficzne, mapy ciepła i inne, które można grupować i koordynować jako pulpity nawigacyjne. W kolumnie wizualizacji tabeli porównawczej serwerów OLAP pojawia się obszerna lista klientów .

Struktura rynku

Poniżej znajduje się lista najlepszych dostawców OLAP w 2006 roku, z liczbami w milionach dolarów amerykańskich .

Sprzedawca Przychody globalne Skonsolidowana firma
Korporacja Microsoft 1806 Microsoft
Hyperion Solutions Corporation 1,077 Wyrocznia
Cognos 735 IBM
Obiekty biznesowe 416 SOK ROŚLINNY
MikroStrategia 416 MikroStrategia
SAP AG 330 SOK ROŚLINNY
Karteza ( SAP ) 210 SOK ROŚLINNY
Aplikacja 205 IBM
Informacje 199 Informacje
Korporacja Oracle 159 Wyrocznia
Inne 152 Inne
Całkowity 5700

Otwarte źródło

  • Mondrian OLAP server to serwer OLAP typu open source napisany w Javie . Obsługuje język zapytań MDX , XML for Analysis i specyfikacje interfejsu olap4j .
  • Apache Druid to popularny rozproszony magazyn danych typu open source dla zapytań OLAP, który jest używany na dużą skalę w produkcji przez różne organizacje.
  • Apache Kylin to rozproszony magazyn danych dla zapytań OLAP pierwotnie opracowany przez eBay.
  • Cubes (serwer OLAP) to kolejna lekka implementacja zestawu narzędzi typu open source z funkcjonalnością OLAP w języku programowania Python z wbudowanym ROLAP.
  • Apache Pinot (inkubacja) jest używany w LinkedIn, Uber, Slack i Microsoft do dostarczania skalowalnych analiz w czasie rzeczywistym z niskimi opóźnieniami. Może pozyskiwać dane ze źródeł danych offline (takich jak Hadoop i pliki płaskie), a także ze źródeł online (takich jak Kafka). Pinot jest przeznaczony do skalowania w poziomie.
  • ClickHouse to całkiem nowy DBMS zorientowany na kolumny, skupiający się na szybkim przetwarzaniu i czasach odpowiedzi.

Zobacz też

Bibliografia

  • Daniel Lemire (grudzień 2007). „Magazynowanie danych i bibliografia zorientowana na badania OLAP-A” .
  • Erika Thomsena. (1997). Rozwiązania OLAP: Budowanie wielowymiarowych systemów informatycznych, wydanie II . John Wiley & Synowie. Numer ISBN 978-0-471-14931-6.

Bibliografia

Cytaty

Źródła