Hurtownia danych - Data warehouse

Przegląd hurtowni danych
Podstawowa architektura hurtowni danych

W obliczeniowych , o hurtowni danych ( DW lub DWH ), znany również jako magazyn danych przedsiębiorstwa ( EDW ), to system stosowany do raportowania i analizy danych i jest uważany za główny trzon inteligencji biznesowej . DW to centralne repozytoria zintegrowanych danych z jednego lub większej liczby różnych źródeł. Przechowują w jednym miejscu bieżące i historyczne dane, które służą do tworzenia raportów analitycznych dla pracowników w całym przedsiębiorstwie.

Dane przechowywane w hurtowni pobierane są z systemów operacyjnych (takich jak marketing czy sprzedaż). Dane mogą przechodzić przez magazyn danych operacyjnych i mogą wymagać oczyszczenia danych dla dodatkowych operacji w celu zapewnienia jakości danych przed ich użyciem w DW do raportowania.

Wyodrębnianie, przekształcanie, ładowanie (ETL) i wyodrębnianie, ładowanie, przekształcanie (ELT) to dwa główne podejścia stosowane do budowy systemu hurtowni danych.

Hurtownia danych oparta na ETL

Typowa hurtownia danych oparta na ekstrakcji, transformacji i ładowaniu (ETL) wykorzystuje warstwy pomostowe , integracji danych i dostępu do swoich kluczowych funkcji. Warstwa pomostowa lub pomostowa baza danych przechowuje nieprzetworzone dane wyodrębnione z każdego z odmiennych źródłowych systemów danych. Warstwa integracji integruje różne zestawy danych, przekształcając dane z warstwy pomostowej, często przechowując te przekształcone dane w operacyjnej bazie danych (ODS). Zintegrowane dane są następnie przenoszone do jeszcze innej bazy danych, często nazywanej bazą danych hurtowni danych, gdzie dane są uporządkowane w hierarchiczne grupy, często nazywane wymiarami, oraz w fakty i zagregowane fakty. Połączenie faktów i wymiarów jest czasami nazywane schematem gwiaździstym . Warstwa dostępu pomaga użytkownikom pobierać dane.

Głównym źródłem danych jest oczyszczanie , przekształcanie, katalogowanie i udostępnianie menedżerom i innym profesjonalistom biznesowym do eksploracji danych , przetwarzania analitycznego online , badania rynku i wspomagania decyzji . Jednak środki do pobierania i analizowania danych, wyodrębniania, przekształcania i ładowania danych oraz zarządzania słownikiem danych są również uważane za istotne elementy systemu hurtowni danych. Wiele odniesień do hurtowni danych wykorzystuje ten szerszy kontekst. W związku z tym rozszerzona definicja hurtowni danych obejmuje narzędzia analizy biznesowej , narzędzia do wyodrębniania, przekształcania i ładowania danych do repozytorium oraz narzędzia do zarządzania i pobierania metadanych .

Hurtownia danych oparta na ELT

Architektura hurtowni danych oparta na ELT

Hurtownia danych oparta na ELT pozbywa się oddzielnego narzędzia ETL do transformacji danych. Zamiast tego utrzymuje obszar pomostowy wewnątrz samej hurtowni danych. W tym podejściu dane są wyodrębniane z heterogenicznych systemów źródłowych, a następnie bezpośrednio ładowane do hurtowni danych, zanim nastąpi jakakolwiek transformacja. Wszystkie niezbędne przekształcenia są następnie obsługiwane w samej hurtowni danych. Na koniec zmanipulowane dane są ładowane do tabel docelowych w tej samej hurtowni danych.

Korzyści

Hurtownia danych przechowuje kopię informacji ze źródłowych systemów transakcyjnych. Ta złożoność architektoniczna daje możliwość:

  • Zintegruj dane z wielu źródeł w jedną bazę danych i model danych. Większa agregacja danych w jednej bazie danych, dzięki czemu pojedynczy aparat zapytań może być używany do prezentowania danych w ODS.
  • Złagodzić problem rywalizacji o poziom izolacji bazy danych w systemach przetwarzania transakcji spowodowany próbami uruchamiania dużych, długotrwałych zapytań analitycznych w bazach danych przetwarzania transakcji.
  • Zachowaj historię danych , nawet jeśli źródłowe systemy transakcyjne tego nie robią.
  • Integruj dane z wielu systemów źródłowych, umożliwiając centralny widok w całym przedsiębiorstwie. Ta korzyść jest zawsze cenna, ale szczególnie wtedy, gdy organizacja rozrosła się w wyniku fuzji.
  • Popraw jakość danych , dostarczając spójne kody i opisy, oznaczając, a nawet naprawiając złe dane.
  • Konsekwentnie prezentuj informacje o organizacji.
  • Zapewnij jeden wspólny model danych dla wszystkich interesujących Cię danych, niezależnie od źródła danych.
  • Zrestrukturyzuj dane tak, aby miały sens dla użytkowników biznesowych.
  • Zmień strukturę danych, aby zapewnić doskonałą wydajność zapytań, nawet w przypadku złożonych zapytań analitycznych, bez wpływu na systemy operacyjne .
  • Dodaj wartość do operacyjnych aplikacji biznesowych, zwłaszcza systemów zarządzania relacjami z klientami (CRM).
  • Spraw, aby zapytania ułatwiające podejmowanie decyzji były łatwiejsze do napisania.
  • Organizuj i ujednolicaj powtarzające się dane

Ogólny

Środowisko hurtowni danych i mart obejmuje następujące elementy:

  • Systemy źródłowe, które dostarczają dane do hurtowni lub mart;
  • Technologia i procesy integracji danych, które są potrzebne do przygotowania danych do użycia;
  • Różne architektury do przechowywania danych w hurtowni danych organizacji lub bazach danych;
  • Różne narzędzia i aplikacje dla różnych użytkowników;
  • Metadane, jakość danych i procesy zarządzania muszą istnieć, aby zapewnić, że magazyn lub mart spełnia swoje cele.

W odniesieniu do systemów źródłowych wymienionych powyżej R. Kelly Rainer stwierdza: „Powszechnym źródłem danych w hurtowniach danych są operacyjne bazy danych firmy, które mogą być bazami relacyjnymi”.

Odnośnie integracji danych Rainer stwierdza: „Konieczne jest wyodrębnianie danych z systemów źródłowych, przekształcanie ich i ładowanie do hurtowni danych lub hurtowni”.

Rainer omawia przechowywanie danych w hurtowni danych organizacji lub bazach danych.

Metadane to dane o danych. „Personel IT potrzebuje informacji o źródłach danych, nazwach baz danych, tabel i kolumn, harmonogramach odświeżania oraz miarach wykorzystania danych”.

Obecnie firmy odnoszące największe sukcesy to te, które potrafią szybko i elastycznie reagować na zmiany i możliwości rynkowe. Kluczem do tej odpowiedzi jest efektywne i wydajne wykorzystanie danych i informacji przez analityków i menedżerów. „Hurtownia danych” to repozytorium danych historycznych, które jest organizowane przez podmiot w celu wsparcia decydentów w organizacji. Gdy dane są przechowywane w hurtowni danych lub magazynie, można uzyskać do nich dostęp.

Systemy powiązane (data mart, OLAPS, OLTP, analityka predykcyjna)

Mart danych jest prostą formą hurtowni danych, która koncentruje się na jednego przedmiotu (lub obszaru funkcjonalnego), stąd czerpią dane z ograniczonej liczby źródeł, takich jak sprzedaż, finanse czy marketing. Marty danych są często budowane i kontrolowane przez jeden dział w organizacji. Źródłami mogą być wewnętrzne systemy operacyjne, centralna hurtownia danych lub dane zewnętrzne. Denormalizacja jest normą w technikach modelowania danych w tym systemie. Biorąc pod uwagę, że zbiorcze bazy danych zazwyczaj obejmują tylko podzbiór danych zawartych w hurtowni danych, często są one łatwiejsze i szybsze do wdrożenia.

Różnica między hurtownią danych a data mart
Atrybut Hurtownia danych Data mart
Zakres danych w całym przedsiębiorstwie w całym dziale
Liczba obszarów tematycznych wiele pojedynczy
Jak trudne do zbudowania trudny łatwo
Ile czasu zajmuje budowa jeszcze mniej
Ilość pamięci większy ograniczony

Typy zbiorczych zbiorczych danych obejmują zależne , niezależne i hybrydowe zbiorcze zbiorcze dane.

Przetwarzanie analityczne online (OLAP) charakteryzuje się stosunkowo niskim wolumenem transakcji. Zapytania są często bardzo złożone i obejmują agregacje. W przypadku systemów OLAP czas odpowiedzi jest skuteczną miarą. Aplikacje OLAP są szeroko stosowane w technikach Data Mining . Bazy danych OLAP przechowują zagregowane, historyczne dane w wielowymiarowych schematach (zazwyczaj schematy gwiaździste ). Systemy OLAP zwykle mają opóźnienie danych wynoszące kilka godzin, w przeciwieństwie do hurtowni danych, gdzie oczekuje się, że opóźnienie będzie bliższe jednemu dniu. Podejście OLAP służy do analizy wielowymiarowych danych z wielu źródeł i perspektyw. Trzy podstawowe operacje w OLAP to Roll-up (Consolidation), Drill-down oraz Slicing & Dicing.

Przetwarzanie transakcji online (OLTP) charakteryzuje się dużą liczbą krótkich transakcji online (INSERT, UPDATE, DELETE). Systemy OLTP kładą nacisk na bardzo szybkie przetwarzanie zapytań i zachowanie integralności danych w środowiskach wielodostępowych. W przypadku systemów OLTP skuteczność mierzy się liczbą transakcji na sekundę. Bazy danych OLTP zawierają szczegółowe i aktualne dane. Schemat używany do przechowywania transakcyjnych baz danych to model encji (zwykle 3NF ). Normalizacja jest normą w technikach modelowania danych w tym systemie.

Analityka predykcyjna polega na znajdowaniu i określaniu ilościowym ukrytych wzorców w danych przy użyciu złożonych modeli matematycznych, które można wykorzystać do przewidywania przyszłych wyników. Analiza predykcyjna różni się od OLAP tym, że OLAP koncentruje się na analizie danych historycznych i ma charakter reaktywny, podczas gdy analiza predykcyjna koncentruje się na przyszłości. Systemy te są również wykorzystywane do zarządzania relacjami z klientami (CRM).

Historia

Koncepcja hurtowni danych sięga końca lat 80. XX wieku, kiedy badacze IBM Barry Devlin i Paul Murphy opracowali „hurtownię danych biznesowych”. Zasadniczo koncepcja hurtowni danych miała na celu zapewnienie modelu architektonicznego przepływu danych z systemów operacyjnych do środowisk wspierających podejmowanie decyzji . W koncepcji podjęto próbę rozwiązania różnych problemów związanych z tym przepływem, głównie związanych z nim wysokich kosztów. Wobec braku architektury hurtowni danych wymagana była ogromna nadmiarowość do obsługi wielu środowisk wspierających podejmowanie decyzji. W większych korporacjach typowe było niezależne działanie wielu środowisk wspomagania decyzji. Chociaż każde środowisko służyło różnym użytkownikom, często wymagały one wielu tych samych przechowywanych danych. Proces gromadzenia, czyszczenia i integrowania danych z różnych źródeł, zwykle z długoterminowo istniejących systemów operacyjnych (zwykle określanych jako systemy odziedziczone ), był zazwyczaj częściowo replikowany dla każdego środowiska. Co więcej, systemy operacyjne były często ponownie analizowane w miarę pojawiania się nowych wymagań dotyczących wspomagania decyzji. Często nowe wymagania wymagały gromadzenia, czyszczenia i integrowania nowych danych z „ data marts ”, które zostały dostosowane do łatwego dostępu dla użytkowników.

Dodatkowo, wraz z publikacją The IRM Imperative (Wiley & Sons, 1991) Jamesa M. Kerra, pomysł zarządzania wartością w dolarach w zasobach danych organizacji, a następnie zgłaszania tej wartości jako aktywa w bilansie stał się popularny. . W książce Kerr opisał sposób wypełniania baz danych obszarów tematycznych danymi pochodzącymi z systemów opartych na transakcjach w celu stworzenia obszaru przechowywania, w którym dane podsumowujące mogą być dalej wykorzystywane do informowania o podejmowaniu decyzji przez kierownictwo. Koncepcja ta służyła dalszemu myśleniu o tym, jak hurtownia danych może być rozwijana i zarządzana w praktyczny sposób w dowolnym przedsiębiorstwie.

Kluczowe zmiany we wczesnych latach hurtowni danych:

  • 1960 – General Mills i Dartmouth College we wspólnym projekcie badawczym opracowują terminy wymiary i fakty .
  • Lata 70. – ACNielsen i IRI dostarczają zbiorcze dane wymiarowe do sprzedaży detalicznej.
  • Lata 70. – Bill Inmon zaczyna definiować i omawiać pojęcie hurtowni danych.
  • 1975 – Sperry Univac wprowadza MAPPER (Maintain, Prepare and Produce Executive Reports), system zarządzania bazą danych i raportowania, który zawiera pierwszy na świecie 4GL . Jest to pierwsza platforma przeznaczona do budowy Centrów Informacyjnych (prekursor współczesnej technologii hurtowni danych).
  • 1983 – Teradata wprowadza komputer bazodanowy DBC/1012 zaprojektowany specjalnie do wspomagania decyzji.
  • 1984 – Metaphor Computer Systems , założona przez Davida Liddle'a i Dona Massaro, wydaje pakiet sprzętu/oprogramowania oraz GUI dla użytkowników biznesowych w celu stworzenia systemu zarządzania bazą danych i analizy.
  • 1985 - Sperry Corporation publikuje artykuł (Martyn Jones i Philip Newman) o centrach informacyjnych, w którym wprowadza termin hurtowni danych MAPPER w kontekście centrów informacyjnych.
  • 1988 – Barry Devlin i Paul Murphy publikują artykuł „Architektura dla systemu biznesowego i informacyjnego”, w którym wprowadzają termin „hurtownia danych biznesowych”.
  • 1990 – Red Brick Systems, założona przez Ralpha Kimballa , wprowadza Red Brick Warehouse, system zarządzania bazami danych przeznaczony specjalnie do hurtowni danych.
  • 1991 - James M. Kerr autorzy The IRM Imperative, który sugeruje, że zasoby danych mogą być zgłaszane jako aktywa w bilansie, co sprzyja komercyjnemu zainteresowaniu tworzeniem hurtowni danych.
  • 1991 – Prism Solutions, założona przez Billa Inmona , wprowadza Prism Warehouse Manager, oprogramowanie do tworzenia hurtowni danych.
  • 1992 – Bill Inmon publikuje książkę Building the Data Warehouse .
  • 1995 – Powstaje Data Warehousing Institute, organizacja nastawiona na zysk, która promuje hurtownie danych.
  • 1996 – Ralph Kimball publikuje książkę The Data Warehouse Toolkit .
  • 2000 – Dan Linstedt udostępnia w domenie publicznej model Data vault , stworzony w 1990 roku jako alternatywa dla firm Inmon i Kimball w celu zapewnienia długoterminowego przechowywania danych historycznych pochodzących z wielu systemów operacyjnych, z naciskiem na śledzenie, audyt i odporność na zmiany źródłowego modelu danych.
  • 2008 – Bill Inmon wraz z Derekiem Straussem i Genia Neushloss publikuje „DW 2.0: The Architecture for the Next Generation of Data Warehousing”, wyjaśniając swoje odgórne podejście do hurtowni danych i ukuł termin hurtowni danych 2.0.
  • 2012 – Bill Inmon opracowuje i udostępnia publicznie technologię znaną jako „ujednoznacznienie tekstu”. Ujednoznacznienie tekstu stosuje kontekst do nieprzetworzonego tekstu i ponownie formatuje nieprzetworzony tekst i kontekst do standardowego formatu bazy danych. Po przejściu nieprzetworzonego tekstu przez ujednoznacznienie tekstowe można łatwo i skutecznie uzyskać do niego dostęp i przeanalizować go za pomocą standardowej technologii analizy biznesowej. Ujednoznacznienie tekstu odbywa się poprzez wykonanie tekstowego ETL. Ujednoznacznienie tekstu jest przydatne wszędzie tam, gdzie znajduje się nieprzetworzony tekst, na przykład w dokumentach, Hadoop, e-mailach i tak dalej.

Przechowywanie informacji

Fakty

Fakt to wartość lub pomiar, który reprezentuje fakt dotyczący zarządzanego podmiotu lub systemu.

Uważa się, że fakty zgłoszone przez podmiot sprawozdawczy są na poziomie surowym; np. w systemie telefonii komórkowej, jeśli BTS ( bazowa stacja nadawczo-odbiorcza ) odbierze 1000 żądań alokacji kanału ruchu, przydzieli 820 i odrzuci pozostałe, zgłosi trzy fakty lub pomiary do systemu zarządzania:

  • tch_req_total = 1000
  • tch_req_success = 820
  • tch_req_fail = 180

Fakty na poziomie surowym są dalej agregowane na wyższych poziomach w różnych wymiarach, aby wydobyć z nich więcej informacji związanych z usługą lub biznesem. Są to tak zwane agregaty, podsumowania lub zagregowane fakty.

Na przykład, jeśli w mieście są trzy BTS, powyższe fakty można agregować z poziomu BTS na poziom miasta w wymiarze sieciowym. Na przykład:

  • tch_req_success_city = tch_req_success_bts1 + tch_req_success_bts2 + tch_req_success_bts3
  • avg_tch_req_success_city = (tch_req_success_bts1 + tch_req_success_bts2 + tch_req_success_bts3) / 3

Podejście wymiarowe a znormalizowane do przechowywania danych

Istnieją trzy lub więcej wiodących podejść do przechowywania danych w hurtowni danych – najważniejsze podejścia to podejście wymiarowe i podejście znormalizowane.

Podejście wymiarowe odnosi się do podejścia Ralpha Kimballa , w którym stwierdza się, że hurtownia danych powinna być modelowana przy użyciu modelu wymiarowego/ schematu gwiazdy . Podejście znormalizowane, zwane również modelem 3NF (Third Normal Form), odnosi się do podejścia Billa Inmona, w którym stwierdza się, że hurtownia danych powinna być modelowana przy użyciu modelu ER/modelu znormalizowanego.

Podejście wymiarowe

W podejściu wymiarowej , dane transakcji jest podzielona na „faktów”, które są generalnie liczbowe danych transakcji, i „ wymiarów ”, które to informacje odniesienia, który zapewnia kontekst faktów. Na przykład transakcję sprzedaży można podzielić na fakty, takie jak liczba zamówionych produktów i łączna cena zapłacona za produkty, oraz na wymiary, takie jak data zamówienia, nazwa klienta, numer produktu, wysyłka do zamówienia i faktura. lokalizacje oraz sprzedawca odpowiedzialny za odbiór zamówienia.

Kluczową zaletą podejścia wymiarowego jest to, że hurtownia danych jest łatwiejsza do zrozumienia i używania przez użytkownika. Ponadto pobieranie danych z hurtowni danych zwykle działa bardzo szybko. Struktury wymiarowe są łatwe do zrozumienia dla użytkowników biznesowych, ponieważ struktura jest podzielona na miary/fakty i kontekst/wymiary. Fakty są powiązane z procesami biznesowymi organizacji i systemem operacyjnym, podczas gdy otaczające je wymiary zawierają kontekst pomiaru (Kimball, Ralph 2008). Kolejną zaletą modelu wymiarowego jest to, że nie obejmuje on za każdym razem relacyjnej bazy danych. Dlatego ten rodzaj techniki modelowania jest bardzo przydatny w przypadku zapytań użytkowników końcowych w hurtowni danych.

Model faktów i wymiarów można również rozumieć jako kostkę danych . Tam, gdzie wymiary są współrzędnymi kategorialnymi w wielowymiarowym sześcianie, faktem jest wartość odpowiadająca współrzędnym.

Główne wady podejścia wymiarowego są następujące:

  1. Aby zachować integralność faktów i wymiarów, ładowanie hurtowni danych danymi z różnych systemów operacyjnych jest skomplikowane.
  2. Trudno jest zmodyfikować strukturę hurtowni danych, jeśli organizacja przyjmująca podejście wymiarowe zmienia sposób, w jaki prowadzi działalność.

Podejście znormalizowane

W znormalizowanym podejściu dane w hurtowni danych są przechowywane zgodnie z do pewnego stopnia regułami normalizacji bazy danych . Tabele są pogrupowane według obszarów tematycznych, które odzwierciedlają ogólne kategorie danych (np. dane o klientach, produktach, finansach itp.). Znormalizowana struktura dzieli dane na jednostki, które tworzą kilka tabel w relacyjnej bazie danych. W przypadku zastosowania w dużych przedsiębiorstwach rezultatem są dziesiątki tabel, które są połączone ze sobą siecią złączeń. Ponadto każda z utworzonych encji jest przekształcana w osobne tabele fizyczne podczas implementacji bazy danych (Kimball, Ralph 2008). Główną zaletą tego podejścia jest łatwość dodawania informacji do bazy danych. Niektóre wady tego podejścia polegają na tym, że ze względu na liczbę zaangażowanych tabel użytkownikom może być trudno połączyć dane z różnych źródeł w sensowne informacje i uzyskać dostęp do informacji bez dokładnego zrozumienia źródeł danych i struktury danych hurtowni danych.

Zarówno modele znormalizowane, jak i wymiarowe mogą być reprezentowane na diagramach relacji encji, ponieważ oba zawierają połączone tabele relacyjne. Różnica między tymi dwoma modelami to stopień normalizacji (znany również jako Formy Normalne ). Te podejścia nie wykluczają się wzajemnie i istnieją inne podejścia. Podejścia wymiarowe mogą obejmować normalizację danych do pewnego stopnia (Kimball, Ralph 2008).

W zinformatyzowanym Biznesu , Robert Hillard proponuje podejście do porównywania dwóch podejść opartych na potrzebach informacyjnych problemu biznesowego. Technika ta pokazuje, że znormalizowane modele przechowują znacznie więcej informacji niż ich odpowiedniki wymiarowe (nawet jeśli w obu modelach używane są te same pola), ale ta dodatkowa informacja odbywa się kosztem użyteczności. Technika ta mierzy ilość informacji pod względem entropii informacji i użyteczności pod względem miary transformacji danych Small Worlds.

Metody projektowania

Projekt od dołu

W oddolnego podejścia, marzec dane są najpierw stworzona w celu zapewnienia możliwości raportowania i analityczne dla specyficznych procesów biznesowych . Te zbiorcze bazy danych można następnie zintegrować w celu stworzenia kompleksowej hurtowni danych. Architektura magistrali hurtowni danych jest przede wszystkim implementacją „magistrali”, zbioru zgodnych wymiarów i zgodnych faktów , które są wymiarami współdzielonymi (w określony sposób) między faktami w co najmniej dwóch bazach danych.

Odgórny projekt

Odgórne podejście jest zaprojektowane przy użyciu znormalizowanego korporacyjnego modelu danych . W hurtowni danych przechowywane są dane „atomowe” , czyli dane na najwyższym poziomie szczegółowości. Z hurtowni danych tworzone są wielowymiarowe bazy danych zawierające dane potrzebne do konkretnych procesów biznesowych lub określonych działów.

Hybrydowy projekt

Hurtownie danych (DW) często przypominają architekturę koncentratora i szprych . Starsze systemy zasilające hurtownię często obejmują zarządzanie relacjami z klientami i planowanie zasobów przedsiębiorstwa , generując duże ilości danych. Aby skonsolidować te różne modele danych i ułatwić proces wczytywania przekształcania wyodrębniania , hurtownie danych często wykorzystują operacyjne magazyny danych , z których informacje są analizowane do rzeczywistego DW. Aby zmniejszyć nadmiarowość danych, większe systemy często przechowują dane w znormalizowany sposób. Bazy danych dla określonych raportów mogą być następnie budowane na bazie hurtowni danych.

Hybrydowa baza danych DW jest przechowywana w trzeciej normalnej formie, aby wyeliminować nadmiarowość danych . Jednak zwykła relacyjna baza danych nie jest wydajna w przypadku raportów analizy biznesowej, w których przeważa modelowanie wymiarowe. Małe hurtownie danych mogą kupować dane ze skonsolidowanej hurtowni i używać przefiltrowanych, konkretnych danych dla wymaganych tabel faktów i wymiarów. DW zapewnia jedno źródło informacji, z którego mogą odczytywać bazy danych, zapewniając szeroki zakres informacji biznesowych. Architektura hybrydowa umożliwia zastąpienie DW repozytorium zarządzania danymi głównymi, w którym mogą znajdować się informacje operacyjne (nie statyczne).

Do modelowania przechowalni dane składniki śledzić piasty i szprychy architektury. Ten styl modelowania jest projektem hybrydowym, składającym się z najlepszych praktyk zarówno z trzeciej formy normalnej, jak i schematu gwiazdy . Model przechowalni danych nie jest prawdziwą trzecią postacią normalną i łamie niektóre z jego zasad, ale jest architekturą odgórną z projektem oddolnym. Model skarbca danych ma być wyłącznie hurtownią danych. Nie jest przystosowany do tego, aby był dostępny dla użytkownika końcowego, co po zbudowaniu nadal wymaga korzystania z bazy danych lub obszaru wydania opartego na schemacie gwiazdy do celów biznesowych.

Charakterystyka hurtowni danych

Istnieją podstawowe funkcje definiujące dane w hurtowni danych, które obejmują orientację podmiotową, integrację danych, zmienne w czasie, dane nieulotne i granulację danych.

Zorientowany na przedmiot

W przeciwieństwie do systemów operacyjnych dane w hurtowni danych krążą wokół podmiotów przedsiębiorstwa. Orientacja tematyczna nie jest normalizacją bazy danych . Orientacja na przedmiot może być naprawdę przydatna przy podejmowaniu decyzji. Gromadzenie wymaganych obiektów nazywamy zorientowaniem przedmiotowym.

Zintegrowany

Dane znalezione w hurtowni danych są integrowane. Ponieważ pochodzi z kilku systemów operacyjnych, wszystkie niespójności muszą zostać usunięte. Spójności obejmują konwencje nazewnictwa, pomiary zmiennych, struktury kodowania, fizyczne atrybuty danych i tak dalej.

Wariant czasowy

Podczas gdy systemy operacyjne odzwierciedlają bieżące wartości, ponieważ wspierają codzienne operacje, dane z hurtowni danych reprezentują długi horyzont czasowy (do 10 lat), co oznacza, że ​​przechowują głównie dane historyczne. Jest przeznaczony głównie do eksploracji danych i prognozowania. (Np. jeśli użytkownik szuka wzorca zakupowego określonego klienta, użytkownik musi przejrzeć dane dotyczące bieżących i przeszłych zakupów).

Nieulotne

Dane w hurtowni danych są tylko do odczytu, co oznacza, że ​​nie można ich aktualizować, tworzyć ani usuwać (chyba że istnieje do tego obowiązek prawny lub ustawowy).

Opcje hurtowni danych

Zbiór

W procesie hurtowni danych dane mogą być agregowane w zbiorczych bazach danych na różnych poziomach abstrakcji. Użytkownik może zacząć patrzeć na łączną liczbę jednostek sprzedaży produktu w całym regionie. Następnie użytkownik przegląda stany w tym regionie. Wreszcie mogą zbadać poszczególne sklepy w określonym stanie. Dlatego zazwyczaj analiza zaczyna się na wyższym poziomie i przechodzi do niższych poziomów szczegółowości.

Architektura hurtowni danych

Istnieje wiele różnych metod stosowanych do budowy/organizacji hurtowni danych określonych przez organizację. Wykorzystywany sprzęt, stworzone oprogramowanie i zasoby danych specjalnie wymagane do prawidłowego funkcjonowania hurtowni danych to główne elementy architektury hurtowni danych. Wszystkie hurtownie danych mają wiele faz, w których wymagania organizacji są modyfikowane i dopasowywane.

Kontra system operacyjny

Systemy operacyjne są zoptymalizowane pod kątem zachowania integralności danych i szybkości rejestrowania transakcji biznesowych poprzez zastosowanie normalizacji baz danych oraz modelu podmiotowo-relacyjnego . Projektanci systemów operacyjnych ogólnie śledzić 12 zasad Codd jest o normalizacji bazy danych w celu zapewnienia integralności danych. W pełni znormalizowane projekty baz danych (czyli spełniające wszystkie reguły Codd) często powodują, że informacje z transakcji biznesowych są przechowywane w dziesiątkach lub setkach tabel. Relacyjne bazy danych skutecznie zarządzają relacjami między tymi tabelami. Bazy danych charakteryzują się bardzo dużą wydajnością wstawiania/aktualizowania, ponieważ za każdym razem, gdy przetwarzana jest transakcja, ma to wpływ tylko na niewielką ilość danych w tych tabelach. Aby poprawić wydajność, starsze dane są zwykle okresowo usuwane z systemów operacyjnych.

Hurtownie danych są zoptymalizowane pod kątem wzorców dostępu analitycznego. Wzorce dostępu analitycznego zazwyczaj obejmują wybieranie określonych pól i rzadko, jeśli w ogóle select *, co powoduje wybranie wszystkich pól/kolumn, co jest bardziej powszechne w operacyjnych bazach danych. Ze względu na te różnice we wzorcach dostępu operacyjne bazy danych (w skrócie OLTP) korzystają z DBMS zorientowanego na wiersze, podczas gdy bazy danych analitycznych (w skrócie OLAP) korzystają z DBMS zorientowanego na kolumny . W przeciwieństwie do systemów operacyjnych, które przechowują migawkę firmy, hurtownie danych zazwyczaj przechowują nieskończoną historię, która jest implementowana za pomocą procesów ETL, które okresowo migrują dane z systemów operacyjnych do hurtowni danych.

Ewolucja w użytkowaniu organizacji

Terminy te odnoszą się do poziomu zaawansowania hurtowni danych:

Operacyjna hurtownia danych offline
Hurtownie danych na tym etapie ewolucji są aktualizowane w regularnym cyklu czasowym (zwykle codziennie, co tydzień lub co miesiąc) z systemów operacyjnych, a dane są przechowywane w zintegrowanej bazie danych zorientowanej na raportowanie.
Hurtownia danych offline
Hurtownie danych na tym etapie są na bieżąco aktualizowane z danych znajdujących się w systemach operacyjnych, a dane z hurtowni są przechowywane w strukturze danych mającej na celu ułatwienie raportowania.
Terminowa hurtownia danych
Zintegrowana hurtownia danych online reprezentuje w czasie rzeczywistym dane etapowe hurtowni danych w hurtowni są aktualizowane dla każdej transakcji wykonanej na danych źródłowych
Zintegrowana hurtownia danych
Te hurtownie danych gromadzą dane z różnych obszarów działalności, dzięki czemu użytkownicy mogą wyszukiwać potrzebne informacje w innych systemach.

Bibliografia

Dalsza lektura