Wiercenie danych - Data drilling

Drążenie danych (także drążenie w dół ) odnosi się do różnych operacji i przekształceń danych tabelarycznych, relacyjnych i wielowymiarowych. Termin ten jest szeroko stosowany w różnych kontekstach, ale jest głównie kojarzony ze specjalistycznym oprogramowaniem zaprojektowanym specjalnie do analizy danych .

Typowe operacje wiercenia danych

Istnieją pewne operacje, które są wspólne dla aplikacji, które umożliwiają drążenie danych. Wśród nich są:

Operacje zapytań :

  • zapytanie tabelaryczne
  • zapytanie przestawne

Zapytanie tabelaryczne

Tabelaryczne operacje zapytań składają się ze standardowych operacji na tabelach danych.

Wśród tych operacji są:

  • Szukaj
  • sortować
  • filtr (według wartości)
  • filtr (według rozszerzonej funkcji lub warunku)
  • przekształcić (np. poprzez dodanie lub usunięcie kolumn)

Rozważmy następujący przykład:

Tabela Freda i Wilmy (Rys. 001) :

   gender  , fname    , lname        , home
   male    , fred     , chopin       , Poland
   male    , fred     , flintstone   , bedrock
   male    , fred     , durst        , usa
   female  , wilma    , flintstone   , bedrock
   female  , wilma    , rudolph      , usa
   female  , wilma    , webb         , usa
   male    , fred     , johnson      , usa

Powyższy przykład jest przykładem prostej tabeli plików płaskich sformatowanej jako wartości rozdzielane przecinkami. Tabela zawiera imię, nazwisko, płeć i kraj pochodzenia różnych osób o imieniu fred lub wilma. Chociaż przykład jest sformatowany w ten sposób, należy podkreślić, że operacje zapytań tabelarycznych (a także wszystkie operacje drążenia danych) można zastosować do dowolnego możliwego typu danych , niezależnie od formatowania podstawowego. Jedynym wymaganiem jest to, aby dane były odczytywalne przez używaną aplikację.

Zapytanie przestawne

Zapytanie przestawne umożliwia wiele reprezentacji danych według różnych wymiarów. Ten typ zapytania jest podobny do zapytania tabelarycznego, z tą różnicą, że umożliwia również reprezentowanie danych w formacie podsumowania, zgodnie z elastyczną hierarchią wybraną przez użytkownika . Ta klasa operacji drążenia danych jest formalnie (i luźno) znana pod różnymi nazwami, w tym kwerendą krzyżową , tabelą przestawną , pilotem danych , hierarchią selektywną , intertwingularity i innymi.

Aby zilustrować podstawy operacji zapytań przestawnych, rozważ tabelę Freda i Wilmy (Rys. 001) . Szybkie skanowanie danych ujawnia, że ​​tabela zawiera zbędne informacje. Ta nadmiarowość może zostać skonsolidowana za pomocą konspektu lub struktury drzewa lub w inny sposób. Co więcej, po skonsolidowaniu dane mogą mieć wiele różnych alternatywnych układów.

Korzystając z prostego konspektu tekstu jako danych wyjściowych, możliwe są następujące układy alternatywne w przypadku zapytania przestawnego:

Podsumuj według płci (Ryc. 001) :

   female
       flintstone, wilma
       rudolph, wilma
       webb, wilma
   male
       chopin, fred
       flintstone, fred
       durst, fred
       johnson, fred
   
   (Dimensions = gender; Tabular fields = lname, fname;)

Podsumuj według domu, lname (Ryc. 001) :

   bedrock
       flintstone
           fred
           wilma
   Poland
       chopin
           fred
   usa
       ...
   
   (Dimensions = home, lname; Tabular fields = fname;)

Używa

Operacje kwerend przestawnych są przydatne do podsumowywania korpusu danych na wiele sposobów, ilustrując w ten sposób różne reprezentacje tych samych podstawowych informacji. Chociaż ten rodzaj operacji pojawia się w arkuszach kalkulacyjnych i oprogramowaniu do baz danych dla komputerów stacjonarnych , jego elastyczność jest prawdopodobnie niedostatecznie wykorzystana. Istnieje wiele aplikacji, które pozwalają jedynie na „ustaloną” hierarchię reprezentacji danych, co stanowi istotne ograniczenie.

Drillup

Drillup jest przeciwieństwem drążenia. Na przykład, jeśli przeprowadzisz drążenie w dół, aby zobaczyć przychód z jednego produktu, możesz chcieć przejść do szczegółów, aby zobaczyć przychody ze wszystkich produktów.

Bibliografia

  1. ^ „Drążenie i drążenie” . IBM . Źródło 2020-05-05 .