HPCC - HPCC

HPCC
HPCCSystems.png
Deweloper(zy) Systemy HPCC, rozwiązania ryzyka LexisNexis
Pierwsze wydanie 15-06-2011
Wersja stabilna
7.4.18-1 / 13-09-2019
Magazyn https://github.com/hpcc-systems
Napisane w C++ , ECL
System operacyjny Linux
Licencja Licencja Apache 2.0
Strona internetowa hpccsystems .com

HPCC (High-Performance Computing Cluster), znany również jako DAS (Data Analytics Supercomputer), to platforma systemów obliczeniowych typu open source, intensywnie przetwarzająca dane , opracowana przez firmę LexisNexis Risk Solutions . Platforma HPCC wykorzystuje architekturę oprogramowania zaimplementowaną w standardowych klastrach obliczeniowych, aby zapewnić wysokowydajne przetwarzanie równoległe danych dla aplikacji wykorzystujących duże zbiory danych . Platforma HPCC obejmuje konfiguracje systemu obsługujące zarówno równoległe wsadowe przetwarzanie danych (Thor), jak i wysokowydajne aplikacje zapytań online przy użyciu indeksowanych plików danych (Roxie). Platforma HPCC zawiera również zorientowany na dane deklaratywny język programowania do równoległego przetwarzania danych o nazwie ECL .

Publiczne wydanie HPCC zostało ogłoszone w 2011 roku, po dziesięciu latach wewnętrznego rozwoju (zgodnie z LexisNexis). Jest alternatywą dla Hadoop i innych platform Big Data .

Architektura systemu

Rysunek 2. Klaster przetwarzania Thor

Architektura systemu HPCC obejmuje dwa odrębne środowiska przetwarzania klastrowego Thor i Roxie , z których każde można niezależnie zoptymalizować pod kątem równoległego przetwarzania danych.

Pierwsza z tych platform nazywa się Thor , rafinerią danych, której ogólnym celem jest ogólne przetwarzanie ogromnych ilości surowych danych dowolnego typu w dowolnym celu, ale zwykle używane do czyszczenia i higieny danych , przetwarzanie ETL ( wyodrębnianie, przekształcanie, ładowanie ) surowe dane, łączenie rekordów i rozwiązywanie jednostek, złożona analiza ad-hoc na dużą skalę oraz tworzenie danych z kluczami i indeksów w celu obsługi wysokowydajnych zapytań strukturalnych i aplikacji hurtowni danych. Nazwa rafinerii danych Thor jest odniesieniem do mitycznego nordyckiego boga piorunów z dużym młotem symbolizującym zmiażdżenie dużych ilości surowych danych w przydatne informacje. Klaster Thor jest podobny pod względem funkcji, środowiska wykonawczego, systemu plików i możliwości do platform Google i Hadoop MapReduce .

Rysunek 2 przedstawia reprezentację fizycznego klastra przetwarzania Thor, który działa jako silnik wykonywania zadań wsadowych dla skalowalnych aplikacji obliczeniowych intensywnie korzystających z danych. Oprócz węzłów nadrzędnych i podrzędnych Thor, do wdrożenia pełnego środowiska przetwarzania HPCC potrzebne są dodatkowe elementy pomocnicze i wspólne.

Rysunek 3. Klaster przetwarzania Roxie

Druga z równoległych platform przetwarzania danych nazywa się Roxie i działa jako silnik szybkiego dostarczania danych . Platforma ta została zaprojektowana jako wysokowydajna platforma zapytań strukturalnych i analizy online lub hurtownia danych, spełniająca wymagania aplikacji online w zakresie równoległego dostępu do danych za pośrednictwem interfejsów usług sieci Web obsługujących tysiące jednoczesnych zapytań i użytkowników z czasem odpowiedzi poniżej sekundy. Roxie wykorzystuje rozproszony, indeksowany system plików, aby zapewnić równoległe przetwarzanie zapytań przy użyciu zoptymalizowanego środowiska wykonawczego i systemu plików do wysokowydajnego przetwarzania online. Klaster Roxie jest podobny pod względem funkcji i możliwości do ElasticSearch i Hadoop z dodanymi funkcjami HBase i Hive oraz zapewnia przewidywalne opóźnienia zapytań w czasie zbliżonym do rzeczywistego. Zarówno klastry Thor, jak i Roxie wykorzystują język programowania ECL do wdrażania aplikacji, zwiększając ciągłość i produktywność programistów.

Rysunek 3 przedstawia reprezentację fizycznego klastra przetwarzania Roxie, który działa jako silnik wykonywania zapytań online dla wysokowydajnych zapytań i aplikacji hurtowni danych. Klaster Roxie obejmuje wiele węzłów z procesami serwera i procesu roboczego do przetwarzania zapytań; dodatkowy komponent pomocniczy zwany serwerem ESP, który zapewnia interfejsy dla zewnętrznego dostępu klienta do klastra; oraz dodatkowe wspólne komponenty, które są współdzielone z klastrem Thor w środowisku HPCC. Chociaż klaster przetwarzania Thor może być zaimplementowany i używany bez klastra Roxie, środowisko HPCC, które obejmuje klaster Roxie, powinno również zawierać klaster Thor. Klaster Thor służy do tworzenia rozproszonych plików indeksowych używanych przez klaster Roxie oraz do tworzenia zapytań online, które zostaną wdrożone wraz z plikami indeksowymi w klastrze Roxie.

Rysunek 4. Architektura oprogramowania HPCC

Architektura oprogramowania

Architektura oprogramowania HPCC obejmuje klastry Thor i Roxie, a także typowe komponenty oprogramowania pośredniego , zewnętrzną warstwę komunikacyjną, interfejsy klienckie, które zapewniają zarówno usługi dla użytkownika końcowego, jak i narzędzia do zarządzania systemem, oraz komponenty pomocnicze wspierające monitorowanie oraz ułatwiające ładowanie i przechowywanie systemu plików dane ze źródeł zewnętrznych. Zazwyczaj środowisko HPCC zawiera tylko klastry Thor lub zarówno klastry Thor, jak i Roxie, chociaż Roxie jest czasami używane do tworzenia własnych indeksów. Ogólną architekturę oprogramowania HPCC pokazano na rysunku 4.

Systemy HPCC

HPCC Systems (High Performance Computing Cluster) jest częścią LexisNexis Risk Solutions i został utworzony w celu promowania i sprzedaży oprogramowania HPCC. W czerwcu 2011 roku ogłosił oferowanie oprogramowania w ramach modelu podwójnej licencji open source.

HPCC Systems oferuje zarówno wersję Community Edition, jak i Enterprise Edition. Community Edition można pobrać bezpłatnie, zawiera kod źródłowy i jest wydana na licencji Apache License 2.0. Wersja Enterprise jest dostępna na płatnej licencji komercyjnej i obejmuje szkolenia, wsparcie, odszkodowanie i dodatkowe moduły. W listopadzie 2011 r. HPCC Systems ogłosiło dostępność swojego klastra Thor Data Refinery Cluster w Amazon Web Services . W styczniu 2012 r. HPCC Systems ogłosiło algorytmy rozproszonego uczenia maszynowego .

Zobacz też

Bibliografia

Zewnętrzne linki