Odzyskiwanie po awarii — Disaster recovery

Odzyskiwanie po awarii obejmuje zestaw zasad, narzędzi i procedur umożliwiających odzyskanie lub kontynuację kluczowej infrastruktury technologicznej i systemów po katastrofie naturalnej lub spowodowanej przez człowieka . Odzyskiwanie po awarii koncentruje się na systemach informatycznych lub technologicznych wspierających krytyczne funkcje biznesowe, w przeciwieństwie do ciągłości biznesowej , która polega na zachowaniu wszystkich istotnych aspektów funkcjonowania firmy pomimo istotnych zdarzeń zakłócających. Odzyskiwanie po awarii można zatem uznać za podzbiór ciągłości biznesowej. Odzyskiwanie po awarii zakłada, że ​​głównej lokacji nie można odzyskać (przynajmniej przez pewien czas) i reprezentuje proces przywracania danych i usług do wtórnej przetrwałej lokacji, co jest przeciwieństwem procesu przywracania do pierwotnego miejsca

Ciągłość usług IT

Ciągłość usług IT (ITSC) jest podzbiorem planowania ciągłości biznesowej (BCP) i obejmuje planowanie odzyskiwania po awarii IT oraz szersze planowanie odporności IT. Obejmuje również te elementy infrastruktury i usług IT , które dotyczą komunikacji, takie jak telefonia (głosowa) i transmisja danych.

Plan ITSC odzwierciedla Cel Punktu Odzyskiwania (RPO - ostatnie transakcje) i Cel Czasu Odzyskiwania (RTO - przedziały czasowe).

Zasady tworzenia kopii zapasowych

Planowanie obejmuje organizowanie lokalizacji kopii zapasowych, zarówno gorących, ciepłych, zimnych, jak i rezerwowych, ze sprzętem niezbędnym do zapewnienia ciągłości.

W 2008 r. British Standards Institution wprowadził specjalny standard związany i wspierający Standard Ciągłości Biznesu BS 25999 zatytułowany BS25777 specjalnie w celu dostosowania ciągłości działania komputerów do ciągłości działania. Zostało to wycofane po opublikowaniu w marcu 2011 r. normy ISO/IEC 27031 — Techniki bezpieczeństwa — Wytyczne dotyczące gotowości technologii informacyjnych i komunikacyjnych do zapewnienia ciągłości działania.

ITIL zdefiniował niektóre z tych terminów.

Cel czasu odzyskiwania

Recovery Time Objective ( RTO ) jest ukierunkowana okres czasu i poziomu usług w ramach którego proces biznesowy musi być przywrócona po katastrofie (lub zakłóceń) w celu uniknięcia niedopuszczalnych konsekwencji związanych z przerwą w ciągłości biznesowej .

Schematyczne przedstawienie terminów RPO i RTO. W tym przykładzie uzgodnione wartości RPO i RTO nie są spełnione.

Zgodnie z przyjętą metodologią planowania ciągłości działania , RTO jest ustalane podczas analizy wpływu biznesowego (BIA) przez właściciela procesu, w tym określanie ram czasowych opcji dla alternatywnych lub ręcznych obejść.

W znacznej części literatury na ten temat mówi się o RTO jako o uzupełnieniu celu punktu odzyskiwania (RPO), z dwoma miernikami opisującymi granice dopuszczalnej lub „tolerowanej” wydajności ITSC pod względem straconego czasu (RTO) z normalne funkcjonowanie procesu biznesowego oraz odpowiednio w zakresie utraty danych lub braku kopii zapasowej w tym okresie (RPO).

Rzeczywisty czas odzyskiwania

W przeglądzie magazynu Forbes zauważono, że jest to rzeczywisty czas odzyskiwania (RTA), który jest „krytycznym miernikiem ciągłości biznesowej i odzyskiwania po awarii”.

RTA jest ustalana podczas ćwiczeń lub rzeczywistych wydarzeń. Grupa ciągłości biznesowej przeprowadza próby (lub aktualności) i wprowadza niezbędne poprawki.

Cel punktu odzyskiwania

Odzyskiwanie Punkt Objective (RPO) jest zdefiniowana przez planowania ciągłości działania . Jest to maksymalny docelowy okres, w którym dane (transakcje) mogą zostać utracone z usługi IT w wyniku poważnego incydentu.

Jeśli RPO jest mierzone w minutach (lub nawet kilku godzinach), to w praktyce kopie lustrzane poza siedzibą muszą być stale utrzymywane ; codzienna kopia zapasowa na taśmie poza siedzibą firmy nie wystarczy.

Związek z docelowym czasem regeneracji

Odzyskiwanie, które nie jest natychmiastowe, przywraca dane/transakcje przez pewien okres czasu bez ponoszenia znacznego ryzyka lub znacznych strat.

RPO mierzy maksymalny okres czasu, w którym ostatnie dane mogły zostać trwale utracone w przypadku poważnego incydentu i nie jest bezpośrednią miarą wielkości takiej utraty. Na przykład, jeśli plan BC to „przywróć do ostatniej dostępnej kopii zapasowej”, wtedy RPO jest maksymalnym odstępem między taką kopią zapasową, która została bezpiecznie przechowana poza siedzibą.

Analiza wpływu na biznes służy do określenia RPO dla każdej usługi, a RPO nie jest określane przez istniejący system tworzenia kopii zapasowych. Gdy wymagany jest jakikolwiek poziom przygotowania danych poza siedzibą, okres, w którym dane mogą zostać utracone, często rozpoczyna się w momencie rozpoczęcia pracy nad przygotowaniem kopii zapasowych, a nie w czasie, gdy kopie zapasowe są zabierane poza siedzibą.

Punkty synchronizacji danych

Chociaż punkt synchronizacji danych jest punktem w czasie, należy uwzględnić czas wykonania fizycznej kopii zapasowej. Jednym ze stosowanych podejść jest zatrzymanie przetwarzania kolejki aktualizacji podczas tworzenia kopii z dysku na dysk. Kopia zapasowa odzwierciedla wcześniejszy czas tej operacji kopiowania, a nie kiedy dane są kopiowane na taśmę lub przesyłane w inne miejsce.

Jak wartości RTO i RPO wpływają na projekt systemu komputerowego?

RTO i RPO muszą być zrównoważone, biorąc pod uwagę ryzyko biznesowe, wraz ze wszystkimi innymi głównymi kryteriami projektowania systemu.

RPO jest powiązany z czasem wysyłania kopii zapasowych poza siedzibą firmy. Przenoszenie za pomocą synchronicznych kopii do zewnętrznego serwera lustrzanego pozwala na większość nieprzewidzianych trudności. Użycie fizycznego transportu taśm (lub innych przenośnych nośników) w wygodny sposób pokrywa niektóre potrzeby w zakresie tworzenia kopii zapasowych przy stosunkowo niskich kosztach. Odzyskiwanie można przeprowadzić w określonym miejscu. Wspólna przestrzeń i sprzęt poza siedzibą firmy uzupełniają potrzebny pakiet.

W przypadku dużych ilości danych transakcyjnych o dużej wartości sprzęt można podzielić na dwie lub więcej lokalizacji; podział na obszary geograficzne zwiększa odporność.

Historia

Planowanie odzyskiwania po awarii i technologii informacyjnej (IT) rozwinęło się w połowie lat 70., gdy menedżerowie centrów komputerowych zaczęli dostrzegać zależność swoich organizacji od ich systemów komputerowych.

W tamtym czasie większość systemów była mainframe'ami zorientowanymi wsadowo . Inny komputer mainframe znajdujący się poza siedzibą firmy może zostać załadowany z taśm kopii zapasowych w oczekiwaniu na odzyskanie lokalizacji głównej; przestój był stosunkowo mniej krytyczny.

Branża odzyskiwania po awarii rozwinęła się, aby zapewnić zapasowe centra komputerowe. Jeden z najwcześniejszych takich ośrodków znajdował się na Sri Lance (Sungard Availability Services, 1978).

W latach osiemdziesiątych i dziewięćdziesiątych XX wieku, wraz z rozwojem współdzielenia czasu wewnątrz korporacji, wprowadzania danych online i przetwarzania w czasie rzeczywistym , potrzebna była większa dostępność systemów informatycznych.

Agencje regulacyjne zaangażowały się jeszcze przed gwałtownym rozwojem Internetu w latach 2000.; często narzucano cele 2, 3, 4 lub 5 dziewiątek (99,999%) i poszukiwano rozwiązań o wysokiej dostępności dla obiektów hot-site .

Ciągłość usług IT jest niezbędna dla wielu organizacji we wdrażaniu Zarządzania Ciągłością Działania (BCM) i Zarządzania Bezpieczeństwem Informacji (ICM) oraz jako element zarządzania bezpieczeństwem informacji wdrożeniowych i operacyjnych oraz zarządzania ciągłością działania zgodnie z ISO/IEC 27001 i ISO 22301 odpowiednio.

Rozwój chmury obliczeniowej od 2010 r. kontynuuje ten trend: obecnie ma to jeszcze mniejsze znaczenie, gdzie usługi obliczeniowe są fizycznie obsługiwane, o ile sama sieć jest wystarczająco niezawodna (osobna kwestia i mniej niepokojąca, ponieważ nowoczesne sieci są wysoce odporne przez projekt). „Recovery as a Service” (RaaS) to jedna z funkcji bezpieczeństwa lub korzyści przetwarzania w chmurze promowanych przez Cloud Security Alliance.

Klasyfikacja katastrof

Katastrofy mogą być wynikiem trzech szerokich kategorii zagrożeń i zagrożeń. Pierwsza kategoria to zagrożenia naturalne, które obejmują działania natury, takie jak powodzie, huragany, tornada, trzęsienia ziemi i epidemie. Druga kategoria to zagrożenia technologiczne, które obejmują wypadki lub awarie systemów i konstrukcji, takie jak wybuchy rurociągów, wypadki transportowe, przerwy w dostawie mediów, awarie tam i przypadkowe uwolnienia materiałów niebezpiecznych. Trzecia kategoria to zagrożenia spowodowane przez człowieka, które obejmują działania celowe, takie jak aktywne ataki napastników, ataki chemiczne lub biologiczne, cyberataki na dane lub infrastrukturę oraz sabotaż. Środki w zakresie gotowości na wszystkie kategorie i rodzaje katastrof można podzielić na pięć obszarów misji: zapobieganie, ochrona, łagodzenie, reagowanie i usuwanie skutków.

Znaczenie planowania odzyskiwania po awarii

Najnowsze badania potwierdzają pogląd, że wdrożenie bardziej holistycznego podejścia do planowania przed katastrofą jest bardziej opłacalne na dłuższą metę. Każdy 1 dolar wydany na łagodzenie zagrożeń (np. plan odzyskiwania po awarii ) pozwala zaoszczędzić 4 dolary na kosztach reagowania i odzyskiwania.

Statystyki odzyskiwania po awarii w 2015 r. sugerują, że przestój trwający godzinę może kosztować

  • małe firmy nawet do 8000 USD,
  • średniej wielkości organizacje 74 000 USD oraz
  • duże przedsiębiorstwa 700 000 dolarów.

Ponieważ systemy informatyczne stają się coraz bardziej krytyczne dla sprawnego działania firmy, a zapewne i całej gospodarki, wzrosło znaczenie zapewnienia nieprzerwanego działania tych systemów i ich szybkiego przywracania. Na przykład w przypadku firm, które utraciły znaczną część danych biznesowych, 43% nigdy nie otworzyło ponownie, a 29% zamknęło działalność w ciągu dwóch lat. W rezultacie przygotowania do kontynuacji lub odzyskiwania systemów należy traktować bardzo poważnie. Wiąże się to ze znaczną inwestycją czasu i pieniędzy w celu zapewnienia minimalnych strat w przypadku zdarzenia zakłócającego.

Środki kontrolne

Środki kontrolne to kroki lub mechanizmy, które mogą zmniejszyć lub wyeliminować różne zagrożenia dla organizacji. W planie odzyskiwania po awarii (DRP) można uwzględnić różne rodzaje środków.

Planowanie odzyskiwania po awarii jest podzbiorem większego procesu zwanego planowaniem ciągłości biznesowej i obejmuje planowanie ponownego uruchomienia aplikacji, danych, sprzętu, komunikacji elektronicznej (takiej jak sieci) i innej infrastruktury IT. Plan ciągłości działania (BCP) obejmuje planowanie aspektów niezwiązanych z IT, takich jak kluczowy personel, obiekty, komunikacja kryzysowa i ochrona reputacji, i powinien odnosić się do planu odzyskiwania po awarii (DRP) w zakresie odzyskiwania/ciągłości infrastruktury związanej z IT.

Środki kontroli odzyskiwania po awarii IT można podzielić na następujące trzy typy:

  1. Środki zapobiegawcze — kontrole mające na celu zapobieganie wystąpieniu zdarzenia.
  2. Środki detektywistyczne — kontrole mające na celu wykrycie lub wykrycie niepożądanych zdarzeń.
  3. Środki naprawcze – Kontrole mające na celu naprawę lub przywrócenie systemu po katastrofie lub zdarzeniu.

Dobre środki planu odzyskiwania po awarii nakazują, aby te trzy rodzaje kontroli były dokumentowane i regularnie wykonywane przy użyciu tak zwanych „testów DR”.

Strategie

Przed wybraniem strategii odzyskiwania po awarii, planista odzyskiwania po awarii najpierw odnosi się do planu ciągłości biznesowej swojej organizacji, który powinien wskazywać kluczowe metryki celu punktu odzyskiwania i celu czasu odzyskiwania. Metryki procesów biznesowych są następnie mapowane na ich systemy i infrastrukturę.

Niewłaściwe zaplanowanie może przedłużyć skutki katastrofy. Po zmapowaniu metryk organizacja dokonuje przeglądu budżetu IT; Wskaźniki RTO i RPO muszą pasować do dostępnego budżetu. Analiza kosztów i korzyści często dyktuje, jakie środki odzyskiwania po awarii są wdrażane.

Dodanie kopii zapasowej w chmurze do zalet archiwizacji na taśmach lokalnych i zewnętrznych, napisał New York Times , „dodaje warstwę ochrony danych”.

Wspólne strategie ochrony danych obejmują:

  • kopie zapasowe tworzone na taśmie i wysyłane poza siedzibę w regularnych odstępach czasu
  • kopie zapasowe tworzone na dysku w siedzibie firmy i automatycznie kopiowane na dysk zewnętrzny lub tworzone bezpośrednio na dysk zewnętrzny
  • replikacja danych do lokalizacji zewnętrznej, która eliminuje konieczność odtwarzania danych (tylko systemy muszą zostać odtworzone lub zsynchronizowane), często z wykorzystaniem technologii sieci pamięci masowej (SAN)
  • Rozwiązania chmury prywatnej, które replikują dane zarządzania (maszyny wirtualne, szablony i dyski) do domen przechowywania, które są częścią konfiguracji chmury prywatnej. Te dane zarządzania są skonfigurowane jako reprezentacja XML o nazwie OVF (Open Virtualization Format) i mogą zostać przywrócone po wystąpieniu awarii.
  • Rozwiązania chmury hybrydowej, które replikują zarówno lokalne, jak i zewnętrzne centra danych. Rozwiązania te zapewniają możliwość natychmiastowego przełączenia awaryjnego na lokalny sprzęt, ale w przypadku fizycznej awarii serwery można również uruchomić w centrach danych w chmurze.
  • zastosowanie systemów wysokiej dostępności, które utrzymują replikację zarówno danych, jak i systemu poza siedzibą firmy, umożliwiając ciągły dostęp do systemów i danych, nawet po katastrofie (często związanej z przechowywaniem w chmurze )

W wielu przypadkach organizacja może zdecydować się na skorzystanie z usług zewnętrznego dostawcy usług odzyskiwania po awarii w celu zapewnienia rezerwowej lokalizacji i systemów zamiast korzystania z własnych zdalnych obiektów, coraz częściej za pośrednictwem przetwarzania w chmurze .

Oprócz przygotowania się na potrzebę przywracania systemów, organizacje wdrażają również środki zapobiegawcze, których celem jest przede wszystkim zapobieganie katastrofie. Mogą to być:

  • lokalne mirrory systemów i/lub danych oraz wykorzystanie technologii ochrony dysku, takiej jak RAID
  • zabezpieczenia przeciwprzepięciowe — aby zminimalizować wpływ przepięć na delikatny sprzęt elektroniczny
  • korzystanie z zasilacza awaryjnego (UPS) i/lub generatora zapasowego do podtrzymania działania systemów w przypadku awarii zasilania
  • systemy zapobiegania/łagodzenia pożaru, takie jak alarmy i gaśnice
  • oprogramowanie antywirusowe i inne środki bezpieczeństwa

Odzyskiwanie po awarii jako usługa (DRaaS)

Odzyskiwanie po awarii jako usługa DRaaS jest umową ze stroną trzecią, dostawcą. Powszechnie oferowane przez Dostawców Usług w ramach ich portfolio usług.

Chociaż opublikowano listy dostawców, przywracanie po awarii nie jest produktem, jest usługą, mimo że kilku dużych producentów sprzętu opracowało oferty urządzeń mobilnych/modułowych, które można zainstalować i uruchomić w bardzo krótkim czasie.

Modułowe centrum danych podłączone do sieci energetycznej w podstacji energetycznej

Zobacz też

Bibliografia

Dalsza lektura

Zewnętrzne linki