Proliferacja danych - Data proliferation

Proliferacja danych odnosi się do ogromnej ilości danych , ustrukturyzowanych i nieustrukturyzowanych, które firmy i rządy nadal generują w niespotykanym dotąd tempie, oraz problemów z użytecznością wynikających z prób przechowywania tych danych i zarządzania nimi. Chociaż pierwotnie dotyczyło problemów związanych z dokumentacją papierową , rozprzestrzenianie się danych stało się głównym problemem w pierwotnym i wtórnym przechowywaniu danych na komputerach.

Chociaż przechowywanie cyfrowe stało się tańsze, związane z tym koszty, od surowej mocy po konserwację i od metadanych po wyszukiwarki, nie nadążają za rozprzestrzenianiem się danych. Chociaż moc wymagana do utrzymania jednostki danych spadła, koszt obiektów, w których przechowywane są cyfrowe pamięci masowe, zwykle rósł.

Na najprostszym poziomie firmowe systemy poczty elektronicznej generują duże ilości danych. Szacuje się, że poczta biznesowa – część z nich jest ważna dla przedsiębiorstwa, a część znacznie mniej – rośnie w tempie 25-30% rocznie. Niezależnie od tego, czy jest to istotne, czy nie, obciążenie systemu jest zwiększane przez praktyki, takie jak wielokrotne adresowanie i dołączanie dużych plików tekstowych, audio, a nawet wideo .

—  Globalne usługi technologiczne IBM

Proliferacja danych została udokumentowana jako problem dla armii amerykańskiej od sierpnia 1971 r., w szczególności w odniesieniu do nadmiernej dokumentacji przedłożonej podczas nabywania głównych systemów uzbrojenia. Trwają działania mające na celu ograniczenie rozprzestrzeniania się danych i związanych z nim problemów.

Problemy spowodowane

Problem proliferacji danych dotyka wszystkich obszarów handlu w wyniku dostępności stosunkowo niedrogich urządzeń do przechowywania danych. Ułatwiło to zrzucanie danych do dodatkowej pamięci masowej natychmiast po upływie okresu ich użyteczności. Maskuje to problemy, które mogą poważnie wpłynąć na rentowność przedsiębiorstw i sprawne funkcjonowanie służby zdrowia, policji i sił bezpieczeństwa, władz lokalnych i krajowych oraz wielu innych rodzajów organizacji. Proliferacja danych jest problematyczna z kilku powodów:

  • Trudność przy próbie znalezienia i odzyskania informacji. W firmie Xerox znalezienie papierowych dokumentów zajmuje pracownikom średnio ponad godzinę tygodniowo, a ich zarządzanie i przechowywanie kosztuje 2152 USD rocznie. W przypadku firm zatrudniających więcej niż 10 pracowników wskaźnik ten wzrasta do prawie dwóch godzin tygodniowo przy 5760 USD rocznie. W dużych sieciach przechowywania danych pierwotnych i wtórnych problemy ze znalezieniem danych elektronicznych są analogiczne do problemów ze znalezieniem danych papierowych.
  • Utrata danych i odpowiedzialność prawna, gdy dane są zdezorganizowane, niewłaściwie zreplikowane lub nie można ich znaleźć w odpowiednim czasie. W kwietniu 2005 roku Ameritrade Holding Corporation poinformowała 200 000 obecnych i byłych klientów, że taśma zawierająca poufne informacje została zgubiona lub zniszczona podczas transportu. W maju tego samego roku Time Warner Incorporated poinformował, że w drodze do magazynu zgubiono 40 taśm zawierających dane osobowe 600 000 obecnych i byłych pracowników. W marcu 2005 r. sędzia z Florydy, rozpatrujący pozew przeciwko Morganowi Stanleyowi o wartości 2,7 miliarda dolarów, wydał „ niekorzystny nakaz wnioskowania ” przeciwko firmie za „umyślne i rażące nadużycie jej obowiązków w zakresie odkrycia”. Sędzia powołał się na Morgan Stanley za wielokrotne znajdowanie zagubionych taśm z wiadomościami e-mail, długo po tym, jak firma twierdziła, że ​​przekazała wszystkie takie taśmy sądowi.
  • Zwiększone zapotrzebowanie na siłę roboczą w celu zarządzania coraz bardziej chaotycznymi zasobami przechowywania danych.
  • Wolniejsze sieci i wydajność aplikacji z powodu nadmiernego ruchu, gdy użytkownicy szukają i ponownie szukają potrzebnego materiału.
  • Wysoki koszt pod względem zasobów energii wymaganych do obsługi sprzętu pamięci masowej. System o pojemności 100 terabajtów będzie kosztował do 35 040 USD rocznie — nie licząc kosztów chłodzenia.

Proponowane rozwiązania

  • Aplikacje lepiej wykorzystujące nowoczesną technologię
  • Redukcja duplikatów danych (zwłaszcza spowodowanych przenoszeniem danych)
  • Poprawa struktur metadanych
  • Ulepszenie struktur transferu plików i przechowywania
  • Edukacja i dyscyplina użytkowników
  • Wdrożenie rozwiązań do zarządzania cyklem życia informacji w celu jak najszybszego wyeliminowania informacji o niskiej wartości przed umieszczeniem reszty w aktywnie zarządzanej pamięci długoterminowej, w której można uzyskać do nich szybki i tani dostęp.

Zobacz też

Bibliografia