Otwórz dane - Open data

Otwórz mapę danych
Połączona chmura otwartych danych w sierpniu 2014 r.
Wyraźne oznakowanie warunków licencji jest kluczowym elementem otwartych danych, a ikony takie jak ta na zdjęciu są wykorzystywane do tego celu.

Otwarte dane to idea, zgodnie z którą niektóre dane powinny być swobodnie dostępne dla każdego do wykorzystania i ponownego publikowania według własnego uznania, bez ograniczeń wynikających z praw autorskich, patentów lub innych mechanizmów kontroli. Cele ruchu danych typu open source są podobne do celów innych ruchów „open (-source)”, takich jak oprogramowanie typu open source, sprzęt , otwarte treści , otwarte specyfikacje , otwarta edukacja , otwarte zasoby edukacyjne , otwarty rząd , otwarta wiedza , otwarty dostęp , otwarta nauka i otwarta sieć. Paradoksalnie, wzrostowi ruchu otwartych danych towarzyszy wzrost praw własności intelektualnej. Filozofia stojąca za otwartymi danymi jest od dawna ugruntowana (na przykład w mertonowskiej tradycji nauki ), ale sam termin „otwarte dane” jest nowy, zyskując popularność wraz z rozwojem Internetu i World Wide Web, a zwłaszcza wraz z pojawieniem się inicjatyw rządowych otwartych danych, takich jak Data.gov , Data.gov.uk i Data.gov.in .

Otwarte dane mogą być również danymi powiązanymi ; kiedy tak jest, jest to połączone otwarte dane . Jedną z najważniejszych form otwartych danych są otwarte dane rządowe (OGD), które są formą otwartych danych tworzonych przez rządzące instytucje rządowe. Znaczenie otwartych danych rządowych wynika z tego, że są one częścią codziennego życia obywateli, aż do najbardziej rutynowych/przyziemnych zadań, które pozornie są odległe od rządu.

Skrót FAIR/O data jest czasami używany do wskazania, że ​​dany zbiór danych lub baza danych jest zgodna z zasadami danych FAIR, a także posiada otwartą licencję na jawne przetwarzanie danych .

Przegląd

Pojęcie otwartych danych nie jest nowe, ale sformalizowana definicja jest stosunkowo nowa. Koncepcyjnie, otwarte dane jako zjawisko oznaczają, że dane rządowe powinny być dostępne dla każdego, kto ma możliwość redystrybucji w dowolnej formie bez żadnych ograniczeń praw autorskich. Jeszcze jedną definicją jest Definicja Otwarta, którą można podsumować w stwierdzeniu, że „Dane są otwarte, jeśli ktokolwiek może je swobodnie wykorzystywać, ponownie wykorzystywać i rozpowszechniać – z zastrzeżeniem jedynie, co najwyżej, wymogu przypisywania i/lub udostępniania -zarówno." Inne definicje, w tym Otwarte Data Institute „s«jest czynna danych Dane, które każdy może dostęp, użycie lub akcji»Masz dostępną skróconą wersję definicji, ale odnoszą się do formalnej definicji.

Otwarte dane mogą obejmować materiały nietekstowe, takie jak mapy , genomy , konektomy , związki chemiczne , wzory matematyczne i naukowe, dane medyczne oraz praktyka, biologia i bioróżnorodność. Często pojawiają się problemy, ponieważ mają one wartość handlową lub mogą zostać połączone w wartościowe dzieła. Dostęp do danych lub ich ponowne wykorzystanie są kontrolowane przez organizacje, zarówno publiczne, jak i prywatne. Kontrola może odbywać się poprzez ograniczenia dostępu, licencje , prawa autorskie , patenty i opłaty za dostęp lub ponowne wykorzystanie. Zwolennicy otwartych danych twierdzą, że ograniczenia te są sprzeczne z dobrem wspólnym i że dane te powinny być udostępniane bez ograniczeń i opłat. Ponadto ważne jest, aby dane można było ponownie wykorzystać bez konieczności uzyskania dalszego zezwolenia, chociaż rodzaje ponownego wykorzystania (takie jak tworzenie dzieł pochodnych) mogą być kontrolowane na podstawie licencji.

Typowy obraz potrzeby otwartych danych:

Wielu naukowców zwróciło uwagę na ironię, że w momencie historycznym, kiedy dysponujemy technologiami umożliwiającymi ogólnoświatową dostępność i rozproszony proces danych naukowych, rozszerzając współpracę i przyspieszając tempo i głębokość odkrywania  … jesteśmy zajęci zamykaniem tych danych i zapobieganie stosowaniu odpowiednio zaawansowanych technologii na wiedzy.

—  John Wilbanks, wiceprezes ds. nauki, Creative Commons

Twórcy danych często nie biorą pod uwagę potrzeby określania warunków własności, licencjonowania i ponownego wykorzystywania; zamiast tego zakładać, że nie dochodzenie praw autorskich powoduje, że dane stają się własnością publiczną . Na przykład, wielu naukowców nie uważa, że ​​publikowane dane wynikające z ich pracy podlegają kontroli i uważa akt publikacji w czasopiśmie za niejawne udostępnienie danych do wspólnego dobra . Jednak brak licencji utrudnia określenie statusu zbioru danych i może ograniczać korzystanie z danych oferowanych w duchu „otwartym”. Ze względu na tę niepewność możliwe jest również , że organizacje publiczne lub prywatne agregują te dane, twierdzą, że są chronione prawem autorskim, a następnie je odsprzedają.

Kwestia wiedzy tubylczej (IK) stanowi ogromne wyzwanie w zakresie pozyskiwania, przechowywania i dystrybucji. W wielu społeczeństwach w krajach trzeciego świata brakuje technicznych procesów zarządzania IK.

W swojej prezentacji na konferencji XML 2005 Connolly przedstawił te dwa cytaty dotyczące otwartych danych:

  • „Chcę odzyskać moje dane”. (Jon Bosak około 1997)
  • „Od dawna wierzyłem, że klienci dowolnej aplikacji są właścicielami danych, które do niej wprowadzają”. (Ten cytat odnosi się do własnych danych dotyczących tętna Veena.)

Główne źródła

The State of Open Data , książka z 2019 roku wydana przez African Minds

Otwarte dane mogą pochodzić z dowolnego źródła. W tej sekcji wymieniono niektóre pola, które publikują (lub przynajmniej omawiają publikowanie) dużej ilości otwartych danych.

W nauce

Koncepcja otwartego dostępu do danych naukowych została ustanowiona instytucjonalnie wraz z utworzeniem systemu World Data Center , w ramach przygotowań do Międzynarodowego Roku Geofizycznego 1957–1958. Międzynarodowa Rada Związków Naukowych (obecnie Międzynarodowa Rada Nauki ) nadzoruje kilka Światowych Centrów Danych z mandatem do minimalizowania ryzyka utraty danych i maksymalizacji ich dostępności.

Podczas gdy ruch danych otwartej nauki na długo wyprzedza Internet, dostępność szybkich, wszechobecnych sieci znacząco zmieniła kontekst danych otwartej nauki , ponieważ publikowanie lub pozyskiwanie danych stało się znacznie mniej kosztowne i czasochłonne.

Projekt genomu ludzkiego był główną inicjatywą, która stanowi przykład potęgi otwartych danych. Została ona zbudowana na tzw. zasadach bermudzkich , które stanowią, że: „Wszystkie informacje o sekwencji genomowej człowieka… powinny być swobodnie dostępne i publicznie dostępne w celu zachęcania do badań i rozwoju oraz maksymalizacji korzyści dla społeczeństwa”. Nowsze inicjatywy, takie jak jak pokazało Konsorcjum ds. Genomiki Strukturalnej, podejście otwartych danych może być również produktywnie wykorzystywane w kontekście przemysłowych badań i rozwoju.

W 2004 r. ministrowie nauki wszystkich narodów Organizacji Współpracy Gospodarczej i Rozwoju (OECD), do której należy najbardziej rozwinięte kraje świata, podpisali deklarację, w której zasadniczo stwierdza się, że wszystkie dane archiwalne finansowane ze środków publicznych powinny być publicznie dostępne. W odpowiedzi na prośbę i intensywną dyskusję z instytucjami wytwarzającymi dane w państwach członkowskich, OECD opublikowała w 2007 r. Zasady i wytyczne OECD dotyczące dostępu do danych badawczych z funduszy publicznych jako zalecenie w zakresie prawa miękkiego .

Przykłady otwartych danych w nauce:

  • The Dataverse Network Project – archiwizacyjne oprogramowanie repozytoriów promujące udostępnianie danych , trwałe cytowanie danych i powtarzalne badania
  • data.uni-muenster.de – Otwarte dane o artefaktach naukowych z Uniwersytetu w Muenster w Niemczech. Rozpoczęty w 2011 roku.
  • linkedscience.org/data — otwarte zbiory danych naukowych zakodowane jako dane połączone . Rozpoczęty w 2011, zakończony 2018.
  • systemanaturae.org – Otwarte zbiory danych naukowych związanych z dziką przyrodą klasyfikowaną według gatunków zwierząt. Rozpoczęty w 2015 roku.

W rządzie

Istnieje szereg różnych argumentów przemawiających za otwartymi danymi rządowymi. Na przykład niektórzy zwolennicy twierdzą, że udostępnianie informacji rządowych opinii publicznej jako otwartych danych do odczytu maszynowego może ułatwić rządową przejrzystość, odpowiedzialność i udział publiczny. „Otwarte dane mogą być potężną siłą dla odpowiedzialności publicznej — mogą sprawić, że istniejące informacje będą łatwiejsze do analizowania, przetwarzania i łączenia niż kiedykolwiek wcześniej, umożliwiając nowy poziom kontroli publicznej”. Rządy, które umożliwiają publiczny przegląd danych, mogą pomóc obywatelom zaangażować się w sektory rządowe i „dodać wartość do tych danych”.

Niektórzy twierdzą, że otwarcie oficjalnych informacji może wspierać innowacje technologiczne i wzrost gospodarczy, umożliwiając stronom trzecim opracowywanie nowych rodzajów aplikacji i usług cyfrowych.

Kilka rządów krajowych stworzyło strony internetowe w celu rozpowszechniania części gromadzonych danych. Jest to koncepcja wspólnego projektu w samorządzie miejskim w celu stworzenia i zorganizowania kultury dla otwartych danych lub otwartych danych rządowych.

Ponadto inne szczeble administracji utworzyły strony internetowe z otwartymi danymi. W Kanadzie istnieje wiele instytucji rządowych prowadzących Open Data . Data.gov zawiera listę witryn w sumie 40 stanów USA oraz 46 miast i hrabstw Stanów Zjednoczonych z witrynami udostępniającymi otwarte dane; np. stan Maryland , stan Kalifornia, USA i Nowy Jork .

Na poziomie międzynarodowym Organizacja Narodów Zjednoczonych prowadzi stronę internetową z otwartymi danymi, na której publikowane są dane statystyczne z państw członkowskich i agencji ONZ, a Bank Światowy opublikował szereg danych statystycznych dotyczących krajów rozwijających się. Komisja Europejska stworzyła dwa portale dla Unii Europejskiej : the EU otwarty portal danych , które daje dostęp do otwartych danych z instytucji UE, agencji i innych organów i portalu PublicData który dostarcza zestawy danych z lokalnych, regionalnych i krajowych organów publicznych w całej Europie.

Włochy są pierwszym krajem, który udostępnił standardowe procesy i wytyczne na licencji Creative Commons do rozpowszechniania w administracji publicznej. Otwarty model nosi nazwę ODMC - Open Data Management Cycle i został przyjęty w kilku regionach, takich jak regiony Veneto i Umbria oraz główne miasta, takie jak Reggio Calabria i Genova .

W październiku 2015 r. Partnerstwo Otwartego Rządu uruchomiło Międzynarodową Kartę Otwartych Danych , zbiór zasad i najlepszych praktyk dotyczących udostępniania rządowych otwartych danych, formalnie przyjętych przez siedemnaście rządów krajów, stanów i miast podczas Światowego Szczytu OGP w Meksyku .

W organizacjach non-profit

Wiele organizacji non-profit oferuje mniej lub bardziej otwarty dostęp do swoich danych, o ile nie narusza to praw do prywatności ich użytkowników, członków lub osób trzecich . W porównaniu do korporacji nastawionych na zysk nie starają się zarabiać na swoich danych. OpenNWT uruchomił stronę internetową oferującą otwarte dane dotyczące wyborów. CIAT oferuje otwarte dane każdemu, kto chce prowadzić analizę dużych zbiorów danych w celu zwiększenia korzyści z międzynarodowych badań rolniczych. DBLP , którego właścicielem jest organizacja non-profit Dagstuhl , oferuje swoją bazę publikacji naukowych z dziedziny informatyki jako otwarte dane. Nienastawione na zysk usługi wymiany gościnności oferują godnym zaufania zespołom naukowców dostęp do ich zanonimizowanych danych w celu publikacji spostrzeżeń z korzyścią dla ludzkości. Zanim w 2011 roku Couchsurfing stał się korporacją nastawioną na zysk , Couchsurfing oferował 4 zespołom badawczym dostęp do swoich danych z portali społecznościowych . W 2015 r. organizacje non-profit zajmujące się wymianą gościnności Bewelcome i Warm Showers dostarczyły swoje dane do badań publicznych.

Polityki i strategie krajowe

Niemcy uruchomiły oficjalną strategię w lipcu 2021 roku.

Argumenty za i przeciw

Debata na temat otwartych danych wciąż się rozwija. Najlepsze otwarte aplikacje rządowe mają na celu wzmocnienie pozycji obywateli, pomoc małym firmom lub tworzenie wartości w inny pozytywny, konstruktywny sposób. Otwarcie danych rządowych to tylko punkt na drodze do poprawy edukacji, usprawnienia rządu i tworzenia narzędzi do rozwiązywania innych problemów świata rzeczywistego. Chociaż wiele argumentów zostało przedstawionych kategorycznie, poniższe omówienie argumentów za i przeciw otwartym danym pokazuje, że argumenty te często w dużym stopniu zależą od rodzaju danych i ich potencjalnych zastosowań.

Argumenty wysuwane w imieniu otwartych danych obejmują:

  • „Dane należą do rasy ludzkiej ”. Typowymi przykładami są genomy , dane dotyczące organizmów, nauki medyczne, dane środowiskowe zgodnie z Konwencją z Aarhus
  • Pieniądze publiczne zostały wykorzystane do sfinansowania pracy i dlatego powinny być powszechnie dostępne.
  • Został stworzony przez lub w instytucji rządowej (jest to powszechne w amerykańskich laboratoriach narodowych i agencjach rządowych)
  • Fakty nie mogą być prawnie chronione prawem autorskim.
  • Sponsorzy badań nie uzyskują pełnej wartości, chyba że uzyskane dane są swobodnie dostępne.
  • Ograniczenia dotyczące ponownego wykorzystywania danych tworzą antycommons.
  • Dane są niezbędne do sprawnego prowadzenia gminnej działalności człowieka i są ważnym czynnikiem rozwoju społeczno-gospodarczego (ochrona zdrowia, edukacja, produktywność ekonomiczna itp.).
  • W badaniach naukowych tempo odkrywania przyspiesza lepszy dostęp do danych.
  • Otwarcie danych pomaga zwalczać „gnicie danych” i zapewnia zachowanie danych z badań naukowych w czasie.
  • Umiejętność statystyczna korzysta z otwartych danych. Instruktorzy mogą korzystać z lokalnych zbiorów danych, aby uczyć swoich uczniów pojęć statystycznych.

Powszechnie uważa się, że dane faktyczne nie mogą być chronione prawem autorskim. Jednak wydawcy często dodają oświadczenia o prawach autorskich (często zabraniające ponownego wykorzystywania) do danych naukowych towarzyszących publikacji. Może być niejasne, czy dane faktyczne osadzone w pełnym tekście są objęte prawami autorskimi.

Podczas gdy ludzkie wyabstrahowanie faktów z publikacji papierowych jest zwykle akceptowane jako legalne, często istnieje dorozumiane ograniczenie ekstrakcji maszynowej przez roboty.

W przeciwieństwie do otwartego dostępu , gdzie grupy wydawców wyraziły swoje obawy, otwarte dane są zwykle kwestionowane przez poszczególne instytucje. Ich argumenty były mniej omawiane w dyskursie publicznym i obecnie jest mniej cytatów, na których można się oprzeć.

Argumenty przeciwko udostępnianiu wszystkich danych jako danych otwartych są następujące:

  • Finansowanie rządowe nie może być wykorzystywane do powielania lub kwestionowania działań sektora prywatnego (np. PubChem ).
  • Rządy muszą ponosić odpowiedzialność za efektywne wykorzystanie pieniędzy podatników: jeśli do agregowania danych wykorzystywane są fundusze publiczne i jeśli dane przyniosą komercyjne (prywatne) korzyści tylko niewielkiej liczbie użytkowników, użytkownicy powinni zwrócić rządom koszty podanie danych.
  • Otwarte dane mogą prowadzić do wykorzystywania i szybkiej publikacji wyników opartych na danych dotyczących krajów rozwijających się przez bogate i dobrze wyposażone instytuty badawcze, bez dalszego zaangażowania i/lub korzyści dla społeczności lokalnych ( badania śmigłowcowe ); podobnie jak historyczny otwarty dostęp do lasów tropikalnych, który doprowadził do wywłaszczenia („Global Grabież”) zasobów genetycznych roślin z krajów rozwijających się.
  • Dochód uzyskany z publikacji danych może być wykorzystany na pokrycie kosztów generowania i/lub rozpowszechniania danych, tak aby rozpowszechnianie mogło być kontynuowane w nieskończoność.
  • Przychody uzyskane z publikowania danych pozwalają organizacjom non-profit finansować inne działania (np. publikowanie towarzystw naukowych wspiera towarzystwo).
  • Rząd daje określoną legitymację pewnym organizacjom do odzyskania kosztów ( NIST w USA, Ordnance Survey w Wielkiej Brytanii).
  • Kwestie prywatności mogą wymagać, aby dostęp do danych był ograniczony do określonych użytkowników lub podzbiorów danych.
  • Gromadzenie, „czyszczenie”, zarządzanie i rozpowszechnianie danych to zazwyczaj procesy pracochłonne i/lub kosztowne – każdy, kto świadczy te usługi, powinien otrzymać godziwe wynagrodzenie za świadczenie tych usług.
  • Sponsorzy nie uzyskują pełnej wartości, jeśli ich dane nie są odpowiednio wykorzystywane – czasami wymaga to zarządzania jakością, rozpowszechniania i budowania marki, które najlepiej można osiągnąć poprzez pobieranie opłat od użytkowników.
  • Często docelowi użytkownicy końcowi nie mogą korzystać z danych bez dodatkowego przetwarzania (analizy, aplikacje itp.) – jeśli ktoś ma dostęp do danych, nikt nie może mieć motywacji do inwestowania w przetwarzanie niezbędne do uczynienia danych użytecznymi (typowe przykłady to biologiczne, dane medyczne i środowiskowe).
  • Nie ma kontroli nad wtórnym wykorzystaniem (agregacją) otwartych danych.

Związek z innymi otwartymi działaniami

Cele ruchu Open Data są podobne do celów innych ruchów „Open”.

  • Otwarty dostęp dotyczy bezpłatnego udostępniania publikacji naukowych w Internecie. W niektórych przypadkach artykuły te zawierają również otwarte zbiory danych.
  • Otwarte specyfikacje to dokumenty opisujące typy plików lub protokoły, w przypadku których dokumenty są objęte otwartą licencją. Zazwyczaj te specyfikacje mają na celu przede wszystkim ulepszenie różnego oprogramowania obsługującego te same typy plików lub protokołów, ale monopoliści zmuszeni przez prawo do otwartych specyfikacji mogą to utrudnić.
  • Otwarte treści dotyczą udostępniania zasobów skierowanych do ludzkich odbiorców (takich jak proza, zdjęcia lub filmy) za darmo.
  • Otwarta wiedza . Open Knowledge International opowiada się za otwartością w wielu kwestiach, w tym między innymi w kwestiach otwartych danych. Obejmuje (a) naukowe, historyczne, geograficzne lub inne (b) treści, takie jak muzyka, filmy, książki (c) rządowe i inne informacje administracyjne. Otwarte dane są objęte zakresem definicji otwartej wiedzy, o której mowa w protokole Science Commons ' Implementing Open Access Data.
  • Nauka z otwartym notatnikiem odnosi się do zastosowania koncepcji otwartych danych do jak największej części procesu naukowego, w tym nieudanych eksperymentów i surowych danych eksperymentalnych.
  • Oprogramowanie open-source jest zaniepokojony z licencji open-source , zgodnie z którymi programy komputerowe mogą być rozprowadzane i nie jest normalnie zainteresowane głównie z danymi.
  • Otwarte zasoby edukacyjne to ogólnodostępne dokumenty i media na otwartej licencji, które są przydatne w nauczaniu, uczeniu się i ocenianiu, a także w celach badawczych.
  • Otwarte badania / otwarta nauka / otwarte dane naukowe (połączona otwarta nauka) oznaczają podejście do otwierania i łączenia zasobów naukowych, takich jak dane, metody i narzędzia, z technikami danych powiązanych , aby umożliwić przejrzyste, odtwarzalne i transdyscyplinarne badania.
  • Open-GLAM (Galerie, Biblioteka, Archiwa i Muzea) to inicjatywa i sieć wspierająca wymianę i współpracę między instytucjami kultury, które wspierają otwarty dostęp do ich zdigitalizowanych zbiorów. Inicjatywa GLAM-Wiki pomaga instytucjom kulturalnym dzielić się ze światem zasobami na otwartej licencji poprzez wspólne projekty z doświadczonymi redaktorami Wikipedii . Open Heritage Data jest kojarzona z Open GLAM, ponieważ dane na zasadach otwartej licencji w sektorze dziedzictwa są obecnie często wykorzystywane w badaniach, publikacjach i programowaniu, zwłaszcza w humanistyce cyfrowej .

Mandaty fundatorów

Kilka instytucji finansujących, które upoważniają otwarty dostęp, również upoważnia do otwartych danych. Dobre wyrażenie wymagań (w niektórych miejscach obcięte) podaje Canadian Institutes of Health Research (CIHR):

  • do zdeponowania danych bioinformatycznych, współrzędnych atomowych i molekularnych, danych eksperymentalnych w odpowiedniej publicznej bazie danych niezwłocznie po opublikowaniu wyników badań.
  • zachować oryginalne zestawy danych przez co najmniej pięć lat po przyznaniu dotacji. Dotyczy to wszystkich danych, opublikowanych lub nie.

Inne organy aktywnie promujące deponowanie danych oraz pełnego tekstu obejmują Wellcome Trust . W artykule akademickim opublikowanym w 2013 r. zalecano, aby program Horyzont 2020 (mechanizm finansowania nauki UE) nakazywał przekazywanie finansowanych projektów w swoich bazach danych jako „produkty dostarczalne” na koniec projektu, aby można było je następnie sprawdzić pod kątem użyteczności dla osób trzecich wspólny.

Dane nieotwarte

Kilka mechanizmów ogranicza dostęp do danych lub ich ponowne wykorzystanie (a kilka powodów takiego postępowania podano powyżej). Zawierają:

  • udostępnianie danych za opłatą.
  • kompilacja w bazach danych lub witrynach internetowych, do których dostęp mają tylko zarejestrowani członkowie lub klienci.
  • korzystanie z zastrzeżonej lub zamkniętej technologii lub szyfrowania, które tworzą barierę dostępu.
  • oświadczenia o prawach autorskich twierdzące, że zabraniają (lub zaciemniają) ponowne wykorzystywanie danych, w tym stosowanie wymagań „bez pochodnych ”.
  • patent zabraniający ponownego wykorzystania danych (np. opatentowano trójwymiarowe współrzędne niektórych eksperymentalnych struktur białkowych).
  • ograniczenie robotów do stron internetowych, z preferencją dla niektórych wyszukiwarek.
  • agregowanie danych faktycznych w „bazy danych”, które mogą być objęte „ prawami do baz danych ” lub „ dyrektywami dotyczącymi baz danych ” (np. dyrektywa w sprawie ochrony prawnej baz danych ).
  • ograniczony czasowo dostęp do zasobów takich jak e-czasopisma (które w tradycyjnym druku były dostępne dla nabywcy bezterminowo).
  • „webstacles” lub dostarczanie pojedynczych punktów danych w przeciwieństwie do zapytań tabelarycznych lub masowego pobierania zbiorów danych .
  • naciski polityczne, handlowe czy prawne na działalność organizacji dostarczających Open Data (np. Amerykańskie Towarzystwo Chemiczne lobbowało w Kongresie USA o ograniczenie finansowania dla National Institutes of Health danych Open PubChem ).

Zobacz też

Bibliografia

Zewnętrzne linki