Kulturomika - Culturomics

Kulturomika to forma leksykologii obliczeniowej, która bada ludzkie zachowania i trendy kulturowe poprzez ilościową analizę zdigitalizowanych tekstów. Naukowcy dane kopalni dużych archiwów cyfrowych w celu zbadania zjawisk kulturowych odzwierciedlenie w wykorzystaniu języka i tekstu. Termin ten jest amerykańskim neologizmem po raz pierwszy opisanym w artykule Science z 2010 r. zatytułowanym Quantitative Analysis of Culture Using Millions of Digitized Books , którego współautorami są badacze z Harvardu Jean-Baptiste Michel i Erez Lieberman Aiden .

Michel i Aiden pomógł stworzyć Google Labs projektu Google Ngram Viewer , który wykorzystuje n-gramów do analizy Google Books cyfrową bibliotekę wzorców kulturowych w użyciu języka w czasie.

Ponieważ zestaw danych Google Ngram nie jest bezstronną próbką i nie zawiera metadanych, istnieje kilka pułapek podczas używania go do badania języka lub popularności terminów. Literatura medyczna ma duży, ale zmienny udział w korpusie, co nie uwzględnia tego, jak często literatura jest drukowana lub czytana.

Studia

Sieć narracyjna Wyborów w USA 2012

W badaniu zatytułowanym Culturomics 2.0 Kalev H. Leetaru przeanalizował archiwa wiadomości, w tym media drukowane i nadawane (transkrypcje telewizyjne i radiowe) pod kątem słów, które nadawały ton lub „nastrój”, a także danych geograficznych. Badanie z mocą wsteczną przewidziało arabską wiosnę 2011 i pomyślnie oszacowało ostateczną lokalizację Osamy Bin Ladena z dokładnością do 200 km.

W artykule z 2012 roku autorstwa Alexandra M. Petersena i współautorów odkryli „dramatyczną zmianę w liczbie urodzeń i śmiertelności słów”: Liczba zgonów wzrosła, a liczba urodzeń zwolniła. Autorzy zidentyfikowali również uniwersalny „punkt krytyczny” w cyklu życia nowych słów około 30 do 50 lat po ich powstaniu, albo wchodzą one do długoterminowego leksykonu , albo wychodzą z użycia.

Podejścia kulturoznawcze zostały przyjęte w analizie treści prasowych w wielu opracowaniach I. Flaounasa i współautorów. Badania te wykazały makroskopowe trendy w różnych serwisach informacyjnych i krajach. W 2012 roku badanie obejmujące 2,5 miliona artykułów sugerowało, że uprzedzenia dotyczące płci w relacjach informacyjnych zależą od tematu i tego, jak czytelność artykułów prasowych jest związana z tematem. Oddzielne badanie przeprowadzone przez tych samych badaczy, obejmujące 1,3 miliona artykułów z 27 krajów, wykazało makroskopowe wzorce w wyborze opowiadanych artykułów. W szczególności kraje dokonały podobnych wyborów, gdy łączyły je więzi gospodarcze, geograficzne i kulturowe. Powiązania kulturowe ujawniło podobieństwo w głosowaniu na konkurs piosenki Eurowizji . Badanie zostało przeprowadzone na szeroką skalę, przy użyciu statystycznego tłumaczenia maszynowego , kategoryzacji tekstów i technik ekstrakcji informacji .

Możliwość wykrycia zmian nastroju w ogromnej populacji poprzez analizę treści na Twitterze została zademonstrowana w badaniu przeprowadzonym przez T. Lansdall-Welfare i współautorów. Badanie objęło 84 miliony tweetów wygenerowanych przez ponad 9,8 miliona użytkowników z Wielkiej Brytanii w okresie 31 miesięcy, pokazując, jak zmieniły się nastroje społeczne w Wielkiej Brytanii wraz z ogłoszeniem cięć wydatków.

W badaniu przeprowadzonym przez S Sudhahara i współautorów z 2013 r. automatyczne parsowanie korpusów tekstowych umożliwiło wyodrębnienie aktorów i ich sieci relacyjnych na ogromną skalę, przekształcając dane tekstowe w dane sieciowe. Powstałe sieci, które mogą zawierać tysiące węzłów, są następnie analizowane za pomocą narzędzi z teorii sieci w celu zidentyfikowania kluczowych aktorów, kluczowych społeczności lub stron oraz ogólnych właściwości, takich jak solidność lub stabilność strukturalna całej sieci lub centralność niektórych węzły.

W badaniu z 2014 r. przeprowadzonym przez T Lansdall-Welfare i współautorów, w ciągu 5 lat zebrano 5 milionów artykułów prasowych, a następnie przeanalizowano je, aby zasugerować znaczną zmianę nastrojów w odniesieniu do zasięgu energii jądrowej, co odpowiada katastrofie w Fukushimie . W badaniu wyodrębniono również koncepcje związane z energią jądrową przed i po katastrofie, wyjaśniając zmianę nastrojów zmianą ram narracyjnych.

W 2015 roku badanie ujawniło stronniczość zbioru danych Google Books, który „cierpi na szereg ograniczeń, które czynią go niejasną maską popularności kulturowej” i kwestionuje znaczenie wielu wcześniejszych wyników.

Podejścia kulturoznawcze mogą również przyczynić się do nauki o ochronie przyrody poprzez lepsze zrozumienie relacji człowiek-przyroda. W 2016 r. w publikacji Richarda Ladle i współpracowników<ref doi : 10.1002/fee.1260 </ref> wyróżniono pięć kluczowych obszarów, w których kulturomika może być wykorzystana do rozwoju praktyki i nauki o ochronie, w tym rozpoznanie okręgów zorientowanych na ochronę przyrody i demonstracja zainteresowanie przyrodą, identyfikowanie symboli ochronnych, dostarczanie nowych wskaźników i narzędzi do monitorowania środowiska w czasie zbliżonym do rzeczywistego oraz wspieranie podejmowania decyzji dotyczących ochrony przyrody, ocena wpływu interwencji konserwatorskich na kulturę oraz określanie kwestii ochrony i promowanie zrozumienia społecznego.

W 2017 roku badanie korelowało ból stawów z aktywnością w wyszukiwarce Google i temperaturą. Podczas gdy w badaniu zaobserwowano wyższą aktywność wyszukiwania bólu biodra i kolana (ale nie zapalenia stawów ) w wyższych temperaturach, nie kontroluje ono (i nie może) kontrolować innych istotnych czynników, takich jak aktywność. Środki masowego przekazu błędnie zinterpretowały to jako „obalanie mitu: deszcz nie zwiększa bólu stawów”, podczas gdy autorzy spekulują, że zaobserwowana korelacja wynika ze „zmian w poziomie aktywności fizycznej”.

Krytyka

Językoznawcy i leksykografowie wyrazili sceptycyzm co do metod i wyników niektórych z tych badań, w tym badania Petersena i in. Inni wykazali stronniczość w zestawie danych Ngram. Ich wyniki „poddają w wątpliwość zdecydowaną większość istniejących twierdzeń zaczerpniętych z korpusu Google Books”: „Zamiast mówić o ogólnej zmianie językowej lub kulturowej, wydaje się, że lepiej jest wyraźnie ograniczyć wyniki do zmiany językowej lub kulturowej”, jak to jest reprezentowane w danych Google Ngram'”, ponieważ nie jest jasne, co spowodowało zaobserwowaną zmianę w próbce.

Zobacz też

Bibliografia

Dalsza lektura

Zewnętrzne linki

  • Culturomics.org , strona internetowa The Cultural Observatory na Harvardzie kierowana przez Erez Lieberman Aiden i Jean-Baptiste Michel