Kulturomika - Culturomics
Kulturomika to forma leksykologii obliczeniowej, która bada ludzkie zachowania i trendy kulturowe poprzez ilościową analizę zdigitalizowanych tekstów. Naukowcy dane kopalni dużych archiwów cyfrowych w celu zbadania zjawisk kulturowych odzwierciedlenie w wykorzystaniu języka i tekstu. Termin ten jest amerykańskim neologizmem po raz pierwszy opisanym w artykule Science z 2010 r. zatytułowanym Quantitative Analysis of Culture Using Millions of Digitized Books , którego współautorami są badacze z Harvardu Jean-Baptiste Michel i Erez Lieberman Aiden .
Michel i Aiden pomógł stworzyć Google Labs projektu Google Ngram Viewer , który wykorzystuje n-gramów do analizy Google Books cyfrową bibliotekę wzorców kulturowych w użyciu języka w czasie.
Ponieważ zestaw danych Google Ngram nie jest bezstronną próbką i nie zawiera metadanych, istnieje kilka pułapek podczas używania go do badania języka lub popularności terminów. Literatura medyczna ma duży, ale zmienny udział w korpusie, co nie uwzględnia tego, jak często literatura jest drukowana lub czytana.
Studia
W badaniu zatytułowanym Culturomics 2.0 Kalev H. Leetaru przeanalizował archiwa wiadomości, w tym media drukowane i nadawane (transkrypcje telewizyjne i radiowe) pod kątem słów, które nadawały ton lub „nastrój”, a także danych geograficznych. Badanie z mocą wsteczną przewidziało arabską wiosnę 2011 i pomyślnie oszacowało ostateczną lokalizację Osamy Bin Ladena z dokładnością do 200 km.
W artykule z 2012 roku autorstwa Alexandra M. Petersena i współautorów odkryli „dramatyczną zmianę w liczbie urodzeń i śmiertelności słów”: Liczba zgonów wzrosła, a liczba urodzeń zwolniła. Autorzy zidentyfikowali również uniwersalny „punkt krytyczny” w cyklu życia nowych słów około 30 do 50 lat po ich powstaniu, albo wchodzą one do długoterminowego leksykonu , albo wychodzą z użycia.
Podejścia kulturoznawcze zostały przyjęte w analizie treści prasowych w wielu opracowaniach I. Flaounasa i współautorów. Badania te wykazały makroskopowe trendy w różnych serwisach informacyjnych i krajach. W 2012 roku badanie obejmujące 2,5 miliona artykułów sugerowało, że uprzedzenia dotyczące płci w relacjach informacyjnych zależą od tematu i tego, jak czytelność artykułów prasowych jest związana z tematem. Oddzielne badanie przeprowadzone przez tych samych badaczy, obejmujące 1,3 miliona artykułów z 27 krajów, wykazało makroskopowe wzorce w wyborze opowiadanych artykułów. W szczególności kraje dokonały podobnych wyborów, gdy łączyły je więzi gospodarcze, geograficzne i kulturowe. Powiązania kulturowe ujawniło podobieństwo w głosowaniu na konkurs piosenki Eurowizji . Badanie zostało przeprowadzone na szeroką skalę, przy użyciu statystycznego tłumaczenia maszynowego , kategoryzacji tekstów i technik ekstrakcji informacji .
Możliwość wykrycia zmian nastroju w ogromnej populacji poprzez analizę treści na Twitterze została zademonstrowana w badaniu przeprowadzonym przez T. Lansdall-Welfare i współautorów. Badanie objęło 84 miliony tweetów wygenerowanych przez ponad 9,8 miliona użytkowników z Wielkiej Brytanii w okresie 31 miesięcy, pokazując, jak zmieniły się nastroje społeczne w Wielkiej Brytanii wraz z ogłoszeniem cięć wydatków.
W badaniu przeprowadzonym przez S Sudhahara i współautorów z 2013 r. automatyczne parsowanie korpusów tekstowych umożliwiło wyodrębnienie aktorów i ich sieci relacyjnych na ogromną skalę, przekształcając dane tekstowe w dane sieciowe. Powstałe sieci, które mogą zawierać tysiące węzłów, są następnie analizowane za pomocą narzędzi z teorii sieci w celu zidentyfikowania kluczowych aktorów, kluczowych społeczności lub stron oraz ogólnych właściwości, takich jak solidność lub stabilność strukturalna całej sieci lub centralność niektórych węzły.
W badaniu z 2014 r. przeprowadzonym przez T Lansdall-Welfare i współautorów, w ciągu 5 lat zebrano 5 milionów artykułów prasowych, a następnie przeanalizowano je, aby zasugerować znaczną zmianę nastrojów w odniesieniu do zasięgu energii jądrowej, co odpowiada katastrofie w Fukushimie . W badaniu wyodrębniono również koncepcje związane z energią jądrową przed i po katastrofie, wyjaśniając zmianę nastrojów zmianą ram narracyjnych.
W 2015 roku badanie ujawniło stronniczość zbioru danych Google Books, który „cierpi na szereg ograniczeń, które czynią go niejasną maską popularności kulturowej” i kwestionuje znaczenie wielu wcześniejszych wyników.
Podejścia kulturoznawcze mogą również przyczynić się do nauki o ochronie przyrody poprzez lepsze zrozumienie relacji człowiek-przyroda. W 2016 r. w publikacji Richarda Ladle i współpracowników<ref doi : 10.1002/fee.1260 </ref> wyróżniono pięć kluczowych obszarów, w których kulturomika może być wykorzystana do rozwoju praktyki i nauki o ochronie, w tym rozpoznanie okręgów zorientowanych na ochronę przyrody i demonstracja zainteresowanie przyrodą, identyfikowanie symboli ochronnych, dostarczanie nowych wskaźników i narzędzi do monitorowania środowiska w czasie zbliżonym do rzeczywistego oraz wspieranie podejmowania decyzji dotyczących ochrony przyrody, ocena wpływu interwencji konserwatorskich na kulturę oraz określanie kwestii ochrony i promowanie zrozumienia społecznego.
W 2017 roku badanie korelowało ból stawów z aktywnością w wyszukiwarce Google i temperaturą. Podczas gdy w badaniu zaobserwowano wyższą aktywność wyszukiwania bólu biodra i kolana (ale nie zapalenia stawów ) w wyższych temperaturach, nie kontroluje ono (i nie może) kontrolować innych istotnych czynników, takich jak aktywność. Środki masowego przekazu błędnie zinterpretowały to jako „obalanie mitu: deszcz nie zwiększa bólu stawów”, podczas gdy autorzy spekulują, że zaobserwowana korelacja wynika ze „zmian w poziomie aktywności fizycznej”.
Krytyka
Językoznawcy i leksykografowie wyrazili sceptycyzm co do metod i wyników niektórych z tych badań, w tym badania Petersena i in. Inni wykazali stronniczość w zestawie danych Ngram. Ich wyniki „poddają w wątpliwość zdecydowaną większość istniejących twierdzeń zaczerpniętych z korpusu Google Books”: „Zamiast mówić o ogólnej zmianie językowej lub kulturowej, wydaje się, że lepiej jest wyraźnie ograniczyć wyniki do zmiany językowej lub kulturowej”, jak to jest reprezentowane w danych Google Ngram'”, ponieważ nie jest jasne, co spowodowało zaobserwowaną zmianę w próbce.
Zobacz też
Bibliografia
Dalsza lektura
- Michel, Jean-Baptiste; Liberman Aiden, Erez ; Aiden, AP; Veres, A.; Szary, MK; Pickett, JP; Hoiberg, D.; Clancy, D.; Norvig, P.; Orwan, Jan; Nowak, Marcin ; Pinker, Steven (16 grudnia 2010). „Analiza ilościowa kultury z wykorzystaniem milionów zdigitalizowanych książek” . Nauka . 331 (6014): 176-82. doi : 10.1126/science.1199644 . PMC 3279742 . PMID 21163965 .
- Leetaru, Kalev H. (5 września 2011). „Kulturomika 2.0: Prognozowanie ludzkich zachowań na dużą skalę za pomocą globalnego tonu mediów w czasie i przestrzeni” . Pierwszy poniedziałek . 16 (9). doi : 10.5210/fm.v16i9.3663 . Zarchiwizowane z oryginału w dniu 4 kwietnia 2012 roku . Źródło 9 września 2011 .
- Bohannon, John (14 stycznia 2011). „Książki Google, Wikipedia i przyszłość kultury”. Nauka . 331 (6014): 135. Kod Bib : 2011Sci...331..135B . doi : 10.1126/science.331.6014.135 . PMID 21233356 .
- Schwartz, Tim (1 kwietnia 2011). „Kulturomika: Czasopisma Gauge Puls Kultury” . Nauka . 332 (6025): 35-36. Kod Bibcode : 2011Sci...332S..35S . doi : 10.1126/science.332.6025.35-c . PMID 21454770 .
- Morse-Gagné, Elise E. (1 kwietnia 2011). „Kulturomika: Pułapki statystyczne zabłocić dane”. Nauka . 332 (6025): 35, odpowiedź autora 36–7. Kod Bibcode : 2011Sci...332R..35S . doi : 10.1126/science.332.6025.35-b . PMID 21454771 .
- Petersen, Aleksander M.; Tenenbauma, Joela; Havlin, Szlomo ; Stanley, H. Eugene (15 marca 2012). „Przepisy statystyczne regulujące fluktuacje w użyciu słowa od narodzin słowa do śmierci słowa” . Raporty naukowe . 2 : 313. arXiv : 1107.3707 . Kod bib : 2012NatSR...2E.313P . doi : 10.1038/srep00313 . PMC 3304511 . PMID 22423321 .
- Petersen, Aleksander M.; Tenenbauma, Joela; Havlin, Szlomo ; Stanley, H. Eugene ; Perc, Matjaz (10 grudnia 2012). „Języki są fajne, gdy się rozwijają: skalowanie allometryczne i malejąca potrzeba nowych słów” . Raporty naukowe . 2 : 943. arXiv : 1212.2616 . Kod bib : 2012NatSR...2E.943P . doi : 10.1038/srep00943 . PMC 3517984 . PMID 23230508 .
- Shea, Krzysztof (16 marca 2012). „Nowa nauka o narodzinach i śmierci słów” . Dziennik Wall Street . Źródło 15 stycznia 2013 .
- Acerbi, Alberto; Lampos, Wasilejos; Garnett, Filip; Bentley, Alexander (20 marca 2013). „Wyrażanie emocji w książkach XX wieku” . PLo 1 . 8 (3): e59030. Kod Bib : 2013PLoSO...859030A . doi : 10.1371/journal.pone.0059030 . PMC 3604170 . PMID 23527080 .
- Bentley, Aleksander; Acerbi, Alberto; Ormerod, Paweł; Lampos, Vasileios (8 stycznia 2014). „Książki Średnia miniona dekada nędzy gospodarczej” . PLo 1 . 9 (1): e83147. Kod Bib : 2014PLoSO...983147B . doi : 10.1371/journal.pone.0083147 . PMC 3885402 . PMID 24416159 .
- Lansdall-Welfare, Thomas; Sudhahar, Saatviga; Thompson, James; Lewisa, Justina; Cristianini, Nello (2017). „Analiza treści 150 lat brytyjskich czasopism” . Materiały Narodowej Akademii Nauk Stanów Zjednoczonych Ameryki . 114 (4): E457–E465. doi : 10.1073/pnas.1606380114 . PMC 5278459 . PMID 28069962 .
Zewnętrzne linki
- Culturomics.org , strona internetowa The Cultural Observatory na Harvardzie kierowana przez Erez Lieberman Aiden i Jean-Baptiste Michel