Przeglądarka Google Ngram — Google Ngram Viewer

Google Ngram Viewer lub Google Books Ngram Viewer jest wyszukiwanie online silnik że wykresy częstotliwości z dowolnego zestawu ciągów wyszukiwania za pomocą rocznie liczyć z n-gramów znaleźć w źródłach drukowanych między 1500 a 2019 w Google „s korpusów tekstu w języku angielskim, chińskim (uproszczony), francuski, niemiecki, hebrajski, włoski, rosyjski lub hiszpański. Istnieje również kilka wyspecjalizowanych angielskich korpusów, takich jak amerykański angielski, brytyjski angielski i angielska fikcja.

Program może wyszukiwać słowo lub frazę , w tym błędy ortograficzne lub bełkot . N-g są dopasowane tekstu w wybranym trzonu, ewentualnie z zastosowaniem przypadku wrażliwych pisowni (porównujący dokładnego zastosowania wielkie litery), a jeśli okaże się 40 lub więcej książek, są wyświetlane w postaci wykresu.

Przeglądarka Google Ngram obsługuje wyszukiwanie części mowy i symboli wieloznacznych . Jest rutynowo stosowany w badaniach.

Historia

Program został opracowany przez Jona Orwanta i Willa Brockmana i wydany w połowie grudnia 2010 roku. Został zainspirowany prototypem o nazwie „Bookworm” stworzonym przez Jean-Baptiste Michela i Ereza Aidena z Harvard's Cultural Observatory oraz Yuan Shen z MIT i Stevena Pinkera .

Przeglądarka Ngram była początkowo oparta na wydaniu Google Books Ngram Corpus z 2009 roku. Od lipca 2020 r. program obsługuje korpusy z lat 2009, 2012 i 2019.

Działanie i ograniczenia

Przecinki oddzielają wyszukiwane hasła wprowadzone przez użytkownika, wskazując każde oddzielne słowo lub frazę do znalezienia. Przeglądarka Ngram zwraca wykreślony wykres liniowy w ciągu kilku sekund od naciśnięcia przez użytkownika klawisza Enter lub przycisku „Szukaj” na ekranie.

W ramach korekty o większą liczbę książek opublikowanych w ciągu kilku lat, dane są znormalizowane , jako poziom względny, według liczby książek opublikowanych w każdym roku.

Ze względu na ograniczenia rozmiaru bazy danych Ngram, w bazie danych indeksowane są tylko dopasowania znalezione w co najmniej 40 książkach; w przeciwnym razie baza danych nie mogłaby przechowywać wszystkich możliwych kombinacji.

Zazwyczaj wyszukiwane hasła nie mogą kończyć się interpunkcją, chociaż można wyszukiwać osobną kropkę (kropkę). Ponadto kończący się znak zapytania (jak w „Dlaczego?”) spowoduje ponowne wyszukanie znaku zapytania osobno.

Pominięcie kropek w skrótach umożliwi formę dopasowania, taką jak użycie „RM S” do wyszukiwania „RMS” w porównaniu z „RMS”.

Korporacja

Korpusy wykorzystywane do poszukiwania składają TOTAL_COUNTS, 1-gramów, 2-gramów, 3-g, 4-gramów, a 5 gramów plików dla każdego języka. Format każdego z plików to dane rozdzielane tabulatorami . Każda linia ma następujący format:

  • plik total_counts
    rok TAB match_count TAB page_count TAB volume_count NEWLINE
  • Plik ngram w wersji 1 (wygenerowany w lipcu 2009)
    ngram TAB rok TAB match_count TAB page_count TAB volume_count NEWLINE
  • Plik ngram w wersji 2 (wygenerowany w lipcu 2012 r.)
    ngram TAB rok TAB match_count TAB volume_count NEWLINE

Przeglądarka Google Ngram używa match_count do wykreślania wykresu.

Na przykład słowo „Wikipedia” z pliku wersji 2 angielskiego 1-gramów jest przechowywane w następujący sposób:

ngram rok match_count volume_count
Wikipedia 1904 1 1
Wikipedia 1912 11 1
Wikipedia 1924 1 1
Wikipedia 1925 11 1
Wikipedia 1929 11 1
Wikipedia 1943 11 1
Wikipedia 1946 11 1
Wikipedia 1947 11 1
Wikipedia 1949 11 1
Wikipedia 1951 11 1
Wikipedia 1953 22 2
Wikipedia 1955 11 1
Wikipedia 1958 1 1
Wikipedia 1961 22 2
Wikipedia 1964 22 2
Wikipedia 1965 11 1
Wikipedia 1966 15 2
Wikipedia 1969 33 3
Wikipedia 1970 129 4
Wikipedia 1971 44 4
Wikipedia 1972 22 2
Wikipedia 1973 1 1
Wikipedia 1974 2 1
Wikipedia 1975 33 3
Wikipedia 1976 11 1
Wikipedia 1977 13 3
Wikipedia 1978 11 1
Wikipedia 1979 112 12
Wikipedia 1980 13 4
Wikipedia 1982 11 1
Wikipedia 1983 3 2
Wikipedia 1984 48 3
Wikipedia 1985 37 3
Wikipedia 1986 6 4
Wikipedia 1987 13 2
Wikipedia 1988 14 3
Wikipedia 1990 12 2
Wikipedia 1991 8 5
Wikipedia 1992 1 1
Wikipedia 1993 1 1
Wikipedia 1994 23 3
Wikipedia 1995 4 1
Wikipedia 1996 23 3
Wikipedia 1997 6 1
Wikipedia 1998 32 10
Wikipedia 1999 39 11
Wikipedia 2000 43 12
Wikipedia 2001 59 14
Wikipedia 2002 105 19
Wikipedia 2003 149 53
Wikipedia 2004 803 285
Wikipedia 2005 2964 911
Wikipedia 2006 9818 2655
Wikipedia 2007 20017 5400
Wikipedia 2008 33722 6825

Wykres wykreślony przez przeglądarkę Google Ngram przy użyciu powyższych danych znajduje się tutaj:

Krytyka

Zbiór danych został skrytykowany za to, że opiera się na niedokładnym OCR , nadmiarze literatury naukowej oraz za uwzględnienie dużej liczby błędnie datowanych i skategoryzowanych tekstów. Z powodu tych błędów i braku kontroli stronniczości (takich jak rosnąca ilość literatury naukowej, która powoduje, że inne terminy wydają się tracić popularność), ryzykowne jest używanie tego korpusu do badania języka lub teorii testów. Ponieważ zestaw danych nie zawiera metadanych , może nie odzwierciedlać ogólnej zmiany językowej lub kulturowej i może jedynie wskazywać na taki efekt.

Zaproponowano wytyczne dotyczące prowadzenia badań na danych z Google Ngram, które dotyczą wielu z omówionych powyżej problemów.

Problemy z OCR

Optyczne rozpoznawanie znaków (OCR) nie zawsze jest niezawodne, a niektóre znaki mogą nie być poprawnie skanowane. W szczególności błędy systemowe, takie jak pomylenie „s” i „f” w tekstach sprzed XIX wieku (ze względu na użycie długiego s, które było podobne z wyglądu do „f”), mogą powodować błędy systemowe. Chociaż Google Ngram Viewer twierdzi, że wyniki są wiarygodne od 1800 r., słaby OCR i niewystarczające dane oznaczają, że częstotliwości podawane dla języków takich jak chiński mogą być dokładne dopiero od 1970 r., a wcześniejsze części korpusu nie wykazują żadnych wyników dla popularnych terminów , oraz dane z kilku lat zawierające ponad 50% szumu.

Zobacz też

Bibliografia

Bibliografia

Zewnętrzne linki