Przeglądarka Google Ngram — Google Ngram Viewer
Google Ngram Viewer lub Google Books Ngram Viewer jest wyszukiwanie online silnik że wykresy częstotliwości z dowolnego zestawu ciągów wyszukiwania za pomocą rocznie liczyć z n-gramów znaleźć w źródłach drukowanych między 1500 a 2019 w Google „s korpusów tekstu w języku angielskim, chińskim (uproszczony), francuski, niemiecki, hebrajski, włoski, rosyjski lub hiszpański. Istnieje również kilka wyspecjalizowanych angielskich korpusów, takich jak amerykański angielski, brytyjski angielski i angielska fikcja.
Program może wyszukiwać słowo lub frazę , w tym błędy ortograficzne lub bełkot . N-g są dopasowane tekstu w wybranym trzonu, ewentualnie z zastosowaniem przypadku wrażliwych pisowni (porównujący dokładnego zastosowania wielkie litery), a jeśli okaże się 40 lub więcej książek, są wyświetlane w postaci wykresu.
Przeglądarka Google Ngram obsługuje wyszukiwanie części mowy i symboli wieloznacznych . Jest rutynowo stosowany w badaniach.
Historia
Program został opracowany przez Jona Orwanta i Willa Brockmana i wydany w połowie grudnia 2010 roku. Został zainspirowany prototypem o nazwie „Bookworm” stworzonym przez Jean-Baptiste Michela i Ereza Aidena z Harvard's Cultural Observatory oraz Yuan Shen z MIT i Stevena Pinkera .
Przeglądarka Ngram była początkowo oparta na wydaniu Google Books Ngram Corpus z 2009 roku. Od lipca 2020 r. program obsługuje korpusy z lat 2009, 2012 i 2019.
Działanie i ograniczenia
Przecinki oddzielają wyszukiwane hasła wprowadzone przez użytkownika, wskazując każde oddzielne słowo lub frazę do znalezienia. Przeglądarka Ngram zwraca wykreślony wykres liniowy w ciągu kilku sekund od naciśnięcia przez użytkownika klawisza Enter lub przycisku „Szukaj” na ekranie.
W ramach korekty o większą liczbę książek opublikowanych w ciągu kilku lat, dane są znormalizowane , jako poziom względny, według liczby książek opublikowanych w każdym roku.
Ze względu na ograniczenia rozmiaru bazy danych Ngram, w bazie danych indeksowane są tylko dopasowania znalezione w co najmniej 40 książkach; w przeciwnym razie baza danych nie mogłaby przechowywać wszystkich możliwych kombinacji.
Zazwyczaj wyszukiwane hasła nie mogą kończyć się interpunkcją, chociaż można wyszukiwać osobną kropkę (kropkę). Ponadto kończący się znak zapytania (jak w „Dlaczego?”) spowoduje ponowne wyszukanie znaku zapytania osobno.
Pominięcie kropek w skrótach umożliwi formę dopasowania, taką jak użycie „RM S” do wyszukiwania „RMS” w porównaniu z „RMS”.
Korporacja
Korpusy wykorzystywane do poszukiwania składają TOTAL_COUNTS, 1-gramów, 2-gramów, 3-g, 4-gramów, a 5 gramów plików dla każdego języka. Format każdego z plików to dane rozdzielane tabulatorami . Każda linia ma następujący format:
- plik total_counts
- rok TAB match_count TAB page_count TAB volume_count NEWLINE
- Plik ngram w wersji 1 (wygenerowany w lipcu 2009)
- ngram TAB rok TAB match_count TAB page_count TAB volume_count NEWLINE
- Plik ngram w wersji 2 (wygenerowany w lipcu 2012 r.)
- ngram TAB rok TAB match_count TAB volume_count NEWLINE
Przeglądarka Google Ngram używa match_count do wykreślania wykresu.
Na przykład słowo „Wikipedia” z pliku wersji 2 angielskiego 1-gramów jest przechowywane w następujący sposób:
ngram | rok | match_count | volume_count |
---|---|---|---|
Wikipedia | 1904 | 1 | 1 |
Wikipedia | 1912 | 11 | 1 |
Wikipedia | 1924 | 1 | 1 |
Wikipedia | 1925 | 11 | 1 |
Wikipedia | 1929 | 11 | 1 |
Wikipedia | 1943 | 11 | 1 |
Wikipedia | 1946 | 11 | 1 |
Wikipedia | 1947 | 11 | 1 |
Wikipedia | 1949 | 11 | 1 |
Wikipedia | 1951 | 11 | 1 |
Wikipedia | 1953 | 22 | 2 |
Wikipedia | 1955 | 11 | 1 |
Wikipedia | 1958 | 1 | 1 |
Wikipedia | 1961 | 22 | 2 |
Wikipedia | 1964 | 22 | 2 |
Wikipedia | 1965 | 11 | 1 |
Wikipedia | 1966 | 15 | 2 |
Wikipedia | 1969 | 33 | 3 |
Wikipedia | 1970 | 129 | 4 |
Wikipedia | 1971 | 44 | 4 |
Wikipedia | 1972 | 22 | 2 |
Wikipedia | 1973 | 1 | 1 |
Wikipedia | 1974 | 2 | 1 |
Wikipedia | 1975 | 33 | 3 |
Wikipedia | 1976 | 11 | 1 |
Wikipedia | 1977 | 13 | 3 |
Wikipedia | 1978 | 11 | 1 |
Wikipedia | 1979 | 112 | 12 |
Wikipedia | 1980 | 13 | 4 |
Wikipedia | 1982 | 11 | 1 |
Wikipedia | 1983 | 3 | 2 |
Wikipedia | 1984 | 48 | 3 |
Wikipedia | 1985 | 37 | 3 |
Wikipedia | 1986 | 6 | 4 |
Wikipedia | 1987 | 13 | 2 |
Wikipedia | 1988 | 14 | 3 |
Wikipedia | 1990 | 12 | 2 |
Wikipedia | 1991 | 8 | 5 |
Wikipedia | 1992 | 1 | 1 |
Wikipedia | 1993 | 1 | 1 |
Wikipedia | 1994 | 23 | 3 |
Wikipedia | 1995 | 4 | 1 |
Wikipedia | 1996 | 23 | 3 |
Wikipedia | 1997 | 6 | 1 |
Wikipedia | 1998 | 32 | 10 |
Wikipedia | 1999 | 39 | 11 |
Wikipedia | 2000 | 43 | 12 |
Wikipedia | 2001 | 59 | 14 |
Wikipedia | 2002 | 105 | 19 |
Wikipedia | 2003 | 149 | 53 |
Wikipedia | 2004 | 803 | 285 |
Wikipedia | 2005 | 2964 | 911 |
Wikipedia | 2006 | 9818 | 2655 |
Wikipedia | 2007 | 20017 | 5400 |
Wikipedia | 2008 | 33722 | 6825 |
Wykres wykreślony przez przeglądarkę Google Ngram przy użyciu powyższych danych znajduje się tutaj:
Krytyka
Zbiór danych został skrytykowany za to, że opiera się na niedokładnym OCR , nadmiarze literatury naukowej oraz za uwzględnienie dużej liczby błędnie datowanych i skategoryzowanych tekstów. Z powodu tych błędów i braku kontroli stronniczości (takich jak rosnąca ilość literatury naukowej, która powoduje, że inne terminy wydają się tracić popularność), ryzykowne jest używanie tego korpusu do badania języka lub teorii testów. Ponieważ zestaw danych nie zawiera metadanych , może nie odzwierciedlać ogólnej zmiany językowej lub kulturowej i może jedynie wskazywać na taki efekt.
Zaproponowano wytyczne dotyczące prowadzenia badań na danych z Google Ngram, które dotyczą wielu z omówionych powyżej problemów.
Problemy z OCR
Optyczne rozpoznawanie znaków (OCR) nie zawsze jest niezawodne, a niektóre znaki mogą nie być poprawnie skanowane. W szczególności błędy systemowe, takie jak pomylenie „s” i „f” w tekstach sprzed XIX wieku (ze względu na użycie długiego s, które było podobne z wyglądu do „f”), mogą powodować błędy systemowe. Chociaż Google Ngram Viewer twierdzi, że wyniki są wiarygodne od 1800 r., słaby OCR i niewystarczające dane oznaczają, że częstotliwości podawane dla języków takich jak chiński mogą być dokładne dopiero od 1970 r., a wcześniejsze części korpusu nie wykazują żadnych wyników dla popularnych terminów , oraz dane z kilku lat zawierające ponad 50% szumu.
Zobacz też
Bibliografia
Bibliografia
-
Lin, Jurij; i in. (lipiec 2012). „Adnotacje składniowe dla Google Books Ngram Corpus” (PDF) . Obrady 50. Walnego Zgromadzenia . Dokumenty demonstracyjne. Jeju, Republika Korei: Stowarzyszenie Lingwistyki Komputerowej. 2 : 169–174. 2390499.
oficjalny dokument przedstawiający edycję Google Books Ngram Corpus 2012