Korpus tekstu - Text corpus
W językoznawstwie , A corpus (liczba mnoga korpusy ) lub korpus jest zasobem język składający się z dużego i uporządkowany zestaw tekstów (obecnie zazwyczaj przechowywane i przetwarzane elektronicznie). W językoznawstwie korpusowym służą do analizy statystycznej i testowania hipotez , sprawdzania wystąpień lub walidacji reguł językowych na określonym terytorium językowym.
Przegląd
Korpus może zawierać teksty w jednym języku ( korpus jednojęzyczny ) lub dane tekstowe w wielu językach ( korpus wielojęzyczny ).
Aby korpusy były bardziej przydatne do prowadzenia badań językowych, często poddaje się je procesowi zwanemu adnotacją . Przykładem adnotacji korpusu jest tagowanie części mowy lub tagowanie POS , w którym informacje o części mowy każdego słowa (czasownik, rzeczownik, przymiotnik itp.) Są dodawane do korpusu w postaci tagów . Innym przykładem jest wskazanie lematu (podstawy) każdego słowa. Kiedy język korpusu nie jest językiem roboczym badaczy, którzy go używają, stosuje się glosowanie międzyliniowe, aby uczynić adnotację dwujęzyczną.
W niektórych korpusach zastosowano bardziej ustrukturyzowane poziomy analizy. W szczególności można w pełni przeanalizować szereg mniejszych korpusów . Takie ciała są zwykle nazywane Bankami Drzew lub Parsed Corpora . Trudność w zapewnieniu, że cały korpus jest kompletny i spójny, oznacza, że korpusy te są zwykle mniejsze i zawierają od około jednego do trzech milionów słów. Możliwe są inne poziomy strukturalnej analizy językowej, w tym adnotacje dotyczące morfologii , semantyki i pragmatyki .
Aplikacje
Korpora to główna baza wiedzy w językoznawstwie korpusowym . Inne godne uwagi obszary zastosowań obejmują:
-
Technologia język , przetwarzanie języka naturalnego , lingwistyka komputerowa
- Analiza i przetwarzanie różnych typów korpusów jest również przedmiotem wielu prac w lingwistyce komputerowej , rozpoznawaniu mowy i tłumaczeniu maszynowym , gdzie często są wykorzystywane do tworzenia ukrytych modeli Markowa dla części znakowania mowy i innych celów. Wyprowadzone z nich korpusy i listy częstotliwości są przydatne w nauczaniu języków . Korpora można uznać za rodzaj pomocy w pisaniu w języku obcym, ponieważ kontekstualna wiedza gramatyczna zdobywana przez obcokrajowców poprzez kontakt z autentycznymi tekstami w korpusach pozwala uczniom zrozumieć sposób formułowania zdań w języku docelowym, umożliwiając efektywne pisanie.
-
Tłumaczenie maszynowe
- Wielojęzyczne korpusy, które zostały specjalnie sformatowane do porównań side-by-side, nazywane są wyrównanymi korpusami równoległymi . Istnieją dwa główne typy korpusów równoległych, które zawierają teksty w dwóch językach. W korpusie tłumaczeniowym teksty w jednym języku są tłumaczeniami tekstów w drugim języku. W porównywalnym korpusie teksty są tego samego rodzaju i obejmują tę samą treść, ale nie są wzajemnymi tłumaczeniami. Aby wykorzystać tekst równoległy, warunkiem wstępnym analizy jest pewnego rodzaju wyrównanie tekstu identyfikujące równoważne segmenty tekstu (frazy lub zdania). Algorytmy tłumaczenia maszynowego do tłumaczenia między dwoma językami są często uczone przy użyciu równoległych fragmentów składających się z korpusu pierwszego języka i korpusu drugiego języka, który jest tłumaczeniem element po elemencie korpusu pierwszego języka.
-
Filologie
- Korpora tekstowe są również wykorzystywane przy badaniu dokumentów historycznych , na przykład przy próbach rozszyfrowania starożytnych pism czy w badaniach biblijnych . Niektóre korpusy archeologiczne mogą być tak krótkie, że zapewniają migawkę w czasie. Jednym z najkrótszych korpusów w czasie mogą być teksty listów z Amarny z 15–30 lat ( 1350 pne ). Corpus starożytnego miasta (na przykład „ Kültepe Teksty” z Turcji), mogą przejść przez serię korpusów, ustalonej według daty miejscu znaleźć.
Niektóre znaczące korpusy tekstowe
Zobacz też
- Zgodność
- Językoznawstwo korpusowe
- Dystrybucyjno-relacyjna baza danych
- Linguistic Data Consortium
- Przetwarzanie języka naturalnego
- Zestaw narzędzi języka naturalnego
- Równoległe wyrównanie tekstu
- Wyszukiwarki : uzyskują dostęp do „korpusu internetowego”.
- Korpus mowy
- Pamięć tłumaczeń
- Treebank
- Prawo Zipfa
Bibliografia
Linki zewnętrzne
- ACL SIGLEX Linki do zasobów: Korporacja tekstowa zarchiwizowana 13.08.2013 w Wayback Machine
- Developing Linguistic Corpora: przewodnik po dobrych praktykach
- Bezpłatne próbki (płatne), korporacje internetowe (po 45-425 milionów słów): amerykańskie (COCA, COHA, TIME), brytyjskie (BNC), hiszpańskie, portugalskie
- Intercorp Budowanie synchronicznych równoległych korpusów języków wykładanych na Wydziale Sztuki Uniwersytetu Karola.
- Silnik szkicu: otwarte korpusy z bezpłatnym dostępem
- TS Corpus - turecki korpus swobodnie dostępny do badań akademickich.
- Turecki korpus narodowy - korpus ogólnego przeznaczenia dla współczesnego języka tureckiego
- Corpus of Political Speeches , bezpłatny dostęp do przemówień politycznych amerykańskich i chińskich polityków, opracowany przez Hong Kong Baptist University Library