Bank drzew - Treebank

Większość banków drzew składniowych opisuje warianty struktury fraz (po lewej) lub struktury zależności (po prawej).

W językoznawstwie , A bank drzew jest sparsowaną korpus że annotates syntaktycznej lub semantycznej zdania strukturę. Konstrukcja analizowanych korpusów na początku lat 90. zrewolucjonizowała lingwistykę komputerową , która korzystała z danych empirycznych na dużą skalę .

Etymologia

Termin bank drzew został ukuty przez językoznawcę Geoffreya Leecha w latach 80., przez analogię do innych repozytoriów, takich jak bank nasion lub bank krwi . Dzieje się tak dlatego, że zarówno struktura syntaktyczna, jak i semantyczna są powszechnie reprezentowane kompozycyjnie jako struktura drzewiasta . Termin parsed corpus jest często używany zamiennie z terminem treebank, z naciskiem na prymat zdań, a nie drzew.

Budowa

Banki drzew są często tworzone na szczycie korpusu, który został już opatrzony adnotacjami tagami części mowy . Z kolei banki drzew są czasami wzbogacane o informacje semantyczne lub inne informacje językowe. Treebanki mogą być tworzone całkowicie ręcznie, gdzie lingwiści przypisują każde zdanie strukturą syntaktyczną, lub półautomatycznie, gdzie parser przypisuje pewną strukturę syntaktyczną, którą lingwiści sprawdzają i, jeśli to konieczne, poprawiają. W praktyce pełne sprawdzenie i zakończenie parsowania korpusów języka naturalnego jest pracochłonnym projektem, który może zająć zespołom absolwentów lingwistów kilka lat. Poziom szczegółowości adnotacji i szerokość próby językowej określają trudność zadania i czas potrzebny do zbudowania banku drzew.

Przykładowe drzewo struktury frazy dla Jana kocha Mary
Hybrydowe drzewo okręgów/zależności z Koranu Arabskiego

Niektóre treebanks śledzić konkretną teorię językowej w ich składniowej adnotacji (np BulTreeBank następująco HPSG ) ale większość staram się być mniej teoria specyficzne. Można jednak wyróżnić dwie główne grupy: banki drzew, które opisują strukturę fraz (np. Penn Treebank lub ICE-GB ) oraz te, które opisują strukturę zależności (np. Prague Dependency Treebank lub Quranic Arabic Dependency Treebank ).

Ważne jest, aby wyjaśnić rozróżnienie między formalną reprezentacją a formatem pliku używanym do przechowywania danych z adnotacjami. Banki drzew są z konieczności konstruowane zgodnie z konkretną gramatyką. Ta sama gramatyka może być zaimplementowana w różnych formatach plików. Na przykład, analiza składniowa John loves Mary , pokazana na rysunku po prawej, może być reprezentowana przez proste nawiasy w pliku tekstowym, tak jak poniżej (zgodnie z notacją Penn Treebank ):

(S (NP (NNP John))
   (VP (VPZ loves)
       (NP (NNP Mary)))
   (. .))

Ten rodzaj reprezentacji jest popularny, ponieważ nie wykorzystuje zasobów, a struktura drzewa jest stosunkowo łatwa do odczytania bez narzędzi programowych. Jednak w miarę jak korpusy stają się coraz bardziej złożone, preferowane mogą być inne formaty plików. Alternatywy obejmują schematy XML specyficzne dla banku drzewa , wcięcia numerowane i różne typy notacji odstającej .

Aplikacje

Z perspektywy lingwistyki komputerowej banki drzew zostały wykorzystane do projektowania najnowocześniejszych systemów przetwarzania języka naturalnego, takich jak znaczniki części mowy , parsery , analizatory semantyczne i systemy tłumaczenia maszynowego. Większość systemów obliczeniowych wykorzystuje dane banku drzew o złotym standardzie. Jednak automatycznie analizowany korpus, który nie jest korygowany przez lingwistów, może być nadal przydatny. Może dostarczyć dowodu na częstotliwość reguł dla parsera. Parser można ulepszyć, stosując go do dużej ilości tekstu i zbierając częstotliwości reguł. Powinno być jednak oczywiste, że tylko poprzez proces ręcznego poprawiania i uzupełniania korpusu można wtedy zidentyfikować reguły nieobecne w bazie wiedzy parsera. Ponadto częstotliwości będą prawdopodobnie dokładniejsze.

W lingwistyce korpusowej banki drzew są wykorzystywane do badania zjawisk syntaktycznych (na przykład korpusy diachroniczne mogą służyć do badania przebiegu zmian składniowych w czasie). Po przeanalizowaniu korpus będzie zawierał dowody częstotliwości pokazujące, jak często używane są różne struktury gramatyczne. Banki drzew dostarczają również dowodów na pokrycie i wspierają odkrywanie nowych, nieoczekiwanych zjawisk gramatycznych.

Innym zastosowaniem banków drzew w lingwistyce teoretycznej i psycholingwistyce jest dowód interakcji. Ukończony bank drzew może pomóc językoznawcom w przeprowadzeniu eksperymentów dotyczących tego, w jaki sposób decyzja o użyciu jednej konstrukcji gramatycznej wpływa na decyzję o tworzeniu innych, a także w próbie zrozumienia, w jaki sposób mówcy i pisarze podejmują decyzje podczas tworzenia zdań. Badania interakcji są szczególnie owocne, gdy do korpusu dodawane są kolejne warstwy adnotacji, np. semantyczna, pragmatyczna. Następnie można ocenić wpływ zjawisk niesyntaktycznych na wybory gramatyczne.

W badaniach językoznawczych dane z banku drzew z adnotacjami zostały wykorzystane w badaniach składniowych do testowania lingwistycznych teorii struktury zdań z dużą ilością naturalnie występujących przykładów.

Semantyczne banki drzew

Bank drzewa semantycznego to zbiór zdań w języku naturalnym, opatrzonych adnotacjami reprezentacji znaczenia. Zasoby te wykorzystują formalną reprezentację struktury semantycznej każdego zdania . Semantyczne banki drzew różnią się głębokością swojej reprezentacji semantycznej. Godnym uwagi przykładem głębokiej adnotacji semantycznej jest Groningen Meaning Bank , opracowany na Uniwersytecie w Groningen i opatrzony adnotacjami przy użyciu teorii reprezentacji dyskursu . Przykładem płytkiego banku drzewa semantycznego jest PropBank , który zapewnia adnotacje zdań werbalnych i ich argumentów, bez próby przedstawienia każdego słowa w korpusie w formie logicznej .

Język Drzewobank Formalizm semantyczny Dystrybucja / Licencja
chiński Chińskie propozycje uniwersalne Semantyka PropBanku CC BY-NC-SA 3.0 US
język angielski Streszczenie Znaczenie Reprezentacja (AMR) Bank Głęboka semantyka ?
język angielski Sieć ramek Płytka semantyka ?
język angielski Uniwersalna pojęciowa adnotacja poznawcza (UCCA) Głęboka semantyka ?
język angielski Drzewo poleceń robota Głęboka semantyka ?
język angielski Groningen Znaczenie Banku Głęboka semantyka ?
język angielski Projekt DeepBank Głęboka semantyka ?
język angielski Przeanalizowany korpus z Semantyki Treebank Głęboka semantyka ?
język angielski RoboCup Corpus Głęboka semantyka ?
język angielski Geozapytanie Głęboka semantyka ?
język angielski PropBank Semantyka PropBanku różne licencje
fiński Fińskie propozycje uniwersalne Semantyka PropBanku CC BY-NC-SA 3.0 US
fiński fiński PropBank Semantyka PropBanku CC BY-SA 4.0
Francuski Francuskie propozycje uniwersalne Semantyka PropBanku CC BY-NC-SA 3.0 US
Niemiecki Niemieckie propozycje uniwersalne Semantyka PropBanku CC BY-NC-SA 3.0 US
Włoski Włoskie propozycje uniwersalne Semantyka PropBanku CC BY-NC-SA 3.0 US
portugalski Portugalski PortLex Semantyka PropBanku ?
portugalski Uniwersalne propozycje portugalskie Semantyka PropBanku CC BY-NC-SA 3.0 US
hiszpański Hiszpańskie propozycje uniwersalne Semantyka PropBanku CC BY-NC-SA 3.0 US
turecki Turecki PropBank Semantyka PropBanku CC BY-NC-SA 4.0

Syntaktyczne banki drzew

Opracowano wiele banków drzew składniowych dla wielu różnych języków:

Język Drzewobank Formalizm syntaktyczny Dystrybucja / Licencja
Abaza Zależności uniwersalne , ATB Zależność CC BY-SA
afrykanerski Uniwersalne zależności , AfriBooms Zależność CC BY-SA
akadyjski Uniwersalne zależności , PISANDUB Zależność CC BY-SA
albański Uniwersalne zależności , TSA Zależność CC BY-SA
amharski Zależności uniwersalne , ATT Zależność CC BY-SA
Starożytna greka Uniwersalne zależności , Perseusz Zależność CC BY-NC-SA
Starożytna greka Uniwersalne zależności , PROIEL Zależność CC BY-NC-SA
grecki (starożytny) Drzewo zależności w starożytnej Grecji Zależność Open source ( licencja Creative Commons )
grecki (starożytny) PROIEL Treebank Zależność Open source ( licencja Creative Commons )
arabski Kolumbia Arabski Treebank (CATiB) Zależność Konsorcjum Danych Językowych
arabski Praski bank drzewa zależności arabskich (PADT) Zależność Konsorcjum Danych Językowych
arabski Uniwersalne zależności , NYUAD Zależność CC BY-SA
arabski Zależności uniwersalne , PADT Zależność CC BY-NC-SA
arabski Uniwersalne zależności , PUD Zależność CC BY-SA
arabski Penn arabski drzewobank Struktura fraz Konsorcjum Danych Językowych
ormiański Uniwersalne zależności , ArmTDP Zależność CC BY-SA
asyryjski (neoaramejski) Zależności uniwersalne , AS Zależność CC BY-SA
Bambara Zależności uniwersalne , CRB Zależność CC BY-SA
baskijski Uniwersalne zależności , BDT Zależność CC BY-NC-SA
białoruski Zależności uniwersalne , HSE Zależność CC BY-SA
Bhojpuri Uniwersalne zależności , BhEn Zależność CC BY-SA
Bhojpuri Uniwersalne zależności , BHTB Zależność CC BY-SA
bretoński Zależności uniwersalne , KEB Zależność CC BY-SA
bułgarski Uniwersalne zależności , BTB Zależność CC BY-NC-SA
bułgarski BulTreeBank HPSG Swobodnie dostępne do badań
Buriacja Uniwersalne zależności , BDT Zależność CC BY-SA
kantoński Zależności uniwersalne , HK Zależność CC BY-SA
kataloński Cat3LB Struktura fraz Swobodnie dostępne do badań
kataloński Uniwersalne zależności , AnCora Zależność GPL
chiński Sinica Treebank Gramatyka przypadku Niedostępne bezpłatnie
chiński Zależności uniwersalne , CFL Zależność CC BY-SA
chiński Uniwersalne zależności , GSD Zależność CC BY-SA
chiński Uniwersalne zależności , GSDSimp Zależność CC BY-SA
chiński Zależności uniwersalne , HK Zależność CC BY-SA
chiński Uniwersalne zależności , PUD Zależność CC BY-SA
chiński Chiński bank drzew Penn Struktura fraz Konsorcjum Danych Językowych
chiński Chiński bank zależności Zależność Konsorcjum Danych Językowych
arabski (klasyczny) Drzewo zależności koranowo-arabskich (QADT) ( korpus koranowo- arabski ) Zależność Open source ( powszechna licencja publiczna GNU )
klasyczny ormiański PROIEL Treebank Zależność Open source ( licencja Creative Commons )
koptyjski Zależności uniwersalne , Skryptorium koptyjskie Zależność CC BY
chorwacki Chorwacki bank zależności Zależność Open source ( licencja Creative Commons )
chorwacki Zależności uniwersalne , SET Zależność CC BY-SA
Czech Drzewo zależności w Pradze Zależność Open source ( licencja Creative Commons )
Czech Uniwersalne zależności , CAC Zależność CC BY-SA
Czech Zależności uniwersalne , CLTT Zależność CC BY-SA
Czech Uniwersalne zależności , FicTree Zależność CC BY-NC-SA
Czech Uniwersalne zależności , PDT Zależność CC BY-NC-SA
Czech Uniwersalne zależności , PUD Zależność CC BY-SA
duński Duński bank zależności Zależność Open source ( powszechna licencja publiczna GNU )
duński Arboretum: korpus drzewa syntaktycznego języka duńskiego Struktura fraz Opłata za licencję
duński Zależności uniwersalne , DDT Zależność CC BY-SA
duński Uniwersalne zależności , DTB Zależność CC BY-SA
holenderski Mówiony korpus holenderski (CGN) Struktura fraz Opłata za licencję
holenderski Zależności uniwersalne , Alpino Zależność CC BY-SA
holenderski Uniwersalne zależności , LassySmall Zależność CC BY-SA
holenderski LASSY Małe i Duże Zależność Opłata za licencję
holenderski Ławica Alpino Zależność Open source ( powszechna licencja publiczna GNU )
język angielski CCGbank Kombinacyjna gramatyka kategorialna Konsorcjum Danych Językowych
język angielski LinGO Sekwoje HPSG ?
język angielski Lancaster przeanalizowany korpus Struktura fraz ?
język angielski Angielski bank zależności w Pradze Zależność Konsorcjum Danych Językowych
język angielski Uniwersalne zależności , BhEn Zależność CC BY-SA
język angielski Uniwersalne zależności , ESL Zależność CC BY-SA
język angielski Uniwersalne zależności , EWT Zależność CC BY-SA
język angielski Uniwersalne zależności , GUM Zależność CC BY-NC-SA
język angielski Uniwersalne zależności , GUMReddit Zależność CC BY
język angielski Zależności uniwersalne , LineES Zależność CC BY-NC-SA
język angielski Uniwersalne zależności , PartTUT Zależność CC BY-NC-SA
język angielski Zależności uniwersalne , zaimki Zależność CC BY-SA
język angielski Uniwersalne zależności , PUD Zależność CC BY-SA
język angielski Przeanalizowany korpus z Semantyki Treebank Struktura fraz Open source ( licencja Creative Commons )
język angielski Christine Corpus Struktura fraz Swobodnie dostępne do badań
język angielski Lucy Corpus Struktura fraz Swobodnie dostępne do badań
język angielski Susanne Corpus Struktura fraz Swobodnie dostępne do badań
język angielski BLLIP WSJ korpus Struktura fraz Konsorcjum Danych Językowych
język angielski Tübingen Treebank of English / Spontanous Speech (TüBa-E/S) HPSG Swobodnie dostępne do badań
język angielski Diachroniczny Korpus Współczesnego Języka Angielskiego (DCPSE) Struktura fraz Opłata za licencję
język angielski Brytyjski komponent Międzynarodowego Korpusu Języka Angielskiego (ICE-GB) Struktura fraz Opłata za licencję
język angielski Bank Zależności PARC 700 Zależność ?
język angielski Bank drzew zapytań Yahoo Zależność Swobodnie dostępne do badań
język angielski Penn Treebank Struktura fraz Konsorcjum Danych Językowych
język angielski Bank wielu drzew Struktura fraz Dostępne online w celach porównawczych
język angielski Korpus DZIECI Brown Eve z adnotacją zależności Zależność Open source ( licencja Creative Commons )
język angielski SMULTRON - Równoległy bank drzew EN-DE-SV Struktura fraz Swobodnie dostępne do badań
Erzya Zależności uniwersalne , JR Zależność CC BY-SA
estoński Arborest Struktura fraz ?
estoński Syntaktycznie analizowany i ujednoznaczniony korpus tekstowy Zależność Swobodnie dostępne do badań
estoński Uniwersalne zależności , EDT Zależność CC BY-NC-SA
estoński Uniwersalne zależności , EWT Zależność CC BY-NC-SA
farerski Uniwersalne zależności , FarPaHC Zależność CC BY-SA
farerski Zależności uniwersalne , OFT Zależność CC BY-SA
fiński Drzewo zależności w Turku (TDT) Zależność Open source ( licencja Creative Commons )
fiński Uniwersalne zależności , FTB Zależność CC BY
fiński Uniwersalne zależności , PUD Zależność CC BY-SA
fiński Uniwersalne zależności , TDT Zależność CC BY-SA
francuski (mówiony) Rapsodia Zależność i adnotacja makrosyntaktyczna Open source ( licencja Creative Commons )
Francuski L'Arboratoire Struktura fraz ?
Francuski Uniwersalne zależności , CrapBank Zależność CC BY-SA
Francuski Uniwersalne zależności , FQB Zależność GPL
Francuski Uniwersalne zależności , FTB Zależność GPL
Francuski Uniwersalne zależności , GSD Zależność CC BY-SA
Francuski Uniwersalne zależności , PartTUT Zależność CC BY-NC-SA
Francuski Uniwersalne zależności , PUD Zależność CC BY-SA
Francuski Zależności uniwersalne , sekwoja Zależność GPL
Francuski Uniwersalne zależności , Mówione Zależność CC BY-SA
Francuski Francuski bank drzew Struktura fraz Swobodnie dostępne do badań
Francuski Bezpłatny francuski bank drzew Struktura fraz Licencja Open Source LGPL-LR
Francuski Sekwoja Treebank Struktura fraz i zależność Licencja Open Source LGPL-LR
galicyjski Uniwersalne zależności , KTG Zależność CC BY-NC-SA
galicyjski Uniwersalne zależności , TreeGal Zależność GPL
Niemiecki Bank zależności w Hamburgu (HDT) Zależność Swobodnie dostępne do badań
Niemiecki Uniwersalne zależności , GSD Zależność CC BY-SA
Niemiecki Zależności uniwersalne , LIT Zależność CC BY-NC-SA
Niemiecki Uniwersalne zależności , PUD Zależność CC BY-SA
Niemiecki SMULTRON - Równoległy bank drzew EN-DE-SV Struktura fraz Swobodnie dostępne do badań
Niemiecki NEGRA Struktura fraz Swobodnie dostępne do badań
Niemiecki TYGRYS Struktura fraz Swobodnie dostępne do badań
Niemiecki Tübingen Treebank niemieckiej/spontanicznej mowy (TüBa-D/S) Struktura fraz Swobodnie dostępne do badań
Niemiecki Tübingen Treebank pisanego języka niemieckiego (TüBa-D/Z) Struktura fraz Swobodnie dostępne do badań
Niemiecki Tybinga częściowo przeanalizowany korpus pisanego języka niemieckiego (TüPP-D/Z) Struktura fraz Opłata za licencję
gotyk PROIEL Treebank Zależność Open source ( licencja Creative Commons )
gotyk Uniwersalne zależności , PROIEL Zależność CC BY-NC-SA
grecki Grecki bank zależności Zależność Niedostępne bezpłatnie
grecki Uniwersalne zależności , GDT Zależność CC BY-NC-SA
hebrajski Uniwersalne zależności , HTB Zależność CC BY-NC-SA
hebrajski Hebrajski bank zależności Zależność Open source ( powszechna licencja publiczna GNU )
hindi angielski Uniwersalne zależności , HIENCS Zależność CC BY-SA
hinduski Uniwersalne zależności , HDTB Zależność CC BY-NC-SA
hinduski Uniwersalne zależności , PUD Zależność CC BY-SA
hinduski AnnCorra Zależność ?
angielski (historyczny) Penn Parsed Corpora of Historical English ; Struktura fraz Konsorcjum Danych Językowych (stan na kwiecień 2020 r.)
angielski (historyczny) York-Toronto-Helsinki przeanalizowany korpus prozy staroangielskiej (YCOE) Struktura fraz Swobodnie dostępne do badań
francuski (historyczny) Korpus MCVF Struktura fraz Swobodnie dostępne do badań
portugalski (historyczny) Korpus Tycho Brahe Struktura fraz ?
język węgierski Zależności uniwersalne , Szeged Zależność CC BY-NC-SA
język węgierski Węgierski Bank Drzew Struktura fraz ?
islandzki IcePaHC — islandzki parsowany korpus historyczny Struktura fraz Open source ( GNU Lesser General Public License )
islandzki Zależności uniwersalne , IcePaHC Zależność CC BY-SA
islandzki Uniwersalne zależności , PUD Zależność CC BY-SA
indonezyjski Uniwersalne zależności , GSD Zależność CC BY-SA
indonezyjski Uniwersalne zależności , PUD Zależność CC BY-SA
Irlandczyk Uniwersalne zależności , IDT Zależność CC BY-SA
Włoski ISST — włoski bank drzew syntaktyczno-semantycznych Struktura fraz i zależność Opłata za licencję
Włoski MIDT (Merged Italian Dependency Treebank) powstały w wyniku połączenia i harmonizacji banków drzew TUT i ISST-CoNLL/TANL zależność Swobodnie dostępne do badań
Włoski VIT - Wenecja Italian Treebank Struktura fraz i zależność Opłata za licencję
Włoski Uniwersalne zależności , ISDT Zależność CC BY-NC-SA
Włoski Uniwersalne zależności , PartTUT Zależność CC BY-NC-SA
Włoski Uniwersalne zależności , PoSTWITA Zależność CC BY-NC-SA
Włoski Uniwersalne zależności , PUD Zależność CC BY-SA
Włoski Uniwersalne zależności , TWITTIRO Zależność CC BY-SA
Włoski Zależności uniwersalne , VIT Zależność CC BY-NC-SA
Włoski Włoski bank drzew syntaktyczno-semantycznych dla zadania współdzielonego CoNLL-2007 (ISST-CoNLL) zależność Swobodnie dostępne do badań
Włoski SUT - Bank drzew Uniwersytetu Siena ? ?
Włoski TUT - Bank drzew Uniwersytetu w Turynie Zależność Open source ( licencja Creative Commons )
Włoski ISDT (włoski bank zależności Stanford) zależność Swobodnie dostępne do badań
język japoński Korpus tekstowy z Kioto ? ?
język japoński Uniwersalne zależności , BCCWJ Zależność CC BY-NC-SA
język japoński Uniwersalne zależności , GSD Zależność CC BY-SA
język japoński Uniwersalne zależności , KTC Zależność CC BY-SA
język japoński Uniwersalne zależności , Nowoczesne Zależność CC BY-NC-ND
język japoński Uniwersalne zależności , PUD Zależność CC BY-SA
język japoński Keyaki Treebank Struktura fraz Open source ( licencja Creative Commons )
język japoński Bank drzew japońskiej/spontanicznej mowy w Tybindze (TüBa-J/S) Struktura fraz Swobodnie dostępne do badań
język japoński Korpus zależności ATR Zależność ?
karelski Zależności uniwersalne , KKPP Zależność CC BY-SA
kazachski Uniwersalne zależności , KTB Zależność CC BY-SA
Komi Permyak Uniwersalne zależności , UH Zależność CC BY-SA
Komi Zyrian Zależności uniwersalne , IKDP Zależność CC BY-SA
Komi Zyrian Zależności uniwersalne , Krata Zależność CC BY-SA
koreański Uniwersalne zależności , GSD Zależność CC BY-SA
koreański Zależności uniwersalne , Kaist Zależność CC BY-SA
koreański Zależności uniwersalne , Penn Zależność CC BY-SA
koreański Uniwersalne zależności , PUD Zależność CC BY-SA
koreański Uniwersalne zależności , Sejong Zależność CC BY-SA
koreański Koreański bank drzew Struktura fraz Konsorcjum Danych Językowych
Kurmandżi Zależności uniwersalne , MG Zależność CC BY-SA
łacina Uniwersalne zależności , ITTB Zależność CC BY-NC-SA
łacina Zależności uniwersalne , LLCT Zależność CC BY-SA
łacina Uniwersalne zależności , Perseusz Zależność CC BY-NC-SA
łacina Uniwersalne zależności , PROIEL Zależność CC BY-NC-SA
łacina Index Thomisticus Treebank Zależność Open source ( licencja Creative Commons )
łacina PROIEL Treebank Zależność Open source ( licencja Creative Commons )
łacina Drzewo zależności łacińskich Zależność Open source ( licencja Creative Commons )
łotewski Uniwersalne zależności , LVTB Zależność CC BY-SA
litewski Zależności uniwersalne , ALKSNIS Zależność CC BY-SA
litewski Zależności uniwersalne , HSE Zależność CC BY-SA
Livvi Zależności uniwersalne , KKPP Zależność CC BY-SA
Magahi Uniwersalne zależności , MGTB Zależność CC BY-SA
maltański Uniwersalne zależności , MUDT Zależność CC BY-SA
Marathi Uniwersalne zależności , UFAL Zależność CC BY-SA
Mbya Guarani Uniwersalne zależności , Dooley Zależność CC BY-NC-SA
Mbya Guarani Uniwersalne zależności , Thomas Zależność CC BY-NC-SA
Środkowoirlandzki Uniwersalne zależności , CritMITB Zależność CC BY-SA
Środkowoirlandzki Zależności uniwersalne , DipMITB Zależność CC BY-SA
moksza Zależności uniwersalne , JR Zależność CC BY-SA
Naija Uniwersalne zależności , NSC Zależność CC BY-SA
Północny Sami Uniwersalne zależności , Giella Zależność CC BY-SA
norweski Infrastruktura do bankowania drzew INESS LFG ?
norweski Uniwersalne zależności , Bokmaal Zależność CC BY-SA
norweski Uniwersalne zależności , Nynorsk Zależność CC BY-SA
norweski Uniwersalne zależności , NynorskLIA Zależność CC BY-SA
staro-cerkiewno-słowiański Uniwersalne zależności , PROIEL Zależność CC BY-NC-SA
staro-cerkiewno-słowiański Bank drzew TOROT Zależność Open source ( licencja Creative Commons )
Starofrancuski Uniwersalne zależności , SRCMF Zależność CC BY-NC-SA
staroruski Uniwersalne zależności , RNC Zależność CC BY-SA
staroruski Uniwersalne zależności , TOROT Zależność CC BY-NC-SA
staroruski Bank drzew TOROT Zależność Open source ( licencja Creative Commons )
perski Bank drzew zależności perskich (PerDT) Zależność Swobodnie dostępne do badań
perski PerTreeBank HPSG Swobodnie dostępne do badań
perski Zależności uniwersalne , Seraji Zależność CC BY-SA
Polskie Treebank / zestaw testowy dla języka polskiego HPSG ?
Polskie Uniwersalne zależności , LFG Zależność GPL
Polskie Uniwersalne zależności , WPB Zależność CC BY-NC-SA
Polskie Uniwersalne zależności , PUD Zależność CC BY-SA
Polskie Składnica Struktura fraz i zależność Open source ( powszechna licencja publiczna GNU )
portugalski Zależności uniwersalne , Bosque Zależność CC BY-SA
portugalski Uniwersalne zależności , GSD Zależność CC BY-SA
portugalski Uniwersalne zależności , PUD Zależność CC BY-SA
portugalski Projecto Floresta Sintá(c)tica Zależność , struktura fraz Open source ( powszechna licencja publiczna GNU )
rumuński Bank zależności w Rumunii Zależność ?
rumuński Zależności uniwersalne , niestandardowe Zależność CC BY-SA
rumuński Uniwersalne zależności , RRT Zależność CC BY-SA
rumuński Uniwersalne zależności , SiMoNERo Zależność CC BY-SA
Rosyjski Uniwersalne zależności , GSD Zależność CC BY-SA
Rosyjski Uniwersalne zależności , PUD Zależność CC BY-SA
Rosyjski Uniwersalne zależności , SynTagRus Zależność CC BY-NC-SA
Rosyjski Zależności uniwersalne , tajga Zależność CC BY-SA
Rosyjski SynTagRus Dependency Treebank ( Rosyjski Korpus Narodowy ) Zależność Swobodnie dostępne do badań
sanskryt Uniwersalne zależności , UFAL Zależność CC BY-SA
sanskryt Uniwersalne zależności , wedyjskie Zależność CC BY-SA
gaelicki szkocki Uniwersalne zależności , ARCOSG Zależność CC BY-SA
serbski Zależności uniwersalne , SET Zależność CC BY-SA
Sindhi Uniwersalne zależności , MazharDootio Zależność CC BY-SA
Skolt Sami Zależności uniwersalne , Giellagas Zależność CC BY-SA
słowacki Uniwersalne zależności , SNK Zależność CC BY-SA
słowieński Słoweński bank drzew zależności Zależność Swobodnie dostępne do badań
słoweński Zależności uniwersalne , SSJ Zależność CC BY-NC-SA
słoweński Zależności uniwersalne , SST Zależność CC BY-NC-SA
hiszpański Obsada3LB Struktura fraz i zależność Swobodnie dostępne do badań
hiszpański Uniwersalne zależności , AnCora Zależność GPL
hiszpański Uniwersalne zależności , GSD Zależność CC BY-SA
hiszpański Uniwersalne zależności , PUD Zależność CC BY-SA
hiszpański UAM Treebank języka hiszpańskiego Struktura fraz Swobodnie dostępne do badań
szwedzki Talbanken05 Struktura fraz i zależność Swobodnie dostępne do badań
szwedzki Szwedzki bank drzew Struktura fraz Swobodnie dostępne do badań
szwedzki Zależności uniwersalne , LineES Zależność CC BY-NC-SA
szwedzki Uniwersalne zależności , PUD Zależność CC BY-SA
szwedzki Zależności uniwersalne , Talbanken Zależność CC BY-SA
szwedzki SMULTRON - Równoległy bank drzew EN-DE-SV Struktura fraz Swobodnie dostępne do badań
Szwedzki język migowy Zależności uniwersalne , SSLC Zależność CC BY-SA
szwajcarski niemiecki Zależności uniwersalne , UZH Zależność CC BY-SA
tagalski Zależności uniwersalne , TRG Zależność CC BY-SA
tagalski Uniwersalne zależności , Ugnayan Zależność CC BY-NC-SA
Tamil Uniwersalne zależności , TTB Zależność CC BY-NC-SA
telugu Uniwersalne zależności , MTG Zależność CC BY-SA
tajski NAiST Thai Treebank Zależność Open source ( powszechna licencja publiczna GNU )
tajski Uniwersalne zależności , PUD Zależność CC BY-SA
turecki METU-Sabanci Turecki Bank Drzew Zależność Swobodnie dostępne do badań
turecki Uniwersalne zależności , BOUN Zależność CC BY-SA
turecki Uniwersalne zależności , GB Zależność CC BY-SA
turecki Uniwersalne zależności , IMST Zależność CC BY-NC-SA
turecki Uniwersalne zależności , PUD Zależność CC BY-SA
ukraiński Instytut Ukraiński, Złoty Standard Organizacji Pozarządowych Zależność Open source ( licencja Creative Commons )
ukraiński Uniwersalne zależności , IU Zależność CC BY-NC-SA
górnołużycki Uniwersalne zależności , UFAL Zależność CC BY-SA
Urdu Bank drzew NU-FAST Struktura fraz Kontakt w Computational Learning Strategies & Practices
Urdu Bank drzew URDU.KON-TB Struktura fraz i hiperzależności Kontakt w Computational Learning Strategies & Practices
Urdu Uniwersalne zależności , UDTB Zależność CC BY-NC-SA
ujgurski Uniwersalne zależności , UDT Zależność CC BY-SA
wietnamski Uniwersalne zależności , VTB Zależność CC BY-SA
wietnamski Bank drzew wietnamskich Struktura fraz Swobodnie dostępne do badań
wietnamski Wietnamski bank drzewa zależności Zależność Swobodnie dostępne do badań
Warlpiri Uniwersalne zależności , UFAL Zależność CC BY-SA
walijski Zależności uniwersalne , CCG Zależność CC BY-SA
Wolof Uniwersalne zależności , WTB Zależność CC BY-SA
Joruba Uniwersalne zależności , YTB Zależność CC BY-SA

Aby ułatwić dalsze badania między zadaniami wielojęzycznymi, niektórzy badacze omówili uniwersalny schemat adnotacji dla wielu języków. W ten sposób ludzie próbują wykorzystać lub połączyć zalety różnych korpusów banków drzew. Na przykład Uniwersalne podejście do adnotacji dla banków drzew zależności; oraz uniwersalne podejście do adnotacji dla banków drzew struktury fraz.

Narzędzia wyszukiwania

Jednym z kluczowych sposobów wydobywania dowodów z banku drzew są narzędzia wyszukiwania. Narzędzia wyszukiwania analizowanych korpusów zazwyczaj zależą od schematu adnotacji zastosowanego do korpusu. Interfejsy użytkownika są bardzo wyrafinowane, od opartych na wyrażeniach systemów zapytań przeznaczonych dla programistów do pełnych środowisk eksploracyjnych przeznaczonych dla ogólnych lingwistów. Wallis (2008) szczegółowo omawia zasady przeszukiwania banków drzew i dokonuje przeglądu stanu wiedzy z tamtego okresu.

Zobacz też

Bibliografia