Zależności uniwersalne — Universal Dependencies

Universal Dependencies , często określany skrótem UD , to międzynarodowy projekt współpracy mający na celu tworzenie banków drzew języków świata. Te banki drzew są ogólnodostępne i dostępne. Główne zastosowania to automatyczne przetwarzanie tekstu w dziedzinie przetwarzania języka naturalnego (NLP) oraz badania składni i gramatyki języka naturalnego, zwłaszcza w zakresie typologii lingwistycznej . Głównym celem projektu jest osiągnięcie międzyjęzykowej spójności adnotacji, przy jednoczesnym umożliwieniu w razie potrzeby rozszerzeń specyficznych dla danego języka. Schemat adnotacji ma swoje korzenie w trzech powiązanych projektach: Stanford Dependencies, uniwersalne tagi części mowy Google oraz interlingua Interset dla tagów morfosyntaktycznych. Schemat adnotacji UD wykorzystuje reprezentację w postaci drzew zależności w przeciwieństwie do drzew struktury fraz . W chwili obecnej (luty 2019) w inwentarzu UD dostępnych jest nieco ponad 100 banków drzew w ponad 70 językach.

Struktury zależności

Schemat adnotacji UD tworzy analizy składniowe zdań pod kątem zależności gramatyki zależności. Każda zależność jest scharakteryzowana za pomocą funkcji składniowej, która jest pokazana za pomocą etykiety na krawędzi zależności. Na przykład:

Pierwsze zdjęcie UD

Ta analiza pokazuje, że ona , on i notatka są na utrzymaniu lewicy . Zaimek ona jest zidentyfikowany jako przedmiot nominalnej (nsubj), zaimek go jako obiekt pośredniego (iobj) i zdaniu rzeczownik notatkę jako bezpośredni przedmiot (obj) - istnieje dodatkowo zależność, która łączy do noty , choć nie jest pokazany. Drugi przykład:

zdjęcie UD 2

Ta analiza identyfikuje IT jako przedmiot (nsubj), to jako kopułę (COP), a na jako marker przypadku (case), z których wszystkie są pokazane jako utrzymaniu słowem głównym jej , co jest zaimek. Następny przykład zawiera przekleństwo i ukośny obiekt:

zdjęcie 3

Analiza ta identyfikuje tam jako expletive (mate) żywności jako przedmiot nominalna (nsubj) kuchni jako ukośny obiektu (obl), a także w postaci przypadku znacznika (obudowa) - nie jest również zależność łącząca do kuchni , ale nie jest to pokazane. Zauważ, że kopuła jest w tym przypadku pozycjonowana jako rdzeń zdania, co jest sprzeczne z tym, jak analizuje się ją w drugim przykładzie tuż powyżej, gdzie jest pozycjonowana jako zależna od rdzenia.

Podane przykłady adnotacji UD mogą oczywiście dawać jedynie wyobrażenie o charakterze projektu UD i jego schemacie adnotacji. W przypadku UD nacisk kładziony jest na tworzenie wielojęzykowo spójnych analiz zależności w celu ułatwienia strukturalnej równoległości w różnych językach. W tym celu UD używa uniwersalnego zestawu tagów POS dla wszystkich języków — chociaż dany język nie musi wykorzystywać każdego tagu. Do każdego słowa można dodać bardziej szczegółowe informacje za pomocą bezpłatnego zestawu funkcji morfosyntaktycznych. Uniwersalne etykiety łączy zależności można określić za pomocą relacji drugorzędnych, które są wskazywane jako etykieta drugorzędna za dwukropkiem, np. nsubj:pass, zgodnie z formatem "universal:extension" .

Słowa funkcyjne

W społeczności gramatyki zależności schemat adnotacji UD jest kontrowersyjny. Główna kość niezgody dotyczy analizy słów funkcyjnych. UD decyduje się na podporządkowanie słów funkcyjnych słowom treści, co jest praktyką sprzeczną z większością prac w tradycji gramatyki zależności. Aby pokrótce zilustrować tę kontrowersję, UD przedstawi następującą analizę strukturalną podanego zdania:

Czwarty obrazek UD ilustruje analizę słów funkcyjnych

Ten przykład pochodzi z artykułu tutaj . Używana jest teraz alternatywna konwencja pokazywania zależności, różna od powyższej konwencji. Ponieważ funkcje składniowe nie są ważne dla danego punktu, są one wyłączone z tej analizy strukturalnej. Ważny jest sposób, w jaki ta analiza UD podporządkowuje pomocniczy czasownik wolę do treści czasownik powiedzenia , przyimka się do zaimka ty , ten subordinator że do treści czasownika pokroju i cząstki do do treści czasownika pływać .

Bardziej tradycyjna analiza zależności gramatycznych tego zdania, która jest motywowana bardziej względami składniowymi niż semantycznymi, wygląda tak:

zdjęcie UD 5

Ta tradycyjna analiza podporządkowuje treść czasownika say czasownikowi posiłkowemu will , zaimek you przyimkowi do , treść czasownika likes podporządkowanemu that i treść czasownika swim do imiesłowu do .

Uwagi

Bibliografia

  • de Marneffe, Marie-Catherine, Christophera D. Manninga, Joakima Nivre i Daniela Zemana. 2021. Uniwersalne zależności. W Lingwistyce Komputerowej 47 (2), 255-308. doi : 10.1162/coli_a_00402
  • de Marneffe, Marie-Catherine, Billa MacCartneya i Christophera D. Manninga. 2006. Generowanie parsów typowanych zależności z parsów struktury fraz. W Proceedings of the Language Resources and Evaluation Conference (LREC) 2006, 449-454. Genua.
  • de Marneffe, Marie-Catherine i Christophera D. Manninga. 2008. Reprezentacja zależności typu Stanford. Proceedings of the COLING Workshop on Cross-Framework and Cross-Domain Parser Evaluation, 92-97. Sofia. doi : 10.3115/1608858.1608859
  • de Marneffe, Marie-Catherine, Timothy Dozat, Natalia Silvaire, Katrin Haverinen, Filip Ginter, Joakim Nivre, Christopher D. Manning. 2014. Universal Stanford Dependencies: typologia międzyjęzykowa. W The International Conference on Language Resources and Evaluation (LREC) 2014, 4585–4592.
  • Niwre, Joakim. 2015. W kierunku gramatyki uniwersalnej do przetwarzania języka naturalnego. CICLING 2015: 16. Międzynarodowa Konferencja Inteligentnego Przetwarzania Tekstu i Lingwistyki Komputerowej, 3-16. doi : 10.1007/978-3-319-18111-0_1
  • Osborne, Timothy i Kim Gerdes. 2019. Status słów funkcyjnych w gramatyce zależności: Krytyka uniwersalnych zależności (UD). Glossa: A Journal of General Linguistics 4(1), 17. doi : 10.5334/gjgl.537 .
  • Pietrow, Słowianin, Dipon Das i Ryan McDonald. 2012. Uniwersalny zestaw tagów części mowy. Międzynarodowa konferencja na temat zasobów językowych i oceny (LREC) 2012, 2089-2096. Stambuł.
  • Zeman, Daniel. 2008. Konwersja tagów wielokrotnego użytku przy użyciu sterowników tagów. W The International Conference on Language Resources and Evaluation (LREC) 2008, 213–218. Marrakesz.