Lexical Markup Framework - Lexical Markup Framework

Zarządzanie zasobami językowymi - leksykalna struktura znaczników ( LMF ; ISO 24613: 2008 ), to norma ISO / TC37 Międzynarodowej Organizacji Normalizacyjnej ISO / TC37 dotycząca leksykonów przetwarzania języka naturalnego (NLP) i słownika czytelnego maszynowo (MRD) . Zakres obejmuje standaryzację zasad i metod odnoszących się do zasobów językowych w kontekstach komunikacji wielojęzycznej.

Cele

Celem LMF jest zapewnienie wspólnego modelu tworzenia i wykorzystywania zasobów leksykalnych , zarządzanie wymianą danych pomiędzy tymi zasobami oraz umożliwienie łączenia dużej liczby indywidualnych zasobów elektronicznych w celu utworzenia rozległych globalnych zasobów elektronicznych.

Typy poszczególnych instancji LMF mogą obejmować jednojęzyczne, dwujęzyczne lub wielojęzyczne zasoby leksykalne. Te same specyfikacje mają być stosowane zarówno dla małych, jak i dużych leksykonów, zarówno dla prostych, jak i złożonych leksykonów, zarówno dla pisemnych, jak i mówionych reprezentacji leksykalnych. Opisy wahają się od morfologii , składni , obliczeniowych semantyki do tłumaczenia wspomaganego komputerowo . Objęte języki nie są ograniczone do języków europejskich, ale obejmują wszystkie języki naturalne . Zakres ukierunkowanych aplikacji NLP nie jest ograniczony. LMF jest w stanie reprezentować większość leksykonów, w tym leksykony WordNet , EDR i PAROLE.

Historia

W przeszłości standaryzacja leksykonów była badana i rozwijana w ramach szeregu projektów, takich jak GENELEX, EDR, EAGLES, MULTEXT, PAROLE, SIMPLE i ISLE. Następnie delegacje krajowe ISO / TC37 postanowiły zająć się standardami poświęconymi NLP i reprezentacji leksykonów. Prace nad LMF rozpoczęły się latem 2003 r. Propozycją nowego tematu pracy wydaną przez delegację USA. Jesienią 2003 r. Delegacja francuska przedstawiła techniczną propozycję modelu danych poświęconego leksykonom NLP. Na początku 2004 roku komitet ISO / TC37 zdecydował o utworzeniu wspólnego projektu ISO z Nicolettą Calzolari ( CNR -ILC Włochy) jako przewodniczącym i Gilem Francopoulo (Tagmatica Francja) i Monte George'em ( ANSI USA) jako redaktorami. Pierwszym krokiem w tworzeniu LMF było zaprojektowanie ogólnej struktury opartej na ogólnych cechach istniejących leksykonów oraz opracowanie spójnej terminologii opisującej składniki tych leksykonów. Następnym krokiem był faktyczny projekt kompleksowego modelu, który najlepiej przedstawiał szczegółowo wszystkie leksykony. Duży panel 60 ekspertów przedstawił szeroki zakres wymagań dotyczących LMF, które obejmowały wiele rodzajów leksykonów NLP. Redaktorzy LMF ściśle współpracowali z panelem ekspertów w celu zidentyfikowania najlepszych rozwiązań i osiągnięcia konsensusu w sprawie projektu LMF. Szczególną uwagę zwrócono na morfologię, aby zapewnić potężne mechanizmy rozwiązywania problemów w kilku językach, które były znane jako trudne w obsłudze. 13 wersji zostało napisanych, wysłanych (do krajowych ekspertów nominowanych), skomentowanych i omówionych na różnych spotkaniach technicznych ISO. Po pięciu latach pracy, w tym licznych bezpośrednich spotkaniach i wymianie e-mailowej, redaktorzy doszli do spójnego modelu UML. Podsumowując, LMF należy traktować jako syntezę stanu wiedzy w dziedzinie leksykonu NLP.

Obecny stan

Numer ISO to 24613. Specyfikacja LMF została oficjalnie opublikowana jako norma międzynarodowa 17 listopada 2008 roku.

Jako jeden z członków rodziny norm ISO / TC37

Normy ISO / TC37 są obecnie opracowywane jako specyfikacje wysokiego poziomu i dotyczą segmentacji słów (ISO 24614), adnotacji (ISO 24611 aka MAF, ISO 24612 aka LAF, ISO 24615 aka SynAF i ISO 24617-1 aka SemAF / czas), struktury cech (ISO 24610), kontenery multimedialne (ISO 24616 aka MLIF) i leksykony (ISO 24613). Normy te są oparte na specyfikacjach niskiego poziomu poświęconych stałym, a mianowicie kategoriom danych (poprawka ISO 12620), kodach języków ( ISO 639 ), kodach skryptów ( ISO 15924 ), kodach krajów ( ISO 3166 ) i Unicode ( ISO 10646 ).

Ta dwupoziomowa organizacja tworzy spójną rodzinę standardów z następującymi wspólnymi i prostymi zasadami:

specyfikacja wysokiego poziomu zapewnia elementy strukturalne, które są ozdobione znormalizowanymi stałymi;
specyfikacje niskiego poziomu zawierają standardowe stałe jako metadane.

Kluczowe standardy

Stałe lingwistyczne, takie jak / żeńskie / lub / przechodnie / nie są zdefiniowane w LMF, ale są zapisywane w rejestrze kategorii danych (DCR), który jest utrzymywany jako zasób globalny przez ISO / TC37 zgodnie z ISO / IEC 11179-3: 2003. Te stałe służą do ozdabiania elementów konstrukcyjnych wysokiego poziomu.

Specyfikacja LMF jest zgodna z zasadami modelowania Unified Modeling Language (UML) zdefiniowanymi przez Object Management Group (OMG). Strukturę określono za pomocą klasy UML schematach . Przykłady są przedstawiane za pomocą diagramów instancji (lub obiektów) UML.

XML DTD znajduje się w załączniku do dokumentu LMF.

Struktura modelu

LMF składa się z następujących elementów:

Pakiet podstawowy, czyli szkielet strukturalny, który opisuje podstawową hierarchię informacji w hasłach leksykalnych.
Rozszerzenia pakietu podstawowego, które są wyrażone w ramach opisujących ponowne wykorzystanie podstawowych komponentów w połączeniu z dodatkowymi komponentami wymaganymi dla określonego zasobu leksykalnego.

Przedłużenia są specjalnie przeznaczone do morfologii , MRR , NLP składni , NLP semantyka , NLP wielu językach oznaczenia , NLP morfologiczne wzory , wielowyrazowych ekspresji wzory i ograniczające expression patterns .

Przykład

W poniższym przykładzie hasło leksykalne jest związane z lematem duchownym i dwoma odmienionymi formami duchowny i duchowny . Kodowanie języka jest ustawione dla całego zasobu leksykalnego. Wartość języka jest ustawiana dla całego leksykonu, jak pokazano na poniższym diagramie instancji UML .

Elementy Zasoby leksykalne , Informacje globalne , Leksykon , Wpis leksykalny , Lemat i Formularz słów określają strukturę leksykonu. Są one określone w dokumencie LMF. Wręcz przeciwnie, languageCoding , language , partOfSpeech , commonNoun , writeForm , grammaticalNumber , singular , plural to kategorie danych pobierane z rejestru kategorii danych. Te ślady zdobią konstrukcję. Wartości ISO 639-3 , clergyman , clergymen to zwykłe ciągi znaków. Wartość eng jest pobierana z listy języków zgodnie z definicją w ISO 639-3 .

Z pewnymi dodatkowymi informacjami, takimi jak dtdVersion i feat , te same dane można wyrazić za pomocą następującego fragmentu XML :

<LexicalResource dtdVersion="15">
    <GlobalInformation>
        <feat att="languageCoding" val="ISO 639-3"/>
    </GlobalInformation>
    <Lexicon>
        <feat att="language" val="eng"/>
        <LexicalEntry>
            <feat att="partOfSpeech" val="commonNoun"/>
            <Lemma>
                <feat att="writtenForm" val="clergyman"/>
            </Lemma>
            <WordForm>
                 <feat att="writtenForm" val="clergyman"/>
                 <feat att="grammaticalNumber" val="singular"/>
            </WordForm>
            <WordForm>
                <feat att="writtenForm" val="clergymen"/>
                <feat att="grammaticalNumber" val="plural"/>
            </WordForm>
        </LexicalEntry>
    </Lexicon>
</LexicalResource>

Ten przykład jest raczej prosty, podczas gdy LMF może reprezentować znacznie bardziej złożone opisy językowe, znakowanie XML jest odpowiednio złożone.

Wybrane publikacje o LMF

Pierwsza publikacja na temat specyfikacji LMF ratyfikowanej przez ISO (artykuł ten stał się (w 2015 r.) 9. najczęściej cytowanym artykułem w ramach konferencji Language Resources and Evaluation z artykułów LREC):

Zasoby językowe i ocena LREC-2006 / Genua: Gil Francopoulo, Monte George, Nicoletta Calzolari, Monica Monachini, Nuria Bel, Mandy Pet, Claudia Soria: Lexical Markup Framework (LMF)

O reprezentacji semantycznej:

Gesellschaft für linguistische Datenverarbeitung GLDV-2007 / Tübingen: Gil Francopoulo, Nuria Bel, Monte George Nicoletta Calzolari, Monica Monachini, Mandy Pet, Claudia Soria: Lexical Markup Framework ISO Standard dla informacji semantycznych w leksykonach NLP

O językach afrykańskich:

Traitement Automatique des Langues naturelles, Marsylia, 2014: Mouhamadou Khoule, Mouhamad Ndiankho Thiam, El Hadj Mamadou Nguer: Ku ustanowieniu leksykonu języka wolof opartego na LMF (Vers la mise en place d'un lexique basé sur LMF pour la langue wolof ) [po francusku]

O językach azjatyckich:

Lexicography, Journal of ASIALEX, Springer 2014: Lexical Markup Framework: Gil Francopoulo, Chu-Ren Huang: An ISO Standard for Electronic Lexicons and its Implications for Asian Languages DOI 10.1007 / s40607-014-0006-z

O językach europejskich:

COLING 2010: Verena Henrich, Erhard Hinrichs: Standaryzacja Wordnets w standardzie ISO LMF: Wordnet-LMF for GermaNet
EACL 2012: Judith Eckle-Kohler, Iryna Gurevych: Subcat-LMF: Opracowanie znormalizowanego formatu współdziałania ramek podkategorii
EACL 2012: Iryna Gurevych, Judith Eckle-Kohler, Silvana Hartmann, Michael Matuschek, Christian M Meyer, Christian Wirth: UBY - Zunifikowany zasób leksykalno-semantyczny na dużą skalę oparty na LMF.

O językach semickich:

Journal of Natural Language Engineering , Cambridge University Press (ukaże się wiosną 2015 r.): Aida Khemakhem, Bilel Gargouri, Abdelmajid Ben Hamadou, Gil Francopoulo: ISO Standard Modeling of a large Arabic Dictionary.
Materiały z siódmej światowej konferencji Wordnet 2014: Nadia BM Karmani, Hsan Soussou, Adel M Alimi: Tworzenie znormalizowanego Wordnet w ISO LMF dla języka aeb.
Przebieg warsztatów: HLT i NLP w świecie arabskim, LREC 2008: Noureddine Loukil, Kais Haddar, Abdelmajid Ben Hamadou: Towards a syntactic lexicon of arab Verbs.
Traitement Automatique des Langues Naturelles, Toulouse (po francusku) 2007: Khemakhem A, Gargouri B, Abdelwahed A, Francopoulo G: Modélisation des paradigmes de flexion des verbes arabes selon la norme LMF-ISO 24613.

Dedykowana książka

Istnieje książka wydana w 2013 roku: LMF Lexical Markup Framework, która jest w całości poświęcona LMF. Rozdział pierwszy dotyczy historii modeli leksykonowych, rozdział drugi to formalna prezentacja modelu danych, a rozdział trzeci dotyczy relacji z kategoriami danych ISO-DCR. Pozostałe 14 rozdziałów dotyczy leksykonu lub systemu, zarówno w dziedzinie cywilnej, jak i wojskowej, w laboratoriach naukowych lub do zastosowań przemysłowych. Są to Wordnet-LMF, Prolmf, DUELME, UBY-LMF , LG-LMF, RELISH, GlobalAtlas (lub Global Atlas) i Wordscape.

Powiązane komunikaty naukowe

Zasoby językowe i ocena LREC-2006 / Genoa: Znaczenie norm dla infrastruktur badawczych

Zobacz też

Leksykologia obliczeniowa
Semantyka leksykalna
Morfologia (językoznawstwo) dla wyjaśnień dotyczących paradygmatów i morfosyntaksji
Tłumaczenie maszynowe do prezentacji różnych typów notacji wielojęzycznych (patrz sekcja Podejścia )
Wzorzec morfologiczny dla różnicy między paradygmatem a wzorcem paradygmatu
WordNet do prezentacji najsłynniejszego leksykonu semantycznego dla języka angielskiego
Universal Terminology eXchange (UTX) dla zorientowanego na użytkownika, alternatywnego formatu słowników do odczytu maszynowego
Uniwersalny język sieciowy
UBY-LMF do aplikacji LMF
OntoLex-Lemon dla modelu opartego na LMF do publikowania słowników jako grafów wiedzy , w RDF i / lub jako Linguistic Linked Open Data

Languages

In other projects