Computational leksykologii - Computational lexicology

Computational leksykologii jest gałęzią lingwistyki komputerowej , która związana jest z wykorzystaniem komputerów w badaniach leksykonu . Został węziej opisany przez niektórych badaczy (Amslera, 1980) jak wykorzystanie komputerów w badaniach nad słownikami do odczytu maszynowego . Wyróżnia od obliczeniowej leksykografii , co właściwie byłoby korzystanie z komputerów w budowie słowników, choć niektórzy badacze wykorzystali obliczeniowej leksykografii jako synonim .

Historia

Computational leksykologii pojawiły się jako oddzielna dyscyplina obrębie lingwistyki z pojawieniem słowników do odczytu maszynowego, począwszy od tworzenia taśm do odczytu maszynowego z Merriam-Webster siódmego Collegiate Dictionary oraz Merriam-Webster New kieszonkowego słownika w 1960 roku przez Jana Olney et al. w systemie Development Corporation . Dzisiaj, leksykologii obliczeniowa jest najbardziej znany dzięki stworzeniu i zastosowań WordNet . Jak obliczeniowa przetwarzanie naukowców wzrosła w czasie, korzystanie z obliczeniową leksykologii zostało zastosowane powszechnie w analizie tekstu. W 1987 roku, między innymi Byrd, Calzolari, Chodorow opracowali obliczeniowych narzędzia do analizy tekstu. W szczególności model został zaprojektowany za koordynację skojarzenia z udziałem zmysły polysemous słów.

Badanie leksykonie

Computational leksykologii przyczynił się do zrozumienia treści i ograniczeń słowników drukowanych dla celów obliczeniowych (czyli to wyjaśnić, że poprzednie dzieło leksykografii nie był wystarczający dla potrzeb lingwistyki). Dzięki pracy obliczeniowych lexicologists prawie każda część wpisu słowniku druku badano począwszy od:

  1. co stanowi żądane hasło - służy do generowania list korekcji pisowni;
  2. co warianty i odmiany formy żądane hasło - służy do empirycznie zrozumieć morfologii;
  3. jak się hasło jest rozdzielany na sylaby;
  4. jak się hasło jest wymawiane - stosowane w systemach syntezy mowy;
  5. części mowy się hasło przybiera - służy do taggers POS ;
  6. jakieś specjalne podlegające lub użytkowania Kody przypisane do żądanego wyrazu - służy do identyfikacji sprawę tekst przedmiot dokumentu;
  7. Definicje się hasło i ich składnia - służy jako pomoc dezambiguacji Słowa w kontekście;
  8. Etymologia żądanego wyrazu i jego zastosowanie do scharakteryzowania słownictwa przez językach pochodzenia - używane do scharakteryzowania słownictwa tekstu co do jego języków pochodzenia;
  9. Przykładowe zdania;
  10. run-ons (dodatkowe słowa i wyrażenia multi-word, które są utworzone z żądanego wyrazu); i
  11. słowa pokrewne, takie jak synonimów i antonimów .

Wielu lingwistów komputerowych zostały rozczarowany słowników drukowanych jako źródło informacji dla lingwistyki komputerowej, ponieważ brakowało im wystarczającą składniowej i semantycznej informacji o programach komputerowych. Prace nad obliczeniowej leksykologii szybko doprowadziły do dodatkowych wysiłków w dwóch kierunkach.

Następcy Computational leksykologii

Po pierwsze, działania w ramach współpracy między obliczeniowych lingwistów i leksykografów doprowadziły do zrozumienia roli, jaką odegrał w tworzeniu korpusów słowniki. Większość obliczeniowe lexicologists przeniósł się do budowy dużych korpusów zebrać podstawowe dane, które leksykografowie użył do stworzenia słowników. ACL / DCI (Data Collection Initiative) oraz LDC ( językowa Dane Consortium ) poszedł tą drogą. Pojawienie się języków znaczników doprowadził do utworzenia znakowanego korpusów, które mogą być łatwiej analizowanym stworzyć obliczeniowych systemów językowych. Part-of-speech oznaczone korpusów i semantycznie zaznaczone korpusy zostały utworzone w celu testowania i rozwijania taggers POS i słowo semantyczne technologie ujednoznaczniającą.

Drugi kierunek się w kierunku tworzenia Leksykalne Bazy wiedzy (LKBs). Leksykalne Knowledge Base została uznana za co słownika powinny być dla celów obliczeniowych językowych, zwłaszcza dla celów obliczeniowych leksykalne semantyczne. To było mieć takie same informacje jak w słowniku druku, ale całkowicie wyjaśniony, co do znaczeń słów i odpowiednich powiązań między zmysłami. Wiele zaczął tworzyć zasoby ich zdaniem były słowniki, gdyby zostały stworzone do użytku w analizie obliczeniowej. WordNet może być uważany za taki rozwój, podobnie jak nowsze wysiłki na opisywaniu składniowej i semantycznej informacji, takich jak prace FrameNet od Fillmore. Poza lingwistyki komputerowej, praca Ontologia sztucznej inteligencji może być postrzegane jako ewolucyjnego wysiłku budowania leksykalne bazy wiedzy dla aplikacji AI.

Normalizacja

Optymalizację produkcji, utrzymania i rozbudowy obliczeniowych leksykonów jest jednym z kluczowych aspektów wpływających NLP . Głównym problemem jest interoperacyjność : różne leksykony są często sprzeczne. Najczęstsza sytuacja: jak scalić dwa leksykony, lub fragmenty leksykonów? Wtórny problemem jest to, że leksykon jest zazwyczaj specjalnie dostosowane do konkretnego programu NLP i trudności wykorzystywane w ramach innych programów lub aplikacji NLP.

W tym względzie różne modele danych obliczeniowych leksykonów są badane przez ISO / TC37 od 2003 roku w ramach projektu ram leksykalne znaczników prowadzącej do normy ISO 2008.

Referencje

Amslera, Robert A. 1980. Ph.D. Rozprawa „Struktura Merriam-Webster Dictionary” kieszonkowym. The University of Texas w Austin.

Linki zewnętrzne