Koranu Arabski Corpus - Quranic Arabic Corpus

Koraniczny Korpus Arabski
Centrum Badań: Uniwersytet w Leeds
Pierwsze wydanie: Listopad 2009
Język: Koran arabski, angielski
Adnotacja: Składnia, morfologia
Struktura: Gramatyka zależności
Licencja: Powszechna Licencja Publiczna GNU
Strona internetowa: http://corpus.quran.com/
Drzewo składni zależności dla wersetu (67:1)

Koranu Arabski Corpus jest odnotowany zasób językowy składa się z 77,430 słów Koranu po arabsku. Projekt ma na celu dostarczenie adnotacji morfologicznych i składniowych naukowcom, którzy chcą studiować język Koranu.

Funkcje

Analiza gramatyczna pomaga czytelnikom w dalszym odkrywaniu szczegółowych zamierzonych znaczeń każdego wersetu i zdania. Każde słowo Koranu jest oznaczone swoją częścią mowy, a także wieloma cechami morfologicznymi. W przeciwieństwie do innych arabskich korpusów z adnotacjami, ramy gramatyczne przyjęte przez Koranu Koranu to tradycyjna arabska gramatyka i'rab ( إﻋﺮﺍﺏ ). Projekt badawczy jest prowadzony przez Kais Dukes na Uniwersytecie w Leeds i jest częścią grupy badawczej zajmującej się komputerami w języku arabskim w ramach School of Computing, nadzorowanej przez Erica Atwella.

Korpus z adnotacjami zawiera:

  • Ręcznie zweryfikowana część mowy otagowana korpusem Koranu Arabskiego.
  • Bank drzew z adnotacjami w języku arabskim Koranu.
  • Nowatorska wizualizacja tradycyjnej gramatyki arabskiej za pomocą wykresów zależności.
  • Morfologiczne poszukiwania Koranu.
  • Czytelny maszynowo morfologiczny leksykon słów koranicznych na język angielski.
  • Konkordancja części mowy dla języka koranicznego arabskiego zorganizowana przez lemat.
  • Internetowa tablica dyskusyjna do adnotacji wolontariuszy społeczności.

Adnotacja korpusu przypisuje każdemu słowu znacznik części mowy i cechy morfologiczne. Na przykład adnotacja polega na decydowaniu, czy słowo jest rzeczownikiem, czy czasownikiem i czy jest odmieniane na rodzaj męski czy żeński. Pierwszy etap projektu obejmował automatyczne oznaczanie części mowy poprzez zastosowanie w tekście technologii obliczeniowej języka arabskiego. Adnotacja do każdego z 77 430 słów w Koranie była następnie sprawdzana etapami przez dwóch adnotatorów, a udoskonalenia wciąż trwają, aby jeszcze bardziej poprawić dokładność.

Badania lingwistyczne Koranu, w których wykorzystuje się korpus z adnotacjami, obejmują szkolenie tagerów części mowy z modelem Ukrytego Markowa dla języka arabskiego, automatyczną kategoryzację rozdziałów Koranu i analizę prozodyczna tekstu.

Ponadto projekt zapewnia tłumaczenie Koranu słowo po słowie w oparciu o zaakceptowane źródła angielskie, zamiast tworzyć nowe tłumaczenie Koranu.

Zobacz też

Bibliografia

Zewnętrzne linki