Koranu Arabski Corpus - Quranic Arabic Corpus

Koraniczny Korpus Arabski
Koraniczny Korpus Arabski
Centrum Badań:	Uniwersytet w Leeds
Pierwsze wydanie:	Listopad 2009
Język:	Koran arabski, angielski
Adnotacja:	Składnia, morfologia
Struktura:	Gramatyka zależności
Licencja:	Powszechna Licencja Publiczna GNU
Strona internetowa:	http://corpus.quran.com/

Drzewo składni zależności dla wersetu (67:1)

Koranu Arabski Corpus jest odnotowany zasób językowy składa się z 77,430 słów Koranu po arabsku. Projekt ma na celu dostarczenie adnotacji morfologicznych i składniowych naukowcom, którzy chcą studiować język Koranu.

Funkcje

Analiza gramatyczna pomaga czytelnikom w dalszym odkrywaniu szczegółowych zamierzonych znaczeń każdego wersetu i zdania. Każde słowo Koranu jest oznaczone swoją częścią mowy, a także wieloma cechami morfologicznymi. W przeciwieństwie do innych arabskich korpusów z adnotacjami, ramy gramatyczne przyjęte przez Koranu Koranu to tradycyjna arabska gramatyka i'rab ( إﻋﺮﺍﺏ ). Projekt badawczy jest prowadzony przez Kais Dukes na Uniwersytecie w Leeds i jest częścią grupy badawczej zajmującej się komputerami w języku arabskim w ramach School of Computing, nadzorowanej przez Erica Atwella.

Korpus z adnotacjami zawiera:

Ręcznie zweryfikowana część mowy otagowana korpusem Koranu Arabskiego.
Bank drzew z adnotacjami w języku arabskim Koranu.
Nowatorska wizualizacja tradycyjnej gramatyki arabskiej za pomocą wykresów zależności.
Morfologiczne poszukiwania Koranu.
Czytelny maszynowo morfologiczny leksykon słów koranicznych na język angielski.
Konkordancja części mowy dla języka koranicznego arabskiego zorganizowana przez lemat.
Internetowa tablica dyskusyjna do adnotacji wolontariuszy społeczności.

Adnotacja korpusu przypisuje każdemu słowu znacznik części mowy i cechy morfologiczne. Na przykład adnotacja polega na decydowaniu, czy słowo jest rzeczownikiem, czy czasownikiem i czy jest odmieniane na rodzaj męski czy żeński. Pierwszy etap projektu obejmował automatyczne oznaczanie części mowy poprzez zastosowanie w tekście technologii obliczeniowej języka arabskiego. Adnotacja do każdego z 77 430 słów w Koranie była następnie sprawdzana etapami przez dwóch adnotatorów, a udoskonalenia wciąż trwają, aby jeszcze bardziej poprawić dokładność.

Badania lingwistyczne Koranu, w których wykorzystuje się korpus z adnotacjami, obejmują szkolenie tagerów części mowy z modelem Ukrytego Markowa dla języka arabskiego, automatyczną kategoryzację rozdziałów Koranu i analizę prozodyczna tekstu.

Ponadto projekt zapewnia tłumaczenie Koranu słowo po słowie w oparciu o zaakceptowane źródła angielskie, zamiast tworzyć nowe tłumaczenie Koranu.

Zobacz też

Bibliografia

Zewnętrzne linki

Koraniczny Korpus Arabski

Languages

In other projects

Koranu Arabski Corpus - Quranic Arabic Corpus

Zawartość

Funkcje

Zobacz też

Bibliografia

Zewnętrzne linki