Koranu Arabski Corpus - Quranic Arabic Corpus
Koraniczny Korpus Arabski | |
---|---|
Centrum Badań: | Uniwersytet w Leeds |
Pierwsze wydanie: | Listopad 2009 |
Język: | Koran arabski, angielski |
Adnotacja: | Składnia, morfologia |
Struktura: | Gramatyka zależności |
Licencja: | Powszechna Licencja Publiczna GNU |
Strona internetowa: | http://corpus.quran.com/ |
Koranu Arabski Corpus jest odnotowany zasób językowy składa się z 77,430 słów Koranu po arabsku. Projekt ma na celu dostarczenie adnotacji morfologicznych i składniowych naukowcom, którzy chcą studiować język Koranu.
Funkcje
Analiza gramatyczna pomaga czytelnikom w dalszym odkrywaniu szczegółowych zamierzonych znaczeń każdego wersetu i zdania. Każde słowo Koranu jest oznaczone swoją częścią mowy, a także wieloma cechami morfologicznymi. W przeciwieństwie do innych arabskich korpusów z adnotacjami, ramy gramatyczne przyjęte przez Koranu Koranu to tradycyjna arabska gramatyka i'rab ( إﻋﺮﺍﺏ ). Projekt badawczy jest prowadzony przez Kais Dukes na Uniwersytecie w Leeds i jest częścią grupy badawczej zajmującej się komputerami w języku arabskim w ramach School of Computing, nadzorowanej przez Erica Atwella.
Korpus z adnotacjami zawiera:
- Ręcznie zweryfikowana część mowy otagowana korpusem Koranu Arabskiego.
- Bank drzew z adnotacjami w języku arabskim Koranu.
- Nowatorska wizualizacja tradycyjnej gramatyki arabskiej za pomocą wykresów zależności.
- Morfologiczne poszukiwania Koranu.
- Czytelny maszynowo morfologiczny leksykon słów koranicznych na język angielski.
- Konkordancja części mowy dla języka koranicznego arabskiego zorganizowana przez lemat.
- Internetowa tablica dyskusyjna do adnotacji wolontariuszy społeczności.
Adnotacja korpusu przypisuje każdemu słowu znacznik części mowy i cechy morfologiczne. Na przykład adnotacja polega na decydowaniu, czy słowo jest rzeczownikiem, czy czasownikiem i czy jest odmieniane na rodzaj męski czy żeński. Pierwszy etap projektu obejmował automatyczne oznaczanie części mowy poprzez zastosowanie w tekście technologii obliczeniowej języka arabskiego. Adnotacja do każdego z 77 430 słów w Koranie była następnie sprawdzana etapami przez dwóch adnotatorów, a udoskonalenia wciąż trwają, aby jeszcze bardziej poprawić dokładność.
Badania lingwistyczne Koranu, w których wykorzystuje się korpus z adnotacjami, obejmują szkolenie tagerów części mowy z modelem Ukrytego Markowa dla języka arabskiego, automatyczną kategoryzację rozdziałów Koranu i analizę prozodyczna tekstu.
Ponadto projekt zapewnia tłumaczenie Koranu słowo po słowie w oparciu o zaakceptowane źródła angielskie, zamiast tworzyć nowe tłumaczenie Koranu.