Wikisłownik - Wiktionary

Wikisłownik
Wikisłownik - DP Derivative.svg
Angielskie logo Wikisłownika
Zrzut ekranu
Strona główna Wikisłownika.png
Strona główna angielskiego Wikisłownika dnia 14 stycznia 2019 r.
Rodzaj strony
Słownik online
Dostępne w Wielojęzyczny (158 aktywnych)
Właściciel Fundacja Wikimedia
Stworzone przez Jimmy Wales i społeczność Wikimedia
URL Wikisłownik .org
Handlowy Nie
Rejestracja Opcjonalny
Wystrzelony 12 grudnia 2002 ; 18 lat temu ( 2002-12-12 )
Aktualny stan aktywny

Wikisłownik to wielojęzyczny, internetowy projekt tworzenia darmowego słownika terminów (w tym słów , fraz , przysłów , rekonstrukcji językowych itp.) we wszystkich językach naturalnych i wielu językach sztucznych . Wpisy te mogą zawierać między innymi definicje , obrazy do ilustracji , wymowy , etymologie , odmiany , przykłady użycia , cytaty , terminy pokrewne i tłumaczenia słów na inne języki. Jest edytowany wspólnie przez wiki . Jego nazwa to kontaminacja wyrazów wiki i słownikowych . Jest dostępny w 182 językach i prostym angielskim . Podobnie jak jego siostrzany projekt Wikipedia , Wikisłownik jest prowadzony przez Fundację Wikimedia i jest pisany wspólnie przez wolontariuszy , zwanych „Wiktionarians”. Jej oprogramowanie wiki , MediaWiki , pozwala prawie każdemu, kto ma dostęp do witryny, tworzyć i edytować wpisy.

Ponieważ Wikisłownik nie jest ograniczony względami przestrzeni do druku, większość wydań językowych Wikisłownika zawiera definicje i tłumaczenia słów z wielu języków, a niektóre edycje oferują dodatkowe informacje, które zazwyczaj można znaleźć w tezaurusach .

Dane Wikisłownika są często używane w różnych zadaniach przetwarzania języka naturalnego .

Historia i rozwój

Wikisłownik został udostępniony online 12 grudnia 2002 r. na wniosek Daniela Alstona i pomysłu Larry'ego Sangera , współzałożyciela Wikipedii. 28 marca 2004 r. powstały pierwsze nieanglojęzyczne Wikisłowniki w języku francuskim i polskim . Od tego czasu powstały Wikisłowniki w wielu innych językach. Wikisłownik był hostowany na tymczasowej nazwie domeny (wiktionary.wikipedia.org) do 1 maja 2004 roku, kiedy to przełączył się na obecną nazwę domeny. Od lipca 2021 r. Wikisłownik zawiera ponad 30 milionów artykułów (i jeszcze więcej wpisów) w swoich wydaniach. Największą z edycji językowych jest angielski Wikisłownik z ponad 6,8 ​​milionami wpisów, a następnie francuski z ponad 4,2 milionami i Madagaskar z ponad 1,7 milionami wpisów. Czterdzieści trzy wersje językowe Wikisłownika zawierają ponad 100 000 wpisów każda.

Użycie botów do generowania dużej liczby artykułów jest widoczne jako „zryw wzrostu” na tym wykresie liczby artykułów w ośmiu największych edycjach Wikisłownika. (dane z grudnia 2009 r.)

Wiele definicji w największych edycjach językowych projektu zostało stworzonych przez boty, które znalazły kreatywne sposoby generowania wpisów lub (rzadko) automatycznie importowały tysiące wpisów z wcześniej opublikowanych słowników. Siedem z 18 botów zarejestrowanych w angielskim Wikisłowniku w 2007 roku stworzyło tam 163 000 wpisów.

Inny z tych botów, „ThirdPersBot”, był odpowiedzialny za dodanie pewnej liczby koniugacji trzeciej osoby , które nie otrzymałyby własnych wpisów w standardowych słownikach; na przykład zdefiniował „tlące się” jako „trzeciej osoby liczby pojedynczej, teraźniejszej formy palenia się”. Spośród 1 269 938 definicji angielskich Wikisłowników o 996 450 angielskich słów, 478 068 to „formy” tego rodzaju definicji. Oznacza to, że nawet bez takich wpisów, jego zasięg w języku angielskim jest znacznie większy niż w przypadku głównych jednojęzycznych słowników drukowanych. Na przykład trzeci nowy międzynarodowy słownik języka angielskiego firmy Merriam-Webster , Unabridged , zawiera 475 000 haseł (z wieloma dodatkowymi, osadzonymi hasłami); Oxford English Dictionary posiada 615.000 headwords, ale obejmuje Bliski angielskiego , jak również, dla których angielski Wikisłownik ma dodatkowe 34,234 definicje połysku. Istnieją szczegółowe statystyki pokazujące, ile istnieje wpisów różnego rodzaju.

Angielski Wikisłownik nie opiera się na botach w takim stopniu, jak robią to niektóre inne edycje. Na przykład francuskie i wietnamskie Wikisłowniki zaimportowały duże sekcje projektu Free Vietnamese Dictionary Project (FVDP), który zapewnia bezpłatne dwujęzyczne słowniki do iz wietnamskiego. Te importowane wpisy stanowią praktycznie całą zawartość wietnamskiego wydania. Podobnie jak wersja angielska, francuski Wikisłownik zaimportował około 20 000 wpisów z bazy danych Unihan zawierającej znaki chińskie, japońskie i koreańskie . Francuski Wikisłownik szybko się rozrósł w 2006 r., w dużej mierze dzięki botom kopiującym wiele haseł ze starych słowników na wolnej licencji, takich jak ósme wydanie Dictionnaire de l'Académie française (1935, około 35 000 słów) i za pomocą botów do dodawania słowa z innych wydań Wikisłownika z francuskimi tłumaczeniami. Rosyjskie wydanie wzrosła o prawie 80000 wpisów jak „LXbot” dodawanych wpisów boilerplate (z pozycji, ale bez definicji) dla słów w języku angielskim i niemieckim .

Od lipca 2021 r. en.wiktionary zawiera ponad 791 870 definicji połysku i ponad 1 269 938 definicji (w tym różne formy) dla samych haseł w języku angielskim, w sumie ponad 9 928 056 definicji we wszystkich językach.

Logos

Wikisłownik historycznie nie posiadał jednolitego logo w wielu wersjach językowych. Niektóre edycje używają logo, które przedstawia hasło słownikowe dotyczące terminu „Wiktionary”, oparte na poprzednim logo angielskiego Wikisłownika, które zostało zaprojektowane przez Brion Vibber, programistę MediaWiki . Ponieważ czysto tekstowe logo musi się znacznie różnić w zależności od języka, od września do października 2006 r. na Wikimedia Meta-Wiki odbył się czteroetapowy konkurs na przyjęcie jednolitego logo. Niektóre społeczności przyjęły zwycięski wpis „Smurrayinchester”, 3 ×3 siatka drewnianych płytek, każda z postacią z innego systemu pisania. Jednak ankieta nie wykazała tak dużego udziału społeczności Wikisłownika, jak oczekiwali niektórzy członkowie społeczności, a wiele większych wiki ostatecznie zachowało swoje tekstowe logo.

W kwietniu 2009 r. emisja została wznowiona w nowym konkursie. Tym razem przedstawienie przez „AAEngelman” otwartego słownika w twardej oprawie wygrało bezpośrednie głosowanie przeciwko logo z 2006 roku, ale proces udoskonalania i przyjmowania nowego logo utknął w martwym punkcie. W następnych latach niektóre wiki zastąpiły swoje logo tekstowe jednym z dwóch nowszych logo. W 2012 roku 55 witryn wiki, które używały logo angielskiego Wikisłownika, otrzymało zlokalizowane wersje projektu z 2006 roku autorstwa „Smurrayinchester”. W lipcu 2016 r. angielski Wikisłownik przyjął wariant tego logo. Od 4 lipca 2016 r. 135 witryn wiki, reprezentujących 61% wpisów w Wikisłownikach, używa logo opartego na projekcie „Smurrayinchester” z 2006 r., 33 wiki (36%) używa logo tekstowego, a trzy wiki (3%) używają logo z 2009 r. projekt „AAEngelman”.

Kryteria zapewnienia dokładności

Aby zapewnić dokładność, angielski Wikisłownik ma zasady wymagające poświadczania terminów . Terminy w głównych językach, takich jak angielski i chiński, muszą zostać zweryfikowane przez:

  1. wyraźnie powszechne użycie, lub
  2. wykorzystanie na trwale zapisanych nośnikach, przekazujących znaczenie, w co najmniej trzech niezależnych przypadkach trwających co najmniej rok.

W przypadku mniej udokumentowanych języków, takich jak Creek i języków wymarłych, takich jak łacina , wystarczy jedno użycie na trwale zapisanym nośniku lub jedna wzmianka w pracy źródłowej.

Wielojęzyczny

Od października 2021 r. istnieją witryny typu Wikisłownik dla 182 języków, z których 158 jest aktywnych, a 24 są zamknięte. Aktywne strony mają 30 604 247 artykułów, a zamknięte strony mają 339 artykułów. Zarejestrowanych jest 6 401 039 użytkowników, z których 4 727 jest ostatnio aktywnych.

Dziesięć najlepszych projektów w języku wiktionary według artykułów w mainspace:

Język Wiki Dobry Całkowity Edycje Administratorzy Użytkownicy Aktywni użytkownicy Pliki
1 język angielski en 6,805,664 7 748 050 64 159 832 103 3 865 931 1,804 24
2 Francuski fr 4 252 066 4,572,906 29 847 394 35 313,809 465 6
3 malgaski mg 1,709,188 1 792 331 29 121 199 2 9706 9 3
4 Rosyjski ru 1.148,801 2 404 961 12 025 802 14 266 488 258 142
5 chiński zh 1 079 226 1,643,278 6 317 646 7 98 920 65 36
6 Niemiecki de 1 007 724 1.173.340 8 869 745 17 204,475 215 99
7 serbsko-chorwacki CII 911 567 916,410 1,469,307 4 6515 1 3
8 hiszpański tak 908.462 962,857 5 020 845 8 133 449 89 14
9 szwedzki sv 810 881 851493 3 622 458 14 49 527 64 1
10 grecki el 798 915 839.603 5 321 529 7 47,661 68 55

Pełna lista z sumami znajduje się w Statystykach Wikimedia:

Krytyczny odbiór

Krytyczny odbiór Wikisłownika był mieszany. W 2006 roku Jill Lepore napisała w artykule „Arka Noego” dla The New Yorker :

W Wikisłowniku nie ma pokazu rąk . Nie ma nawet redakcji. „Bądź swoim własnym leksykografem!”, może być motto Wikisłownika . Kto potrzebuje ekspertów? Po co płacić dobre pieniądze za słownik pisany przez leksykografów, skoro sami moglibyśmy go skleić?

Wikisłownik jest nie tyle republikański czy demokratyczny, co maoistyczny. I jest tylko tak dobry, jak wygasłe prawa autorskie książek, z których podkrada.

Recenzja Keira Graffa dla Booklist była mniej krytyczna:

Czy jest miejsce na Wikisłownik? Niewątpliwie. Branża i entuzjazm wielu jej twórców są dowodem na to, że istnieje rynek. Wspaniale jest mieć inne silne źródło do wykorzystania podczas wyszukiwania dziwnych terminów, które pojawiają się w dzisiejszym szybko zmieniającym się świecie i środowisku online. Ale podobnie jak w przypadku wielu źródeł internetowych (w tym tej kolumny), najlepiej używać go wyrafinowani użytkownicy w połączeniu z bardziej renomowanymi źródłami.

Odniesienia w innych publikacjach są przelotne i stanowią część szerszych dyskusji na temat Wikipedii, nie wykraczając poza definicję, chociaż David Brooks w The Nashua Telegraph opisał to jako „dzikie i wełniste”. Jedną z przeszkód w niezależnym relacjonowaniu Wikipedii jest ciągłe zamieszanie, że jest to jedynie rozszerzenie Wikipedii.

Miara poprawności fleksji dla podzbioru słów polskich w angielskim Wikisłowniku wykazała, że ​​te dane gramatyczne są bardzo stabilne. Tylko w 131 z 4748 polskich słów poprawiono dane dotyczące fleksji.

Od 2016 r. Wikisłownik ma coraz większe zastosowanie w środowisku akademickim.

Dane słownikowe w przetwarzaniu języka naturalnego

Wikisłownik zawiera częściowo ustrukturyzowane dane . Dane leksykograficzne mogą być konwertowane na format do odczytu maszynowego w celu wykorzystania ich w zadaniach przetwarzania języka naturalnego .

Wikisłownik data mining to złożone zadanie. Istnieją następujące trudności:

    • (1) ciągłe i częste zmiany danych i schematów
    • (2) heterogeniczność w schemacie edycji języka Wikisłownika i
    • (3) humanocentryczny charakter wiki .

Istnieje kilka parserów dla różnych wersji językowych Wikisłownika:

  • DBpedia Wikisłownik : podprojekt DBpedia , dane są pobierane z angielskich, francuskich, niemieckich i rosyjskich Wikisłowników; dane obejmują język, części mowy, definicje, relacje semantyczne i tłumaczenia. W celu wydobycia informacji stosuje się deklaratywny opis schematu strony, wyrażenia regularne oraz skończony przetwornik stanu .
  • JWKTL (Java Wiktionary Library) : zapewnia dostęp do zrzutów angielskich i niemieckich Wikisłowników za pośrednictwem Java Wiktionary API . Dane obejmują język, części mowy, definicje, cytaty, relacje semantyczne, etymologie i tłumaczenia. JWKTL jest rozpowszechniany na licencji Apache License .
  • wikokit : parser angielskiego i rosyjskiego Wikisłownika. Analizowane dane obejmują język, części mowy, definicje, cytaty, relacje semantyczne i tłumaczenia. Jest to wielolicencjonowane oprogramowanie typu open source.
  • Hasła etymologiczne zostały przeanalizowane w projekcie Etymological WordNet .

Przykłady zadań przetwarzania języka naturalnego, które zostały rozwiązane za pomocą danych Wikisłownika obejmują:

  • Tłumaczenie maszynowe oparte na regułach między językiem niderlandzkim a afrikaans ; dane z Wikisłownika angielskiego, Wikisłownika holenderskiego i Wikipedii zostały wykorzystane z platformą tłumaczenia maszynowego Apertium .
  • Budowa słownika do odczytu maszynowego przez parser NULEX, który integruje otwarte zasoby językowe: angielski Wiktionary, WordNet i VerbNet . Parser NULEX zeskrobuje angielski Wikisłownik dla informacji o czasie (czasowniki), liczbie mnogiej i części mowy (rzeczowniki).
  • Rozpoznawanie i synteza mowy , gdzie Wikisłownik był używany do automatycznego tworzenia słowników wymowy. Pary wymowy wyrazów zostały pobrane z 6 edycji językowych Wikisłownika (czeski, angielski, francuski, hiszpański, polski i niemiecki). Wymowy są zgodne z międzynarodowym alfabetem fonetycznym . System ASR oparty na angielskim Wikisłowniku ma najwyższy wskaźnik błędów słownych, gdzie co trzeci fonem musi zostać zmieniony.
  • Inżynieria ontologiczna i konstruowanie sieci semantycznych .
  • Dopasowanie ontologii .
  • Uproszczenie tekstu . Medero & Ostendorf ocenili trudności słownictwa ( wykrywanie poziomu czytania ) za pomocą danych Wikisłownika. Zbadano właściwości słów wyodrębnionych z wpisów w Wikisłowniku (długość definicji i POS , sens i liczba tłumaczeń). Medero i Ostendorf spodziewali się tego
    • (1) bardzo popularne słowa będą częściej miały wiele części mowy,
    • (2) popularne słowa, aby z większym prawdopodobieństwem miały wiele sensów,
    • (3) wspólne słowa z większym prawdopodobieństwem zostaną przetłumaczone na wiele języków. Te cechy wyodrębnione z wpisów w Wikisłowniku były przydatne w odróżnianiu typów słów, które pojawiają się w artykułach Simple English Wikipedia od słów, które pojawiają się tylko w porównywalnych artykułach w języku standardowym.
  • Oznaczanie części mowy . Li i in. (2012) zbudowali wielojęzyczne tagi POS dla ośmiu ubogich w zasoby języków na podstawie angielskiego Wikisłownika i ukrytych modeli Markowa .
  • Analiza sentymentu .

„Wikidata: Dane leksykograficzne” zostało uruchomione w 2018 r., aby zapewnić obsługę danych strukturalnych dla Wikitonariuszy. Przechowuje dane tekstowe we wszystkich językach w modelu danych do odczytu maszynowego, pod dedykowaną przestrzenią nazw „Lexem” w Wikidata. Do października 2021 r. projekt zgromadził ponad 600 000 haseł leksemów w różnych językach.

Zobacz też

Uwagi

Bibliografia

Cytaty

Źródła

  • Krizhanovsky, Andrew (2010). „Transformacja struktury wejścia Wikisłownika do tabel i relacji w schemacie relacyjnej bazy danych”. arXiv : 1011.1368 [ cs ].
  • Krizhanovsky, Andrew (2010). „Porównanie tezaurusów Wikisłownika przekształcone w format do odczytu maszynowego”. arXiv : 1006.5040 [ cs ].
  • Li, Shen; Graça, João V.; Taskar, Ben (2012). „Tagowanie części mowy nadzorowane przez Wiki” (PDF) . Materiały ze wspólnej konferencji z 2012 r. nt. metod empirycznych w przetwarzaniu języka naturalnego i komputerowym uczeniu się języka naturalnego . Wyspa Jeju, Korea: Stowarzyszenie Lingwistyki Komputerowej. s. 1389-1398.
  • Lin, Feiju; Krizhanovsky, Andrew (2011). „Wielojęzyczne dopasowanie ontologii na podstawie danych Wikisłownika dostępnych za pośrednictwem punktu końcowego SPARQL”. Proc. 13. Rosyjskiej Konferencji Bibliotek Cyfrowych RCDL'2011 . Woroneż, Rosja. s. 19–26. arXiv : 1109.0732 . Kod Bib : 2011arXiv1109.0732L .
  • "Wiktionary" . Top 101 witryn internetowych. Magazyn PC . Ziff Davis. 6 kwietnia 2005. Zarchiwizowane z oryginału 21 grudnia 2005 . Źródło 16 grudnia 2005 .

Zewnętrzne linki