Wikisłownik - Wiktionary
Rodzaj strony |
Słownik online |
---|---|
Dostępne w | Wielojęzyczny (158 aktywnych) |
Właściciel | Fundacja Wikimedia |
Stworzone przez | Jimmy Wales i społeczność Wikimedia |
URL | Wikisłownik |
Handlowy | Nie |
Rejestracja | Opcjonalny |
Wystrzelony | 12 grudnia 2002 |
Aktualny stan | aktywny |
Wikisłownik to wielojęzyczny, internetowy projekt tworzenia darmowego słownika terminów (w tym słów , fraz , przysłów , rekonstrukcji językowych itp.) we wszystkich językach naturalnych i wielu językach sztucznych . Wpisy te mogą zawierać między innymi definicje , obrazy do ilustracji , wymowy , etymologie , odmiany , przykłady użycia , cytaty , terminy pokrewne i tłumaczenia słów na inne języki. Jest edytowany wspólnie przez wiki . Jego nazwa to kontaminacja wyrazów wiki i słownikowych . Jest dostępny w 182 językach i prostym angielskim . Podobnie jak jego siostrzany projekt Wikipedia , Wikisłownik jest prowadzony przez Fundację Wikimedia i jest pisany wspólnie przez wolontariuszy , zwanych „Wiktionarians”. Jej oprogramowanie wiki , MediaWiki , pozwala prawie każdemu, kto ma dostęp do witryny, tworzyć i edytować wpisy.
Ponieważ Wikisłownik nie jest ograniczony względami przestrzeni do druku, większość wydań językowych Wikisłownika zawiera definicje i tłumaczenia słów z wielu języków, a niektóre edycje oferują dodatkowe informacje, które zazwyczaj można znaleźć w tezaurusach .
Dane Wikisłownika są często używane w różnych zadaniach przetwarzania języka naturalnego .
Historia i rozwój
Wikisłownik został udostępniony online 12 grudnia 2002 r. na wniosek Daniela Alstona i pomysłu Larry'ego Sangera , współzałożyciela Wikipedii. 28 marca 2004 r. powstały pierwsze nieanglojęzyczne Wikisłowniki w języku francuskim i polskim . Od tego czasu powstały Wikisłowniki w wielu innych językach. Wikisłownik był hostowany na tymczasowej nazwie domeny (wiktionary.wikipedia.org) do 1 maja 2004 roku, kiedy to przełączył się na obecną nazwę domeny. Od lipca 2021 r. Wikisłownik zawiera ponad 30 milionów artykułów (i jeszcze więcej wpisów) w swoich wydaniach. Największą z edycji językowych jest angielski Wikisłownik z ponad 6,8 milionami wpisów, a następnie francuski z ponad 4,2 milionami i Madagaskar z ponad 1,7 milionami wpisów. Czterdzieści trzy wersje językowe Wikisłownika zawierają ponad 100 000 wpisów każda.
Wiele definicji w największych edycjach językowych projektu zostało stworzonych przez boty, które znalazły kreatywne sposoby generowania wpisów lub (rzadko) automatycznie importowały tysiące wpisów z wcześniej opublikowanych słowników. Siedem z 18 botów zarejestrowanych w angielskim Wikisłowniku w 2007 roku stworzyło tam 163 000 wpisów.
Inny z tych botów, „ThirdPersBot”, był odpowiedzialny za dodanie pewnej liczby koniugacji trzeciej osoby , które nie otrzymałyby własnych wpisów w standardowych słownikach; na przykład zdefiniował „tlące się” jako „trzeciej osoby liczby pojedynczej, teraźniejszej formy palenia się”. Spośród 1 269 938 definicji angielskich Wikisłowników o 996 450 angielskich słów, 478 068 to „formy” tego rodzaju definicji. Oznacza to, że nawet bez takich wpisów, jego zasięg w języku angielskim jest znacznie większy niż w przypadku głównych jednojęzycznych słowników drukowanych. Na przykład trzeci nowy międzynarodowy słownik języka angielskiego firmy Merriam-Webster , Unabridged , zawiera 475 000 haseł (z wieloma dodatkowymi, osadzonymi hasłami); Oxford English Dictionary posiada 615.000 headwords, ale obejmuje Bliski angielskiego , jak również, dla których angielski Wikisłownik ma dodatkowe 34,234 definicje połysku. Istnieją szczegółowe statystyki pokazujące, ile istnieje wpisów różnego rodzaju.
Angielski Wikisłownik nie opiera się na botach w takim stopniu, jak robią to niektóre inne edycje. Na przykład francuskie i wietnamskie Wikisłowniki zaimportowały duże sekcje projektu Free Vietnamese Dictionary Project (FVDP), który zapewnia bezpłatne dwujęzyczne słowniki do iz wietnamskiego. Te importowane wpisy stanowią praktycznie całą zawartość wietnamskiego wydania. Podobnie jak wersja angielska, francuski Wikisłownik zaimportował około 20 000 wpisów z bazy danych Unihan zawierającej znaki chińskie, japońskie i koreańskie . Francuski Wikisłownik szybko się rozrósł w 2006 r., w dużej mierze dzięki botom kopiującym wiele haseł ze starych słowników na wolnej licencji, takich jak ósme wydanie Dictionnaire de l'Académie française (1935, około 35 000 słów) i za pomocą botów do dodawania słowa z innych wydań Wikisłownika z francuskimi tłumaczeniami. Rosyjskie wydanie wzrosła o prawie 80000 wpisów jak „LXbot” dodawanych wpisów boilerplate (z pozycji, ale bez definicji) dla słów w języku angielskim i niemieckim .
Od lipca 2021 r. en.wiktionary zawiera ponad 791 870 definicji połysku i ponad 1 269 938 definicji (w tym różne formy) dla samych haseł w języku angielskim, w sumie ponad 9 928 056 definicji we wszystkich językach.
Logos
Wikisłownik historycznie nie posiadał jednolitego logo w wielu wersjach językowych. Niektóre edycje używają logo, które przedstawia hasło słownikowe dotyczące terminu „Wiktionary”, oparte na poprzednim logo angielskiego Wikisłownika, które zostało zaprojektowane przez Brion Vibber, programistę MediaWiki . Ponieważ czysto tekstowe logo musi się znacznie różnić w zależności od języka, od września do października 2006 r. na Wikimedia Meta-Wiki odbył się czteroetapowy konkurs na przyjęcie jednolitego logo. Niektóre społeczności przyjęły zwycięski wpis „Smurrayinchester”, 3 ×3 siatka drewnianych płytek, każda z postacią z innego systemu pisania. Jednak ankieta nie wykazała tak dużego udziału społeczności Wikisłownika, jak oczekiwali niektórzy członkowie społeczności, a wiele większych wiki ostatecznie zachowało swoje tekstowe logo.
W kwietniu 2009 r. emisja została wznowiona w nowym konkursie. Tym razem przedstawienie przez „AAEngelman” otwartego słownika w twardej oprawie wygrało bezpośrednie głosowanie przeciwko logo z 2006 roku, ale proces udoskonalania i przyjmowania nowego logo utknął w martwym punkcie. W następnych latach niektóre wiki zastąpiły swoje logo tekstowe jednym z dwóch nowszych logo. W 2012 roku 55 witryn wiki, które używały logo angielskiego Wikisłownika, otrzymało zlokalizowane wersje projektu z 2006 roku autorstwa „Smurrayinchester”. W lipcu 2016 r. angielski Wikisłownik przyjął wariant tego logo. Od 4 lipca 2016 r. 135 witryn wiki, reprezentujących 61% wpisów w Wikisłownikach, używa logo opartego na projekcie „Smurrayinchester” z 2006 r., 33 wiki (36%) używa logo tekstowego, a trzy wiki (3%) używają logo z 2009 r. projekt „AAEngelman”.
Kryteria zapewnienia dokładności
Aby zapewnić dokładność, angielski Wikisłownik ma zasady wymagające poświadczania terminów . Terminy w głównych językach, takich jak angielski i chiński, muszą zostać zweryfikowane przez:
- wyraźnie powszechne użycie, lub
- wykorzystanie na trwale zapisanych nośnikach, przekazujących znaczenie, w co najmniej trzech niezależnych przypadkach trwających co najmniej rok.
W przypadku mniej udokumentowanych języków, takich jak Creek i języków wymarłych, takich jak łacina , wystarczy jedno użycie na trwale zapisanym nośniku lub jedna wzmianka w pracy źródłowej.
Wielojęzyczny
Od października 2021 r. istnieją witryny typu Wikisłownik dla 182 języków, z których 158 jest aktywnych, a 24 są zamknięte. Aktywne strony mają 30 604 247 artykułów, a zamknięte strony mają 339 artykułów. Zarejestrowanych jest 6 401 039 użytkowników, z których 4 727 jest ostatnio aktywnych.
Dziesięć najlepszych projektów w języku wiktionary według artykułów w mainspace:
№ | Język | Wiki | Dobry | Całkowity | Edycje | Administratorzy | Użytkownicy | Aktywni użytkownicy | Pliki |
---|---|---|---|---|---|---|---|---|---|
1 | język angielski | en | 6,805,664 | 7 748 050 | 64 159 832 | 103 | 3 865 931 | 1,804 | 24 |
2 | Francuski | fr | 4 252 066 | 4,572,906 | 29 847 394 | 35 | 313,809 | 465 | 6 |
3 | malgaski | mg | 1,709,188 | 1 792 331 | 29 121 199 | 2 | 9706 | 9 | 3 |
4 | Rosyjski | ru | 1.148,801 | 2 404 961 | 12 025 802 | 14 | 266 488 | 258 | 142 |
5 | chiński | zh | 1 079 226 | 1,643,278 | 6 317 646 | 7 | 98 920 | 65 | 36 |
6 | Niemiecki | de | 1 007 724 | 1.173.340 | 8 869 745 | 17 | 204,475 | 215 | 99 |
7 | serbsko-chorwacki | CII | 911 567 | 916,410 | 1,469,307 | 4 | 6515 | 1 | 3 |
8 | hiszpański | tak | 908.462 | 962,857 | 5 020 845 | 8 | 133 449 | 89 | 14 |
9 | szwedzki | sv | 810 881 | 851493 | 3 622 458 | 14 | 49 527 | 64 | 1 |
10 | grecki | el | 798 915 | 839.603 | 5 321 529 | 7 | 47,661 | 68 | 55 |
Pełna lista z sumami znajduje się w Statystykach Wikimedia:
Krytyczny odbiór
Krytyczny odbiór Wikisłownika był mieszany. W 2006 roku Jill Lepore napisała w artykule „Arka Noego” dla The New Yorker :
W Wikisłowniku nie ma pokazu rąk . Nie ma nawet redakcji. „Bądź swoim własnym leksykografem!”, może być motto Wikisłownika . Kto potrzebuje ekspertów? Po co płacić dobre pieniądze za słownik pisany przez leksykografów, skoro sami moglibyśmy go skleić?
Wikisłownik jest nie tyle republikański czy demokratyczny, co maoistyczny. I jest tylko tak dobry, jak wygasłe prawa autorskie książek, z których podkrada.
Recenzja Keira Graffa dla Booklist była mniej krytyczna:
Czy jest miejsce na Wikisłownik? Niewątpliwie. Branża i entuzjazm wielu jej twórców są dowodem na to, że istnieje rynek. Wspaniale jest mieć inne silne źródło do wykorzystania podczas wyszukiwania dziwnych terminów, które pojawiają się w dzisiejszym szybko zmieniającym się świecie i środowisku online. Ale podobnie jak w przypadku wielu źródeł internetowych (w tym tej kolumny), najlepiej używać go wyrafinowani użytkownicy w połączeniu z bardziej renomowanymi źródłami.
Odniesienia w innych publikacjach są przelotne i stanowią część szerszych dyskusji na temat Wikipedii, nie wykraczając poza definicję, chociaż David Brooks w The Nashua Telegraph opisał to jako „dzikie i wełniste”. Jedną z przeszkód w niezależnym relacjonowaniu Wikipedii jest ciągłe zamieszanie, że jest to jedynie rozszerzenie Wikipedii.
Miara poprawności fleksji dla podzbioru słów polskich w angielskim Wikisłowniku wykazała, że te dane gramatyczne są bardzo stabilne. Tylko w 131 z 4748 polskich słów poprawiono dane dotyczące fleksji.
Od 2016 r. Wikisłownik ma coraz większe zastosowanie w środowisku akademickim.
Dane słownikowe w przetwarzaniu języka naturalnego
Wikisłownik zawiera częściowo ustrukturyzowane dane . Dane leksykograficzne mogą być konwertowane na format do odczytu maszynowego w celu wykorzystania ich w zadaniach przetwarzania języka naturalnego .
Wikisłownik data mining to złożone zadanie. Istnieją następujące trudności:
- (1) ciągłe i częste zmiany danych i schematów
- (2) heterogeniczność w schemacie edycji języka Wikisłownika i
- (3) humanocentryczny charakter wiki .
Istnieje kilka parserów dla różnych wersji językowych Wikisłownika:
- DBpedia Wikisłownik : podprojekt DBpedia , dane są pobierane z angielskich, francuskich, niemieckich i rosyjskich Wikisłowników; dane obejmują język, części mowy, definicje, relacje semantyczne i tłumaczenia. W celu wydobycia informacji stosuje się deklaratywny opis schematu strony, wyrażenia regularne oraz skończony przetwornik stanu .
- JWKTL (Java Wiktionary Library) : zapewnia dostęp do zrzutów angielskich i niemieckich Wikisłowników za pośrednictwem Java Wiktionary API . Dane obejmują język, części mowy, definicje, cytaty, relacje semantyczne, etymologie i tłumaczenia. JWKTL jest rozpowszechniany na licencji Apache License .
- wikokit : parser angielskiego i rosyjskiego Wikisłownika. Analizowane dane obejmują język, części mowy, definicje, cytaty, relacje semantyczne i tłumaczenia. Jest to wielolicencjonowane oprogramowanie typu open source.
- Hasła etymologiczne zostały przeanalizowane w projekcie Etymological WordNet .
Przykłady zadań przetwarzania języka naturalnego, które zostały rozwiązane za pomocą danych Wikisłownika obejmują:
- Tłumaczenie maszynowe oparte na regułach między językiem niderlandzkim a afrikaans ; dane z Wikisłownika angielskiego, Wikisłownika holenderskiego i Wikipedii zostały wykorzystane z platformą tłumaczenia maszynowego Apertium .
- Budowa słownika do odczytu maszynowego przez parser NULEX, który integruje otwarte zasoby językowe: angielski Wiktionary, WordNet i VerbNet . Parser NULEX zeskrobuje angielski Wikisłownik dla informacji o czasie (czasowniki), liczbie mnogiej i części mowy (rzeczowniki).
- Rozpoznawanie i synteza mowy , gdzie Wikisłownik był używany do automatycznego tworzenia słowników wymowy. Pary wymowy wyrazów zostały pobrane z 6 edycji językowych Wikisłownika (czeski, angielski, francuski, hiszpański, polski i niemiecki). Wymowy są zgodne z międzynarodowym alfabetem fonetycznym . System ASR oparty na angielskim Wikisłowniku ma najwyższy wskaźnik błędów słownych, gdzie co trzeci fonem musi zostać zmieniony.
- Inżynieria ontologiczna i konstruowanie sieci semantycznych .
- Dopasowanie ontologii .
-
Uproszczenie tekstu . Medero & Ostendorf ocenili trudności słownictwa ( wykrywanie poziomu czytania ) za pomocą danych Wikisłownika. Zbadano właściwości słów wyodrębnionych z wpisów w Wikisłowniku (długość definicji i POS , sens i liczba tłumaczeń). Medero i Ostendorf spodziewali się tego
- (1) bardzo popularne słowa będą częściej miały wiele części mowy,
- (2) popularne słowa, aby z większym prawdopodobieństwem miały wiele sensów,
- (3) wspólne słowa z większym prawdopodobieństwem zostaną przetłumaczone na wiele języków. Te cechy wyodrębnione z wpisów w Wikisłowniku były przydatne w odróżnianiu typów słów, które pojawiają się w artykułach Simple English Wikipedia od słów, które pojawiają się tylko w porównywalnych artykułach w języku standardowym.
- Oznaczanie części mowy . Li i in. (2012) zbudowali wielojęzyczne tagi POS dla ośmiu ubogich w zasoby języków na podstawie angielskiego Wikisłownika i ukrytych modeli Markowa .
- Analiza sentymentu .
„Wikidata: Dane leksykograficzne” zostało uruchomione w 2018 r., aby zapewnić obsługę danych strukturalnych dla Wikitonariuszy. Przechowuje dane tekstowe we wszystkich językach w modelu danych do odczytu maszynowego, pod dedykowaną przestrzenią nazw „Lexem” w Wikidata. Do października 2021 r. projekt zgromadził ponad 600 000 haseł leksemów w różnych językach.
Zobacz też
Uwagi
Bibliografia
Cytaty
Źródła
- Chesley, Paula; Wincentego, Bruce'a; Xu, Li; Srihari, Rohini K. (2006). „Używanie czasowników i przymiotników do automatycznej klasyfikacji nastrojów na blogu” (PDF) . Szkolenie . 580 : 233–235 . Źródło 9 maja 2013 .
- Hellmanna, Sebastiana; Brekle, Jonasz; Auera, Sörena (2012). „Wykorzystywanie crowdsourcingu zasobów leksykalnych do ładowania początkowego chmury danych językowych” (PDF) . Proc. Wspólny wewn. Konferencja Technologii Semantycznych (JIST) . Nara, Japonia.
- Hellmann S.; Auer, S. (2013). „W kierunku wyodrębniania wiedzy opartej na współpracy w skali internetowej” (PDF) . W Gurevych Iryna; Kim, Jungi (red.). Sieć Ludowa spotyka NLP . Teoria i zastosowania przetwarzania języka naturalnego. Springer-Verlag . s. 287–313. Numer ISBN 978-3-642-35084-9.
- Krizhanovsky, Andrew (2010). „Transformacja struktury wejścia Wikisłownika do tabel i relacji w schemacie relacyjnej bazy danych”. arXiv : 1011.1368 [ cs ].
- Krizhanovsky, Andrew (2010). „Porównanie tezaurusów Wikisłownika przekształcone w format do odczytu maszynowego”. arXiv : 1006.5040 [ cs ].
- Kurmas, Zachary (lipiec 2010). Zawiliński: biblioteka do nauki gramatyki w Wikisłowniku . Materiały z VI Międzynarodowego Sympozjum Wikis i Open Collaboration. Gdańsk, Polska . Źródło 29 lipca 2011 .
- Li, Shen; Graça, João V.; Taskar, Ben (2012). „Tagowanie części mowy nadzorowane przez Wiki” (PDF) . Materiały ze wspólnej konferencji z 2012 r. nt. metod empirycznych w przetwarzaniu języka naturalnego i komputerowym uczeniu się języka naturalnego . Wyspa Jeju, Korea: Stowarzyszenie Lingwistyki Komputerowej. s. 1389-1398.
- Lepore, Jill (6 listopada 2006). „Arka Noego” . New Yorker (abstrakt) . Pobrano 21 kwietnia 2007 .
- Lin, Feiju; Krizhanovsky, Andrew (2011). „Wielojęzyczne dopasowanie ontologii na podstawie danych Wikisłownika dostępnych za pośrednictwem punktu końcowego SPARQL”. Proc. 13. Rosyjskiej Konferencji Bibliotek Cyfrowych RCDL'2011 . Woroneż, Rosja. s. 19–26. arXiv : 1109.0732 . Kod Bib : 2011arXiv1109.0732L .
- McFate, Clifton J.; Forbus, Kenneth D. (2011). „NULEX: ogólnodostępny leksykon o szerokim zasięgu” (PDF) . 49. Doroczne Spotkanie Stowarzyszenia Lingwistyki Komputerowej: Technologie Języka Człowieka, Materiały z Konferencji . Portland, Oregon, USA: Stowarzyszenie Lingwistyki Komputerowej. s. 363–367. Numer ISBN 978-1-932432-88-6.
- Medero, Julie; Ostendorf, Mari (2009). „Analiza trudności słownictwa przy użyciu Wikisłownika” (PDF) . Proc. Warsztat łupkowy .
- Meyera CM; Gurewycz, I. (2010). „Na wagę złota lub jeszcze innego zasobu – studium porównawcze dotyczące Wikisłownika, OpenThesaurus i GermaNet” (PDF) . Proc. 11. Międzynarodowa Konferencja nt. Inteligentnego Przetwarzania Tekstu i Lingwistyki Komputerowej, Jassy, Rumunia . s. 38–49. Zarchiwizowane z oryginału (PDF) w dniu 1 grudnia 2017 r . Źródło 10 maja 2013 .
- Meyera CM; Gurewycz, I. (2012). „OntoWiktionary – konstruowanie ontologii z Collaborative Online Dictionary wiktionary” (PDF) . W Pazienzie, MT; Stellato, A. (red.). Półautomatyczne opracowywanie ontologii: procesy i zasoby . IGI Global. s. 131–161. Numer ISBN 978-1-4666-0188-8. Zarchiwizowane z oryginału (PDF) 9 października 2013 r.
- Otte, Pim; Tyers, FM (2011). „Szybkie tłumaczenie maszynowe oparte na regułach między holenderskim a afrikaans” (PDF) . W Forcadzie Mikel L.; Depraetere, Heidi; Vandeghinste, Vincent (red.). 16. Doroczna Konferencja Europejskiego Stowarzyszenia Tłumaczeń Maszynowych, EAMT11 . Leuven, Belgia. s. 153-160.
- Sascha, Wolfer; Müller-Spitzer, Carolin (2016). „Ile osób tworzy tłum i co robią? Ilościowe analizy rewizji w angielskich i niemieckich wydaniach Wikisłownika” . Leksykos . 26 : 347-371. ISSN 1684-4904 . OCLC 7211535994 – przez ProQuest.
- Schlippe, Tim; Ochs, Sebastian; Schultz, Tanja (2012). „Generowanie modelu grafem na fonem dla języków indoeuropejskich” (PDF) . Akustyka, przetwarzanie mowy i sygnałów (ICASSP) . Kioto, Japonia. s. 4801–4804.
- Smirnow A, Lewaszowa T, Karpow A, Kipyatkova I, Ronzhin A, Krizhanovsky A, Krizhanovsky N (2012). „Analiza korpusu cytatów rosyjskiego Wikisłownika”. Badania w informatyce . 56 : 101–112. arXiv : 2002.00734 . CiteSeerX 10.1.1.1.694.9627 . doi : 10.13053/rcs-56-1-11 . S2CID 10726045 .
- Zesch, Torsten; Müllera, Christofa; Gurewycz, Iryna (2008). „Wyodrębnianie wiedzy leksykalno-semantycznej z Wikipedii i Wikisłownika” (PDF) . Materiały z konferencji na temat zasobów językowych i oceny (LREC) . Marrakesz, Maroko.
- "Wiktionary" . Top 101 witryn internetowych. Magazyn PC . Ziff Davis. 6 kwietnia 2005. Zarchiwizowane z oryginału 21 grudnia 2005 . Źródło 16 grudnia 2005 .
Zewnętrzne linki
- Lista wszystkich wydań Wikisłownika
- Strona główna Wikisłownika
- Wikisłownik pakiet Android wrepozytorium F-Droid
- Wikisłownik w Google Play
- Wielojęzyczne statystyki Wikisłownika
- Strona Wikimedia w Wikisłowniku (w tym lista wszystkich istniejących Wikisłowników)
- Strony o Wikisłowniku w Meta .