ISO 639-3 - ISO 639-3

ISO 639-3:2007 , Kody do reprezentacji nazw języków – Część 3: Kod alfa-3 dla kompleksowego pokrycia języków , to międzynarodowy standard kodów językowych w serii ISO 639 . Definiuje trzyliterowe kody do identyfikacji języków. Norma została opublikowana przez Międzynarodową Organizację Normalizacyjną (ISO) 1 lutego 2007 r.

ISO 639-3 rozszerza kody ISO 639-2 alpha-3 w celu objęcia wszystkich znanych języków naturalnych . Rozszerzony zakres językowy opierał się głównie na kodach językowych używanych w Ethnologue (tomy 10-14) opublikowanym przez SIL International , który jest obecnie organem rejestracji ISO 639-3. Zapewnia wyliczenie języków tak kompletnych, jak to możliwe, w tym języków żywych i wymarłych, starożytnych i skonstruowanych, głównych i drugorzędnych, pisanych i niepisanych. Jednak to nie obejmuje języków zrekonstruowane takie jak Proto-indoeuropejski .

ISO 639-3 jest przeznaczony do stosowania jako kody metadanych w szerokim zakresie zastosowań. Jest szeroko stosowany w systemach komputerowych i informatycznych, takich jak Internet, w których trzeba obsługiwać wiele języków. W archiwach i innych magazynach informacji jest używany w systemach katalogowania, wskazując, w jakim języku lub o jakim języku jest zasób. Kody są również często używane w literaturze językoznawczej i gdzie indziej, aby zrekompensować fakt, że nazwy językowe mogą być niejasne lub niejednoznaczne.

Znajdź język
Wprowadź kod ISO 639-3, aby znaleźć artykuł w odpowiednim języku.

Kody językowe

ISO 639-3 obejmuje wszystkie języki w ISO 639-1 i wszystkie poszczególne języki w ISO 639-2 . ISO 639-1 i ISO 639-2 skupiały się na głównych językach, najczęściej reprezentowanych w całej literaturze światowej. Ponieważ ISO 639-2 obejmuje również zbiory językowe, a część 3 nie, ISO 639-3 nie jest nadzbiorem ISO 639-2. Tam, gdzie w ISO 639-2 istnieją kody B i T, w ISO 639-3 stosuje się kody T.

Przykładowe kody języków ISO
Język 639-1 639-2 (B/T) 639-3 typ Kod 639-3
język angielski en pol indywidualny pol
Niemiecki de ger/deu indywidualny deu
arabski Ar ara makro ara
Standardowy arabski indywidualny arb
Egipski Arabski indywidualny arz
chiński zh chi/zho makro zho
Mandarynka indywidualny cmn
kantoński indywidualny tak
Minnan indywidualny nan

Na dzień 18 lutego 2021 r. standard zawiera 7893 wpisów. Inwentarz języków oparty jest na wielu źródłach, w tym: poszczególne języki zawarte w 639-2, języki nowożytne z Etnologu , odmiany historyczne, języki starożytne i języki sztuczne z Listy Lingwistycznej , a także języki polecane w ramach corocznej publiczności okres komentowania.

Pliki danych do odczytu maszynowego są dostarczane przez urząd rejestracyjny. Przy użyciu tych plików danych można wykonać mapowania z ISO 639-1 lub ISO 639-2 do ISO 639-3.

ISO 639-3 ma na celu rozróżnienie oparte na kryteriach, które nie są całkowicie obiektywne. Nie ma na celu dokumentowania ani dostarczania identyfikatorów dialektów lub innych odmian podjęzykowych. Niemniej jednak oceny dotyczące różnic między językami mogą być subiektywne, zwłaszcza w przypadku odmian językowych bez ugruntowanych tradycji literackich, użycia w edukacji lub mediach lub innych czynników przyczyniających się do konwencjonalizacji języka. Dlatego standardu nie należy traktować jako autorytatywnego określenia, jakie różne języki istnieją na świecie (co do czego w niektórych przypadkach może istnieć znaczna różnica zdań), ale raczej po prostu jako użyteczny sposób precyzyjnego identyfikowania różnych odmian językowych.

Miejsce na kod

Ponieważ kod składa się z trzech liter alfabetu, górna granica liczby języków, które można przedstawić, wynosi 26 × 26 × 26 = 17 576. Ponieważ ISO 639-2 definiuje specjalne kody (4), zarezerwowany zakres (520) i kody tylko B (22), kody 546 nie mogą być użyte w części 3. Dlatego bardziej rygorystyczna górna granica to 17 576 - 546 = 17 030.

Górna granica staje się jeszcze bardziej rygorystyczna, jeśli odejmuje się kolekcje językowe zdefiniowane w 639-2 i te, które nie zostały jeszcze zdefiniowane w ISO 639-5 .

Makrojęzyki

W ISO 639-2 występuje 58 języków, które dla celów normy są uważane za „makrojęzyki” w ISO 639-3.

Niektóre z tych makrojęzyków nie miały własnego języka zdefiniowanego przez ISO 639-3 w zestawie kodów ISO 639-2, np. „ara” (Ogólny arabski). Inne, takie jak „nor” (norweski) miały swoje dwie oddzielne części („nno” ( nynorsk ), „nob” ( bokmål )) już w ISO 639-2.

Oznacza to, że niektóre języki (np. „arb”, standardowy arabski), które zostały uznane przez ISO 639-2 za dialekty jednego języka („ara”), znajdują się teraz w ISO 639-3 w pewnych kontekstach uważanych za poszczególne języki.

Jest to próba zmierzenia się z odmianami, które mogą się językowo od siebie różnić, ale są traktowane przez ich użytkowników jako dwie formy tego samego języka, np. w przypadku dyglosji .

Na przykład:

Zobacz pełną listę.

Języki zbiorowe

„Element zbiorczego kodu języka to identyfikator reprezentujący grupę pojedynczych języków, które nie są uważane za jeden język w żadnym kontekście użytkowania”. Kody te nie reprezentują dokładnie określonego języka lub makrojęzyka.

Chociaż ISO 639-2 zawiera trzyliterowe identyfikatory języków zbiorowych, kody te są wyłączone z ISO 639-3. Stąd ISO 639-3 nie jest nadzbiorem ISO 639-2.

ISO 639-5 definiuje 3-literowe zbiorcze kody dla rodzin i grup językowych, w tym zbiorcze kody językowe z ISO 639-2.

Kody specjalne

W ISO 639-2 i ISO 639-3 odłożono cztery kody dla przypadków, w których żaden z określonych kodów nie jest odpowiedni. Są one przeznaczone głównie do zastosowań, takich jak bazy danych, w których wymagany jest kod ISO, niezależnie od tego, czy taki istnieje.

  • mis (języki niekodowane, pierwotnie skrót od „różne”) jest przeznaczony dla języków, które nie zostały (jeszcze) uwzględnione w normie ISO.
  • mul (wiele języków) jest przeznaczony do przypadków, w których dane obejmują więcej niż jeden język i (na przykład) baza danych wymaga jednego kodu ISO.
  • und(nieokreślony) jest przeznaczony do przypadków, w których język danych nie został zidentyfikowany, na przykład gdy jest niewłaściwie oznaczony lub nigdy nie był oznaczony. Nie jest przeznaczony do takich przypadków, jak trojan, w którym nadano nazwę nieatestowanemu językowi.
  • zxx (brak treści językowej / nie dotyczy) jest przeznaczony dla danych, które w ogóle nie są językiem, takie jak nawoływania zwierząt.

Ponadto, 520 kodów z tego zakresu qaaqtzjest „zarezerwowanych do użytku lokalnego”. Na przykład Rebecca Bettencourt przypisuje kod do sztucznych języków , a nowe przypisania są tworzone na żądanie. The Linguist List używa ich dla wymarłych języków . Linguist List przypisał jednemu z nich ogólną wartość: qnp, nienazwany protojęzyk. Jest to używane dla proponowanych węzłów pośrednich w drzewie genealogicznym, które nie mają nazwy.

Procesy utrzymania ruchu

Tabela kodów dla ISO 639-3 jest otwarta na zmiany. W celu ochrony stabilności dotychczasowego użytkowania, dozwolone zmiany ograniczają się do:

  • modyfikacje informacji referencyjnych dla wpisu (w tym nazwy lub kategoryzacji typu i zakresu),
  • dodawanie nowych wpisów,
  • wycofywanie wpisów, które są zduplikowane lub nieprawdziwe,
  • scalanie jednego lub więcej wpisów w inny wpis, oraz
  • dzielenie istniejącego wpisu językowego na wiele nowych wpisów językowych.

Kod przypisany do języka nie ulega zmianie, chyba że następuje również zmiana oznaczenia.

Zmiany dokonywane są w cyklu rocznym. Każdy wniosek otrzymuje co najmniej trzy miesiące na publiczne rozpatrzenie.

Witryna internetowa ISO 639-3 zawiera strony opisujące „zakresy denotacji” ( typy językowe ) i typy języków, które wyjaśniają, jakie koncepcje są w zakresie kodowania i jakie kryteria muszą być spełnione. Na przykład, języki sztuczne mogą być zakodowane, ale tylko wtedy, gdy są zaprojektowane do komunikacji międzyludzkiej i mają zasób literatury, zapobiegający prośbom o idiosynkratyczne wynalazki.

Urząd rejestracji dokumentuje na swojej stronie internetowej instrukcje zawarte w tekście normy ISO 639-3 dotyczące sposobu utrzymywania tabel kodów. Dokumentuje również procesy używane do otrzymywania i przetwarzania żądań zmian.

Dostępny jest formularz wniosku o zmianę, a drugi formularz służy do zbierania informacji o proponowanych uzupełnieniach. Każda ze stron może składać wnioski o zmianę. Po złożeniu wnioski są wstępnie sprawdzane przez organ rejestrujący pod kątem kompletności.

Po otrzymaniu w pełni udokumentowanego wniosku, jest ono dodawane do opublikowanego indeksu wniosków o zmianę. Ponadto, ogłoszenia są wysyłane do ogólnej listy dyskusyjnej LINGUIST w Linguist List i innych list, które organ rejestracyjny może uznać za istotne, zapraszając do publicznego wglądu i wkładu w żądaną zmianę. Każdy właściciel listy lub osoba fizyczna może zażądać powiadomień o prośbach o zmianę dla określonych regionów lub rodzin językowych. Otrzymane komentarze są publikowane do przejrzenia przez inne strony. Na podstawie konsensusu w otrzymanych komentarzach wniosek o zmianę może zostać wycofany lub awansowany do „statusu kandydata”.

Na trzy miesiące przed końcem rocznego cyklu przeglądu (zwykle we wrześniu) na liście dyskusyjnej LINGUIST i innych listach dotyczących wniosków o zmianę statusu kandydata umieszczane jest ogłoszenie. Wszystkie wnioski pozostają otwarte do przeglądu i komentarzy do końca rocznego cyklu przeglądu.

Decyzje ogłaszane są pod koniec rocznego cyklu przeglądu (zazwyczaj w styczniu). Wówczas wnioski mogą zostać przyjęte w całości lub w części, zmienione i przeniesione do następnego cyklu przeglądu lub odrzucone. Odrzucenia często zawierają sugestie dotyczące modyfikacji propozycji ponownego przesłania. Utrzymywane jest publiczne archiwum każdego wniosku o zmianę wraz z podjętymi decyzjami i uzasadnieniem decyzji.

Krytyka

Lingwiści Morey, Post i Friedman podnoszą różne uwagi krytyczne wobec ISO 639, a w szczególności ISO 639-3:

  • Same trzyliterowe kody są problematyczne, ponieważ chociaż są oficjalnie arbitralnymi etykietami technicznymi, często wywodzą się z mnemonicznych skrótów nazw językowych, z których niektóre są pejoratywne. Na przykład Yemsie przypisano kod jnj, od pejoratywnego „Janejero”. Kody te mogą zatem zostać uznane za obraźliwe przez native speakerów. Kody można jednak zmienić, przesyłając żądanie na stronie internetowej SIL .
  • Administracja standardem jest problematyczna, ponieważ SIL jest organizacją misyjną o niewystarczającej przejrzystości i odpowiedzialności. Decyzje o tym, co zasługuje na zakodowanie jako język, podejmowane są wewnętrznie. Chociaż wkład z zewnątrz może, ale nie musi być mile widziany, same decyzje są nieprzejrzyste, a wielu lingwistów zrezygnowało z prób poprawy standardu.
  • Trwała identyfikacja języka jest nie do pogodzenia ze zmianą języka.
  • Języków i dialektów często nie da się ściśle rozróżnić, a dialekt continua można podzielić na wiele sposobów, podczas gdy standard uprzywilejowuje jeden wybór. Takie rozróżnienia są często oparte na czynnikach społecznych i politycznych.
  • ISO 639-3 może być źle rozumiane i nadużywane przez władze, które podejmują decyzje dotyczące tożsamości i języka ludzi, znosząc prawo mówców do identyfikowania się lub identyfikowania się z ich odmianą mowy. Chociaż SIL jest wrażliwy na takie kwestie, problem ten jest nieodłącznie związany z naturą ustalonej normy, która może być używana (lub niewłaściwie używana) w sposób niezamierzony przez ISO i SIL.

Martin Haspelmath zgadza się z czterema z tych punktów, ale nie ze zmianą języka. Nie zgadza się, ponieważ każde ujęcie języka wymaga jego identyfikacji, a my możemy łatwo zidentyfikować różne etapy języka. Sugeruje, że językoznawcy mogą preferować stosowanie kodyfikacji na poziomie językoznawczym , ponieważ „dla językoznawców rzadko ma znaczenie, czy to, o czym mówią, jest językiem, dialektem, czy zwartą rodziną języków”. Kwestionuje również, czy norma ISO dotycząca identyfikacji języka jest odpowiednia, ponieważ ISO jest organizacją przemysłową, podczas gdy postrzega dokumentację językową i nazewnictwo jako przedsięwzięcie naukowe. Przytacza on pierwotną potrzebę standaryzowanych identyfikatorów językowych jako „ekonomiczne znaczenie tłumaczenia i lokalizacji oprogramowania ”, dla których ustanowiono normy ISO 639-1 i 639-2. Budzi jednak wątpliwości co do potrzeby przemysłu w zakresie wszechstronnego pokrycia zapewnianego przez ISO 639-3, w tym „mało znanych języków małych społeczności, które nigdy lub prawie nie są używane w piśmie i które często są zagrożone wyginięciem”.

Stosowanie

  • Etnolog
  • Lista językoznawców
  • OLAC : społeczność archiwum otwartych języków
  • Microsoft Windows 8 : obsługuje wszystkie kody w ISO 639-3 w momencie wydania.
  • Fundacja Wikimedia: Nowe projekty oparte na językach (np. Wikipedie w nowych językach) muszą mieć identyfikator z ISO 639-1, -2 lub -3.
  • Inne normy oparte na ISO 639-3:
    • Tagi językowe zdefiniowane przez Internet Engineering Task Force (IETF) , zgodnie z dokumentacją w:
      • BCP 47: Najlepsza bieżąca praktyka 47 , w tym RFC  5646
      • RFC  5646 , który zastąpił RFC  4646 , który zastąpił RFC  3066 . (Dlatego wszystkie normy, które zależą od którejkolwiek z tych 3 norm IETF, teraz używają ISO 639-3.)
    • Standard ePub 3.0 dla metadanych językowych wykorzystuje elementy Dublin Core Metadata. Te elementy metadanych języka w plikach ePub muszą zawierać prawidłowe kody RFC  5646 dla języków. RFC5646 wskazuje na ISO 639-3 dla języków bez krótszych kodów IANA.
    • Dublin Core Metadata Initiative : Termin metadanych DCMI dla języka, za pośrednictwem RFC 4646 IETF  (obecnie zastąpionego przez RFC  5646 ).
    • Internet Assigned Numbers Authority (IANA) Wysiłek W3C w zakresie internacjonalizacji zaleca korzystanie z Rejestru Subtagów Językowych IANA do wybierania kodów dla języków. Rejestr podtagów językowych IANA zależy od kodów ISO 639-3 dla języków, które wcześniej nie miały kodów w innych częściach standardu ISO 639.
    • HTML5: przez BCP 47 IETF.
    • Kody biblioteki MARC .
    • Kody biblioteki MODS : Zawiera RFC 3066 IETF  (obecnie zastąpiony przez RFC  5646 ).
    • Text Encoding Initiative (TEI): za pośrednictwem BCP 47 IETF.
    • Lexical Markup Framework : specyfikacja ISO dotycząca reprezentacji słowników do odczytu maszynowego.
    • Unicode jest wspólne narodowe repozytorium danych : Używa kilkaset kodów z ISO 639-3 nie zawarte w normie ISO 639-2.

Bibliografia

Dalsza lektura

Zewnętrzne linki