Język japoński i komputery - Japanese language and computers

Japońska klawiatura kana

W odniesieniu do języka japońskiego i komputerów pojawia się wiele problemów związanych z adaptacją, niektóre unikalne dla języka japońskiego, a inne wspólne dla języków, które mają bardzo dużą liczbę znaków. Liczba znaków potrzebnych do pisania po angielsku jest dość mała, a zatem możliwe jest użycie tylko jednego bajtu (2 8 =256 możliwych wartości) do zakodowania każdego angielskiego znaku. Jednak liczba znaków w języku japońskim jest znacznie większa niż 256, a zatem nie można ich zakodować przy użyciu jednego bajtu - japoński jest zatem zakodowany przy użyciu dwóch lub więcej bajtów, w tak zwanym kodowaniu „dwubajtowym” lub „wielobajtowym”. Pojawiające się problemy dotyczą transliteracji i latynizacji , kodowania znaków i wprowadzania tekstu japońskiego.

Kodowanie znaków

Istnieje kilka standardowych metod kodowania znaków japońskich do użytku na komputerze, w tym JIS , Shift-JIS , EUC i Unicode . Podczas gdy mapowanie zestawu kana jest prostą sprawą, kanji okazało się trudniejsze. Pomimo wysiłków żaden ze schematów kodowania nie stał się de facto standardem, a do 2000 roku używano wielu standardów kodowania. Od 2017 r. udział ruchu UTF-8 w Internecie wzrósł do ponad 90% na całym świecie, a tylko 1,2% dotyczyło korzystania z Shift-JIS i EUC. Jednak kilka popularnych witryn, w tym 2channel i kakaku.com, nadal używa Shift-JIS.

Do 2000 roku większość japońskich wiadomości e-mail była w standardzie ISO-2022-JP („kodowanie JIS”), a strony internetowe w Shift-JIS, a telefony komórkowe w Japonii zwykle używały jakiejś formy Extended Unix Code . Jeśli program nie określi zastosowanego schematu kodowania, może spowodować mojibake (文字化け, „ niewłaściwie przekonwertowane znaki nieczytelne/śmieci”, dosłownie „przekształcone znaki”), a tym samym nieczytelny tekst na komputerach.

Karta ROM Kanji zainstalowana w PC-98 , która przechowywała około 3000 glifów i umożliwiała szybkie wyświetlanie. Miał również pamięć RAM do przechowywania gaiji.
Urządzenia wbudowane nadal używają kana . o połowie szerokości

Pierwszym powszechnie stosowanym kodowaniem było JIS X 0201 , które jest kodowaniem jednobajtowym, które obejmuje tylko standardowe 7-bitowe znaki ASCII z rozszerzeniami katakana o połowie szerokości . Było to szeroko stosowane w systemach, które nie były wystarczająco wydajne ani nie miały pamięci do obsługi znaków kanji (w tym starego wbudowanego sprzętu, takiego jak kasy), ponieważ konwersja Kana-Kanji wymagała skomplikowanego procesu, a wyjście w kanji wymagało dużej ilości pamięci i wysokiej rozdzielczości. Oznacza to, że przy użyciu tej techniki obsługiwana była tylko katakana, a nie kanji. Niektóre wbudowane wyświetlacze nadal mają to ograniczenie.

Rozwój kodowania kanji był początkiem podziału. Shift JIS obsługuje kanji i został opracowany tak, aby był całkowicie wstecznie kompatybilny z JIS X 0201 , dzięki czemu znajduje się w wielu wbudowanych urządzeniach elektronicznych. Jednak Shift JIS ma tę niefortunną właściwość, że często psuje każdy parser (oprogramowanie, które odczytuje zakodowany tekst), który nie jest specjalnie zaprojektowany do jego obsługi.

Na przykład niektóre znaki Shift-JIS zawierają ukośnik odwrotny (005C "\") w drugim bajcie, który jest używany jako znak zmiany znaczenia .

8d 5c 82 Ed 82 c8 82 a2

Parser bez obsługi Shift JIS rozpozna 005C jako nieprawidłową sekwencję ucieczki i usunie ją. Dlatego fraza powoduje mojibake.

8d   82 Ed 82 c8 82 a2

Może się to zdarzyć na przykład w języku programowania C , gdy mamy Shift-JIS w ciągach tekstowych. Nie dzieje się tak w HTML, ponieważ ASCII 0x00–0x3F (w tym ", % i niektóre inne używane znaki ucieczki i separatory ciągów) nie pojawiają się jako drugi bajt w Shift-JIS.

Z drugiej strony, EUC jest znacznie lepiej obsługiwany przez parsery, które zostały napisane dla 7-bitowego ASCII (a zatem kodowania EUC są używane w systemie UNIX, gdzie większość kodu obsługującego pliki była historycznie pisana tylko dla kodowań angielskich). Ale EUC nie jest wstecznie kompatybilny z JIS X 0201, pierwszym głównym japońskim kodowaniem. Dalsze komplikacje pojawiają się, ponieważ oryginalne standardy poczty internetowej obsługują tylko 7-bitowe protokoły przesyłania. W ten sposób RFC  1468 (" ISO-2022-JP ", często nazywany po prostu kodowaniem JIS ) został opracowany do wysyłania i odbierania wiadomości e-mail.

Gaiji jest używany w napisach kodowanych japońskiej transmisji telewizyjnej

W standardach zestawów znaków, takich jak JIS , nie wszystkie wymagane znaki są zawarte, więc gaiji (外字"znaki zewnętrzne") są czasami używane jako uzupełnienie zestawu znaków. Gaiji może mieć postać zewnętrznych pakietów czcionek, w których normalne znaki zostały zastąpione nowymi znakami lub nowe znaki zostały dodane do nieużywanych pozycji znaków. Gaiji nie są jednak praktyczne w środowiskach internetowych, ponieważ zestaw czcionek musi być przeniesiony z tekstem, aby można było używać gaiji. W rezultacie takie znaki są zapisywane z podobnymi lub prostszymi znakami, albo tekst może wymagać zakodowania przy użyciu większego zestawu znaków (takiego jak Unicode), który obsługuje wymagany znak.

Unicode miał rozwiązać wszystkie problemy z kodowaniem we wszystkich językach. UTF-8 kodowania stosowane do kodowania Unicode na stronach internetowych nie ma wady, które Shift-JIS ma. Unicode jest obsługiwany przez międzynarodowe oprogramowanie i eliminuje potrzebę używania gaiji. Jednak nadal istnieją kontrowersje. W języku japońskim znaki kanji zostały ujednolicone z chińskim; oznacza to, że znak uważany za taki sam w języku japońskim i chińskim otrzymuje jedną liczbę, nawet jeśli w rzeczywistości wygląd jest nieco inny, a dokładny wygląd pozostawia się do użycia czcionki odpowiedniej dla ustawień regionalnych. Proces ten, zwany zjednoczeniem Han , wywołał kontrowersje. Poprzednie kodowania w Japonii, Tajwanie , Chinach kontynentalnych i Korei obsługiwały tylko jeden język, a Unicode powinien obsługiwać wszystkie. Sposób postępowania z Kanji/Chinese został jednak opracowany przez komitet złożony z przedstawicieli wszystkich czterech krajów/obszarów.

Wprowadzanie tekstu

Pisemny japoński używa kilku różnych skryptów: kanji (znaki chińskie), 2 zestawy kana (sylabariusze fonetyczne) i litery rzymskie. Podczas gdy kana i litery rzymskie można wpisywać bezpośrednio na komputerze, wprowadzanie znaków kanji jest bardziej skomplikowanym procesem, ponieważ jest znacznie więcej znaków kanji niż klawiszy na większości klawiatur. Aby wprowadzić znak kanji na nowoczesnych komputerach, najpierw wprowadza się tekst kanji, a następnie edytor metody wprowadzania (IME), czasami znany również jako procesor frontonu, wyświetla listę kanji kanji, które są zgodne fonetycznie, i umożliwia użytkownik, aby wybrać prawidłowe kanji. Bardziej zaawansowane edytory IME nie działają według słowa, ale frazy, zwiększając w ten sposób prawdopodobieństwo uzyskania pożądanych znaków jako pierwszej prezentowanej opcji. Odczyty Kanji mogą być wprowadzane przez romanizację ( rōmaji nyūryoku, ローマ字入力) lub bezpośrednie wprowadzanie kana ( kana nyūryoku,かな入力). Wprowadzanie Romaji jest bardziej powszechne na komputerach PC i innych pełnowymiarowych klawiaturach (chociaż bezpośrednie wprowadzanie jest również szeroko obsługiwane), podczas gdy bezpośrednie wprowadzanie kana jest zwykle używane w telefonach komórkowych i podobnych urządzeniach – każda z 10 cyfr (1–9,0) odpowiada do jednej z 10 kolumn w tabeli gojūon kana, a wielokrotne naciśnięcia wybierają wiersz.

Istnieją dwa główne systemy latynizacji języka japońskiego, znane jako Kunrei-shiki i Hepburn ; w praktyce „klawiatura romaji” (znana również jako wāpuro rōmaji lub „romaji edytor tekstu”) ogólnie pozwala na luźną kombinację obu. Implementacje IME mogą nawet obsługiwać klucze dla liter nieużywanych w żadnym schemacie latynizacji, takim jak L , konwertując je na najbardziej odpowiedni odpowiednik. Przy wprowadzaniu kana każdy klawisz na klawiaturze odpowiada bezpośrednio jednej kana. System klawiatury JIS jest standardem krajowym, ale istnieją alternatywy, takie jak klawiatura przesuwana kciukiem , powszechnie stosowana wśród profesjonalnych maszynistek.

Kierunek tekstu

LibreOffice Writer obsługuje opcję tekstu w dół

Japoński można pisać w dwóch kierunkach . Styl Yokogaki pisze od lewej do prawej, od góry do dołu, tak jak w języku angielskim. Styl Tategaki pisze najpierw od góry do dołu, a następnie przesuwa się od prawej do lewej.

Aby konkurować z Ichitaro , firma Microsoft dostarczyła kilka aktualizacji dla wczesnych japońskich wersji programu Microsoft Word, w tym obsługę tekstu skierowanego w dół, takich jak Word 5.0 Power Up Kit i Word 98.

QuarkXPress był najpopularniejszym oprogramowaniem DTP w Japonii w latach 90., mimo że miał długi cykl rozwoju. Jednak ze względu na brak obsługi tekstu skierowanego w dół, Adobe InDesign wyprzedził go, który miał silne wsparcie dla tekstu skierowanego w dół dzięki kilku aktualizacjom.

Obecnie obsługa tekstu skierowanego w dół jest niekompletna. Na przykład HTML nie obsługuje tategaki, a japońscy użytkownicy muszą używać tabel HTML, aby go symulować. Jednak CSS level 3 zawiera właściwość " write -mode ", która może renderować tategaki, gdy ma wartość " vertical-rl " (tzn. od góry do dołu, od prawej do lewej). Procesory tekstu i oprogramowanie DTP mają dla niego pełniejszą obsługę.

Zobacz też

Bibliografia

Zewnętrzne linki