JIS X 0208 - JIS X 0208

JIS X 0208
Skróty)	JIS C 6226
Języki)	Japoński , angielski , rosyjski ; Częściowe wsparcie : grecki , chiński
Standard	JIS X 0208:1978 do 1997
Klasyfikacja	ISO 2022 , DBCS , kodowanie CJK
Rozszerzenia	ARIB STD B24 Kanji , NEC PC98 DBCS
Formaty kodowania
Poprzedzony	JIS X 0201
zastąpiony przez	JIS X 0213
Inne powiązane kodowanie(-a)	KS X 1001 , GB 2312 , JIS X 0212
	v; T; mi;

JIS X 0208 to dwubajtowy zestaw znaków określony jako japoński standard przemysłowy , zawierający 6879 znaków graficznych odpowiednich do pisania tekstu, nazw miejsc, imion osobistych itd. w języku japońskim . Oficjalny tytuł obecnego standardu to 7-bitowe i 8-bitowe dwubajtowe kodowane zestawy KANJI do wymiany informacji ( 7ビット及び8ビットの2バイト情報交換用符号化漢字集合, Nana-Bitto Oyobi Hachi-Bitto no Ni- Baito Jōhō Kōkan'yō Fugōka Kanji Shūgō ) . Została pierwotnie założona jako JIS C 6226 w 1978 roku i została zaktualizowana w 1983, 1990 i 1997. Jest również nazywana przez IBM stroną kodową 952 . Wersja z 1978 roku jest również nazywana przez IBM stroną kodową 955 .

Zakres użytkowania i kompatybilność

Zestaw znaków JIS X 0208 ustanawia przede wszystkim w celu wymiany informacji (情報交換, joho Kokan ) pomiędzy systemami przetwarzania danych i urządzeń podłączonych do nich, albo wzajemnie między systemów teleinformatycznych. Ten zestaw znaków może być używany do przetwarzania danych i przetwarzania tekstu.

Częściowe implementacje zestawu znaków nie są uważane za zgodne. Ponieważ są miejsca, w których wydarzyły się takie rzeczy, jak oryginalny komitet redakcyjny pierwszego standardu dbający o oddzielenie znaków między poziomem 1 i poziomem 2 oraz drugiego standardu, a następnie przetasowanie niektórych wariantów znaków (異体字, itaiji ) między poziomami, przynajmniej w pierwszym i drugim standardzie przypuszcza się, że japońskie systemy komputerowe nie korzystające z kanji i implementacji tylko poziomu 1 były kiedyś rozważane do opracowania. Jednak takie implementacje nigdy nie zostały określone jako kompatybilne, chociaż istniał przykład, taki jak wczesny NEC PC-9801 .

Mimo że w normie JIS X 0208:1997 istnieją przepisy dotyczące kompatybilności, w chwili obecnej powszechnie uważa się, że norma ta ani nie poświadcza zgodności, ani nie jest oficjalnym standardem produkcyjnym, który stanowi deklarację samozgodności. W konsekwencji, de facto , produkty „kompatybilne” z JIS X 0208 nie są uważane za istniejące. Terminologia taka jak „zgodny” (準拠, junkyo ) i „wsparcie” (対応, taiō ) jest zawarta w JIS X 0208, ale semantyka tych terminów różni się w zależności od osoby.

Wykresy kodów

Wiodący bajt

Pierwszy bajt kodowania odpowiada numerowi wiersza lub komórki plus 0x20 lub 32 w postaci dziesiętnej (patrz poniżej). W związku z tym zestaw kodów zaczynający się od 0x21 ma numer wiersza równy 1, a jego komórka 1 ma bajt kontynuacji równy 0x21 (lub 33) i tak dalej.

W przypadku bajtów wiodących używanych w przypadku znaków innych niż kanji , dostępne są łącza do wykresów na tej stronie z listą znaków zakodowanych pod tym bajtem wiodącym. W przypadku bajtów wiodących używanych w kanji dostępne są łącza do odpowiedniej sekcji indeksu kanji w Wikisłowniku .

JIS X 0208 (bajty wiodące)
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_MI	_F
2_	SP 0020	Punkt. OŁÓW 1-_	Symbol LEAD 2-_	Alnum. OŁÓW 3-_	Hiragana PROWADZĄCY 4-_	Katakana PRZEWÓD 5-_	grecki OŁÓW 6-_	cyrylica OŁÓW 7-_	Pole OŁÓW 8-_	9-_	10-_	11-_	12-_	13-_	14-_	15-_
3_	Kanji L1 ODPROWADZENIE 16-_	Kanji L1 PRZEWÓD 17-_	Kanji L1 ODPROWADZENIE 18-_	Kanji L1 ODPROWADZENIE 19-_	Kanji L1 PRZEWÓD 20-_	Kanji L1 ODPROWADZENIE 21-_	Kanji L1 ODPROWADZENIE 22-_	Kanji L1 PRZEWÓD 23-_	Kanji L1 ODPROWADZENIE 24-_	Kanji L1 OŁÓW 25-_	Kanji L1 PRZEWÓD 26-_	Kanji L1 ODPROWADZENIE 27-_	Kanji L1 PRZEWÓD 28-_	Kanji L1 ODPROWADZENIE 29-_	Kanji L1 ODPROWADZENIE 30-_	Kanji L1 ODPROWADZENIE 31-_
4_	Kanji L1 ODPROWADZENIE 32-_	Kanji L1 ODPROWADZENIE 33-_	Kanji L1 ODPROWADZENIE 34-_	Kanji L1 ODPROWADZENIE 35-_	Kanji L1 OŁÓW 36-_	Kanji L1 ODPROWADZENIE 37-_	Kanji L1 ODPROWADZENIE 38-_	Kanji L1 ODPROWADZENIE 39-_	Kanji L1 OŁÓW 40-_	Kanji L1 ODPROWADZENIE 41-_	Kanji L1 ODPROWADZENIE 42-_	Kanji L1 ODPROWADZENIE 43-_	Kanji L1 ODPROWADZENIE 44-_	Kanji L1 ODPROWADZENIE 45-_	Kanji L1 ODPROWADZENIE 46-_	Kanji L1 OŁÓW 47-_
5_	Kanji L2 ODPROWADZENIE 48-_	Kanji L2 ODPROWADZENIE 49-_	Kanji L2 OŁÓW 50-_	Kanji L2 ODPROWADZENIE 51-_	Kanji L2 ODPROWADZENIE 52-_	Kanji L2 ODPROWADZENIE 53-_	Kanji L2 ODPROWADZENIE 54-_	Kanji L2 ODPROWADZENIE 55-_	Kanji L2 ODPROWADZENIE 56-_	Kanji L2 PRZEWÓD 57-_	Kanji L2 ODPROWADZENIE 58-_	Kanji L2 ODPROWADZENIE 59-_	Kanji L2 ODPROWADZENIE 60-_	Kanji L2 ODPROWADZENIE 61-_	Kanji L2 ODPROWADZENIE 62-_	Kanji L2 ODPROWADZENIE 63-_
6_	Kanji L2 ODPROWADZENIE 64-_	Kanji L2 PRZEWÓD 65-_	Kanji L2 ODPROWADZENIE 66-_	Kanji L2 ODPROWADZENIE 67-_	Kanji L2 ODPROWADZENIE 68-_	Kanji L2 ODPROWADZENIE 69-_	Kanji L2 OŁÓW 70-_	Kanji L2 ODPROWADZENIE 71-_	Kanji L2 ODPROWADZENIE 72-_	Kanji L2 ODPROWADZENIE 73-_	Kanji L2 ODPROWADZENIE 74-_	Kanji L2 ODPROWADZENIE 75-_	Kanji L2 ODPROWADZENIE 76-_	Kanji L2 ODPROWADZENIE 77-_	Kanji L2 ODPROWADZENIE 78-_	Kanji L2 ODPROWADZENIE 79-_
7_	Kanji L2 PRZEWÓD 80-_	Kanji L2 ODPROWADZENIE 81-_	Kanji L2 ODPROWADZENIE 82-_	Kanji L2 ODPROWADZENIE 83-_	Kanji L2 ODPROWADZENIE 84-_	85-_	86-_	87-_	88-_	89-_	90-_	91-_	92-_	93-_	94-_	DEL 007F

Wiersze inne niż kanji

Zestaw znaków 0x21 (wiersz numer 1, znaki specjalne)

Niektórzy dostawcy używają nieco innego mapowania Unicode dla tego zestawu niż to poniżej. Na przykład Microsoft mapuje kuten 1-29 (JIS 0x213D) na U+2015 (Horizontal Bar), podczas gdy Apple mapuje go na U+2014 (Em Dash). Podobnie firma Microsoft mapuje kuten 1-61 (JIS 0x215D) na U + FF0D (forma pełnej szerokości U + 002D łącznik-minus), a Apple mapuje ją na U + 2212 (znak minus). Mapowanie Unicode kreski fali również różni się między dostawcami. Zobacz komórki z przypisami poniżej.

Znaki interpunkcyjne ASCII i JISCII (pokazane tutaj z grubą zieloną ramką) mogą używać alternatywnych mapowań do bloków formularzy o połowie szerokości i pełnej szerokości , jeśli są używane w kodowaniu, które łączy JIS X 0208 z ASCII lub JIS X 0201 , takim jak Shift JIS , EUC-JP lub ISO 2022-JP .

JIS X 0208 (z prefiksem 0x21)
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_MI	_F
2_		IDSP 3000 1-1	、 3001 1-2	。 3002 1-3	, 002C 1-4	. 002E 1-5	・ 30FB 1-6	: 003A 1-7	; 003B 1-8	? 003F 1-9	! 0021 1-10	゛ 309B 1-11	゜ 309C 1-12	" 00B4 1-13"	` 0060 1-14	¨ 00A8 1-15
3_	^ 005E 1-16	~ 203E 1-17	_ 005F 1-18	ヽ 30FD 1-19	ヾ 30FE 1-20	ゝ 309D 1-21	ゞ 309E 1-22	〃 3003 1-23	仝 4EDD 1-24	々 3005 1-25	〆 3006 1-26	〇 3007 1-27	ー 30FC 1-28	— 2014 1-29	‐ 2010 1-30	/ 002F 1-31
4_	\ 005C 1-32	〜 301C 1-33	‖ 2016 1-34	\| 007C 1-35	… 2026 1-36	‥ 2025 1-37	' 2018 1-38	' 2019 1-39	„ 201C 1-40	” 201D 1-41	( 0028 1-42	) 0029 1-43	〔 3014 1-44	〕 3015 1-45	[ 005B 1-46	] 005D 1-47
5_	{ 007B 1-48	} 007D 1-49	〈 3008 1-50	〉 3009 1-51	《 300A 1-52	》 300B 1-53	「 300C 1-54	」 300D 1-55	『 300E 1-56	』 300F 1-57	【 3010 1-58	】 3011 1-59	+ 002B 1-60	− 2212 1-61	± 00B1 1-62	× 00D7 1-63
6_	÷ 00F7 1-64	= 003D 1-65	≠ 2260 1-66	< 003C 1-67	> 003E 1-68	≦ 2266 1-69	≧ 2267 1-70	∞ 221E 1-71	∴ 2234 1-72	♂ 2642 1-74	♀ 2640 1-73	° 00B0 1-75	' 2032 1-76	″ 2033 1-77	℃ 2103 1-78	¥ 00A5 1-79
7_	0024 $ 1-80	¢ 00A2 1-81	£ 00A3 1-82	% 0025 1-83	# 0023 1-84	& 0026 1-85	* 002A 1-86	@ 0040 1-87	§ 00A7 1-88	☆ 2606 1-89	★ 2605 1-90	○ 25CB 1-91	● 25CF 1-92	◎ 25CE 1-93	◇ 25C7 1-94

List Numer Interpunkcja Symbol Inne Nieokreślony

Zestaw znaków 0x22 (wiersz numer 2, znaki specjalne)

Większość znaków z tego zestawu została dodana w 1983 roku, z wyjątkiem znaków 0x2221–0x222E (kuten 2-1 do 2-14 lub pierwszy wiersz poniższej tabeli), które zostały uwzględnione w oryginalnej wersji standardu z 1978 roku.

JIS X 0208 (z prefiksem 0x22)
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_MI	_F
2_		◆ 25C6 2-1	□ 25A1 2-2	■ 25A0 2-3	△ 25B3 2-4	▲ 25B2 2-5	▽ 25BD 2-6	▼ 25BC 2-7	※ 203B 2-8	〒 3012 2-9	→ 2192 2-10	← 2190 2-11	↑ 2191 2-12	↓ 2193 2-13	〓 3013 2-14	2-15
3_	2-16	2-17	2-18	2-19	2-21	2-21	2-22	2-23	2-24	2-25	∈ 2208 2-26	∋ 220B 2-27	⊆ 2286 2-28	⊇ 2287 2-29	⊂ 2282 2-30	⊃ 2283 2-31
4_	∪ 222A 2-32	∩ 2229 2-33	2-34	2-35	2-36	2-37	2-38	2-39	2-40	2-41	∧ 2227 2-42	∨ 2228 2-43	¬ 00AC 2-44	⇒ 21D2 2-45	⇔ 21D4 2-46	∀ 2200 2-47
5_	∃ 2203 2-48	2-49	2-50	2-51	2-52	2-53	2-54	2-55	2-56	2-57	2-58	2-59	∠ 2220 2-60	⊥ 22A5 2-61	⌒ 2312 2-62	∂ 2202 2-63
6_	∇ 2207 2-64	≡ 2261 2-65	≒ 2252 2-66	« 226a 2-67	≫ 226B 2-68	√ 221A 2-69	∽ 223D 2-70	Α 221D 2-71	∵ 2235 2-72	∫ 222B 2-73	∬ 222C 2-74	2-75	2-76	2-77	2-78	2-79
7_	2-80	2-81	Å 212B 2-82	‰ 2030 2-83	♯ 266F 2-84	♭ 266D 2-85	♪ 266A 2-86	† 2020 2-87	‡ 2021 2-88	¶ 00B6 2-89	2-90	2-91	2-92	2-93	◯ 25EF 2-94

Zestaw znaków 0x23 (wiersz numer 3, cyfry i Roman)

Ten zestaw zawiera podzbiór zbioru niezmienników ISO 646 (a zatem także podzbiór zarówno zbioru ASCII, jak i zbioru rzymskiego JIS X 0201 ), minus interpunkcja i symbole, obejmujący zachodnie cyfry arabskie i oba przypadki podstawowego alfabetu łacińskiego . Znaki w tym zestawie mogą korzystać z alternatywnych mapowań Unicode do bloków Halfwidth i Fullwidth Forms , jeśli są używane w kodowaniu łączącym JIS X 0208 z ASCII lub JIS X 0201, takim jak EUC-JP , Shift JIS lub ISO 2022-JP .

Porównaj wiersz 3 KPS 9566 , który dokładnie pasuje do tego wiersza. Porównaj i porównaj wiersz 3 KS X 1001 i GB 2312 , które zawierają w tym wierszu całe ich krajowe warianty ISO 646 , a nie tylko podzbiór alfanumeryczny.

JIS X 0208 (z prefiksem 0x23)
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_MI	_F
2_		3-1	3-2	3-3	3-4	3-5	3-6	3-7	3-8	3-9	3-10	3-11	3-12	3-13	3-14	3-15
3_	0 0030 3-16	1 0031 3-17	2 0032 3-18	3 0033 3-19	4 0034 3-20	5 0035 3-21	6 0036 3-22	7 0037 3-23	8 0038 3-24	9 0039 3-25	3-26	3-27	3-28	3-29	3-30	3-31
4_	3-32	0041 3-33	B 0042 3-34	C 0043 3-35	D 0044 3-36	E 0045 3-37	F 0046 3-38	G 0047 3-39	H 0048 3-40	I 0049 3-41	J 004A 3-42	K 004B 3-43	L 004C 3-44	M 004D 3-45	N 004E 3-46	O 004F 3-47
5_	P 0050 3-48	P 0051 3-49	R 0052 3-50	S 0053 3-51	T 0054 3-52	U 0055 3-53	V 0056 3-54	W 0057 3-55	X 0058 3-56	Y 0059 3-57	Z 005A 3-58	3-59	3-60	3-61	3-62	3-63
6_	3-64	0061 3-65	b 0062 3-66	c 0063 3-67	d 0064 3-68	e 0065 3-69	f 0066 3-70	g 0067 3-71	h 0068 3-72	I 0069 3-73	j 006A 3-74	k 006B 3-75	l 006C 3-76	m 006D 3-77	n 006E 3-78	o 006F 3-79
7_	p 0070 3-80	q 0071 3-81	R 0072 3-82	s 0073 3-83	T 0074 3-84	U 0075 3-85	v 0076 3-86	w 0077 3-87	x 0078 3-88	y 0079 3-89	z 007A 3-90	3-91	3-92	3-93	3-94

Zestaw znaków 0x24 (wiersz numer 4, Hiragana)

Ten wiersz zawiera japońską hiraganę .

Porównaj wiersz 4 GB 2312 , który pasuje do tego wiersza. Porównaj i porównaj wiersz 10 KPS 9566 i KS X 1001 , które używają tego samego układu, ale w innym wierszu.

JIS X 0208 (z prefiksem 0x24)
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_MI	_F
2_		ぁ 3041 4-1	あ 3042 4-2	ぃ 3043 4-3	い 3044 4-4	ぅ 3045 4-5	う 3046 4-6	ぇ 3047 4-7	え 3048 4-8	ぉ 3049 4-9	お 304A 4-10	か 304B 4-11	が 304C 4-12	き 304D 4-13	ぎ 304E 4-14	く 304F 4-15
3_	ぐ 3050 4-16	け 3051 4-17	げ 3052 4-18	こ 3053 4-19	ご 3054 4-20	さ 3055 4-21	ざ 3056 4-22	し 3057 4-23	じ 3058 4-24	す 3059 4-25	ず 305A 4-26	せ 305B 4-27	ぜ 305C 4-28	そ 305D 4-29	ぞ 305E 4-30	た 305F 4-31
4_	だ 3060 4-32	ち 3061 4-33	ぢ 3062 4-34	っ 3063 4-35	つ 3064 4-36	づ 3065 4-37	て 3066 4-38	で 3067 4-39	と 3068 4-40	ど 3069 4-41	な 306A 4-42	に 306B 4-43	ぬ 306C 4-44	ね 306D 4-45	の 306E 4-46	は 306F 4-47
5_	ば 3070 4-48	ぱ 3071 4-49	ひ 3072 4-50	び 3073 4-51	ぴ 3074 4-52	ふ 3075 4-53	ぶ 3076 4-54	ぷ 3077 4-55	へ 3078 4-56	べ 3079 4-57	ぺ 307A 4-58	ほ 307B 4-59	ぼ 307C 4-60	ぽ 307D 4-61	ま 307E 4-62	み 307F 4-63
6_	む 3080 4-64	め 3081 4-65	も 3082 4-66	ゃ 3083 4-67	や 3084 4-68	ゅ 3085 4-69	ゆ 3086 4-70	ょ 3087 4-71	よ 3088 4-72	ら 3089 4-73	り 308A 4-74	る 308B 4-75	れ 308C 4-76	ろ 308D 4-77	ゎ 308E 4-78	わ 308F 4-79
7_	ゐ 3090 4-80	ゑ 3091 4-81	を 3092 4-82	ん 3093 4-83	4-84	4-85	4-86	4-87	4-88	4-89	4-90	4-91	4-92	4-93	4-94

Zestaw znaków 0x25 (wiersz numer 5, Katakana)

Ten wiersz zawiera japońską katakanę .

Porównaj wiersz 5 GB 2312 , który pasuje do tego wiersza. Porównaj i porównaj wiersz 11 KPS 9566 i KS X 1001 , które używają tego samego układu, ale w innym wierszu. Porównaj ze znacznie odmiennym układem Katakana używanym przez JIS X 0201 .

JIS X 0208 (z prefiksem 0x25)
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_MI	_F
2_		ァ 30A1 5-1	ア 30A2 5-2	ィ 30A3 5-3	イ 30A4 5-4	ゥ 30A5 5-5	ウ 30A6 5-6	ェ 30A7 5-7	エ 30A8 5-8	ォ 30A9 5-9	オ 30AA 5-10	カ 30AB 5-11	ガ 30AC 5-12	キ30 AD 5-13	ギ 30AE 5-14	ク 30AF 5-15
3_	グ 30B0 5-16	ケ 30B1 5-17	ゲ 30B2 5-18	コ 30B3 5-19	ゴ 30B4 5-20	サ 30B5 5-21	ザ 30B6 5-22	シ 30B7 5-23	ジ 30B8 5-24	ス 30B9 5-25	ズ 30BA 5-26	セ 30BB 5-27	ゼ30 pne 5-28	ソ 30BD 5-29	ゾ 30BE 5-30	タ 30BF 5-31
4_	ダ 30C0 5-32	チ 30C1 5-33	ヂ 30C2 5-34	ッ 30C3 5-35	ツ 30C4 5-36	ヅ 30C5 5-37	テ 30C6 5-38	デ 30C7 5-39	ト 30C8 5-40	ド 30C9 5-41	ナ 30CA 5-42	ニ 30CB 5-43	ヌ 30CC 5-44	ネ 30CD 5-45	ノ 30CE 5-46	ハ 30CF 5-47
5_	バ 30D0 5-48	パ 30D1 5-49	ヒ 30D2 5-50	ビ 30D3 5-51	ピ 30D4 5-52	フ 30D5 5-53	ブ 30D6 5-54	プ 30D7 5-55	ヘ 30D8 5-56	ベ 30D9 5-57	ペ 30DA 5-58	ホ 30DB 5-59	ボ 30DC 5-60	ポ 30DD 5-61	マ 30DE 5-62	ミ 30DF 5-63
6_	ム 30E0 5-64	メ 30E1 5-65	モ 30E2 5-66	ャ 30E3 5-67	ヤ 30E4 5-68	ュ 30E5 5-69	ユ 30E6 5-70	ョ 30E7 5-71	ヨ 30E8 5-72	ラ 30E9 5-73	リ 30EA 5-74	ル 30EB 5-75	レ 30EC 5-76	ロ 30ED 5-77	ヮ 30EE 5-78	ワ 30EF 5-79
7_	ヰ 30F0 5-80	ヱ 30F1 5-81	ヲ 30F2 5-82	ン 30F3 5-83	ヴ 30F4 5-84	ヵ 30F5 5-85	ヶ 30F6 5-86	5-87	5-88	5-89	5-90	5-91	5-92	5-93	5-94

Zestaw znaków 0x26 (wiersz numer 6, grecki)

Ten wiersz zawiera podstawowe wsparcie dla współczesnego alfabetu greckiego , bez znaków diakrytycznych i końcowej sigma .

Porównaj wiersz 6 w GB 2312 i GB 12345 oraz wiersz 6 w KPS 9566 , które zawierają te same greckie litery w tym samym układzie, chociaż GB 12345 dodaje pionowe formy prezentacji, a KPS 9566 dodaje cyfry rzymskie. Porównaj i skontrastuj wiersz 5 KS X 1001 , w którym litery greckie są przesunięte tak, aby zawierały najpierw cyfry rzymskie.

JIS X 0208 (z prefiksem 0x26)
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_MI	_F
2_		Α 0391 6-1	Β 0392 6-2	Γ 0393 6-3	Δ 0394 6-4	Ε 0395 6-5	Ζ 0396 6-6	Η 0397 6-7	Θ 0398 6-8	Ι 0399 6-9	Κ 039A 6-10	Λ 039B 6-11	Μ 039C 6-12	Ν 039D 6-13	Ξ 039E 6-14	Ο 039F 6-15
3_	Π 03A0 6-16	Ρ 03A1 6-17	Σ 03A3 6-18	Τ 03A4 6-19	Υ 03A5 6-20	Φ 03A6 6-21	Χ 03A7 6-22	Ψ 03A8 6-23	Ω 03A9 6-24	6-25	6-26	6-27	6-28	6-29	6-30	6-31
4_	6-32	α 03B1 6-33	β 03B2 6-34	γ 03B3 6-35	δ 03B4 6-36	ε 03B5 6-37	ζ 03B6 6-38	η 03B7 6-39	θ 03B8 6-40	ι 03B9 6-41	κ 03BA 6-42	λ 03BB 6-43	μ 03BC 6-44	ν 03BD 6-45	ξ 03BE 6-46	ο 03BF 6-47
5_	π 03C0 6-48	ρ 03C1 6-49	σ 03C3 6-50	τ 03C4 6-51	υ 03C5 6-52	φ 03C6 6-53	χ 03C7 6-54	ψ 03C8 6-55	ω 03C9 6-56	6-57	6-58	6-59	6-60	6-61	6-62	6-63
6_	6-64	6-65	6-66	6-67	6-68	6-69	6-70	6-71	6-72	6-73	6-74	6-75	6-76	6-77	6-78	6-79
7_	6-80	6-81	6-82	6-83	6-84	6-85	6-86	6-87	6-88	6-89	6-90	6-91	6-92	6-93	6-94

Zestaw znaków 0x27 (wiersz numer 7, cyrylica)

Ten wiersz zawiera współczesny alfabet rosyjski i niekoniecznie jest wystarczający do przedstawienia innych form pisma cyrylicy .

Porównaj wiersz 7 GB 2312 , który pasuje do tego wiersza. Porównaj i porównaj wiersz 12 w KS X 1001 i wiersz 5 w KPS 9566 , które używają tego samego układu (ale w innym wierszu).

JIS X 0208 (z prefiksem 0x27)
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_MI	_F
2_		А 0410 7-1	Б 0411 7-2	В 0412 7-3	Г 0413 7-4	Д 0414 7-5	Е 0415 7-6	Ё 0401 7-7	Ж 0416 7-8	З 0417 7-9	И 0418 7-10	Й 0419 7-11	К 041A 7-12	Л 041B 7-13	М 041C 7-14	Н 041D 7-15
3_	О 041E 7-16	П 041F 7-17	Р 0420 7-18	С 0421 7-19	Т 0422 7-20	У 0423 7-21	Ф 0424 7-22	Х 0425 7-23	Ц 0426 7-24	Ч 0427 7-25	Ш 0428 7-26	Щ 0429 7-27	Ъ 042A 7-28	Ы 042B 7-29	Ь 042C 7-30	Э 042D 7-31
4_	Ю 042E 7-32	Я 042F 7-33	7-34	7-35	7-36	7-37	7-38	7-39	7-40	7-41	7-42	7-43	7-44	7-45	7-46	7-47
5_	7-48	а 0430 7-49	б 0431 7-50	в 0432 7-51	г 0433 7-52	д 0434 7-53	е 0435 7-54	ё 0451 7-55	ж 0436 7-56	z 0437 7-57	č 0438 7-58	© 0439 7-59	к 043A 7-60	л 043B 7-61	м 043C 7-62	н 043D 7-63
6_	о 043E 7-64	п 043F 7-65	р 0440 7-66	с 0441 7-67	т 0442 7-68	у 0443 7-69	ф 0444 7-70	х 0445 7-71	ц 0446 7-72	ч 0447 7-73	ш 0448 7-74	щ 0449 7-75	ъ 044A 7-76	ы 044B 7-77	ь 044C 7-78	э 044D 7-79
7_	ю 044E 7-80	я 044F 7-81	7-82	7-83	7-84	7-85	7-86	7-87	7-88	7-89	7-90	7-91	7-92	7-93	7-94

Zestaw znaków 0x28 (wiersz numer 8, rysunek pudełka)

Wszystkie postacie z tego zestawu zostały dodane w 1983 roku i nie były obecne w oryginalnej wersji standardu z 1978 roku.

JIS X 0208 (z prefiksem 0x28)
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_MI	_F
2_		│ 2502 8-1	─ 2500 8-2	┐ 2510 8-3	┌ 250C 8-4	└ 2514 8-5	┘ 2518 8-6	┤ 2524 8-7	┬ 252C 8-8	├ 251 c 8-9	┴ 2534 8-10	┼ 253C 8-11	━ 2501 8-12	┃ 2503 8-13	┏ 250F 8-14	┓ 2513 8-15
3_	┗ 2517 8-16	┛ 251B 8-17	┫ 252B 8-18	┳ 2533 8-19	┣ 2523 8-20	┻ 253B 8-21	╋ 254B 8-22	┠ 2520 8-23	┯ 252F 8-24	┨ 2528 8-25	┷ 2537 8-26	┿ 253f 8-27	┝ 251d 8-28	┰ 2530 8-29	┥ 2525 8-30	┷ 2537 8-31
4_	╂ 2542 8-32	8-33	8-34	8-35	8-36	8-37	8-38	8-39	8-40	8-41	8-42	8-43	8-44	8-45	8-46	8-47
5_	8-48	8-49	8-50	8-51	8-52	8-53	8-54	8-55	8-56	8-57	8-58	8-59	8-60	8-61	8-62	8-63
6_	8-64	8-65	8-66	8-67	8-68	8-69	8-70	8-71	8-72	8-73	8-74	8-75	8-76	8-77	8-78	8-79
7_	8-80	8-81	8-82	8-83	8-84	8-85	8-86	8-87	8-88	8-89	8-90	8-91	8-92	8-93	8-94

Zestaw znaków rozszerzenia 0x2D (wiersz numer 13, znaki specjalne NEC)

Wiersze od 9 do 15 standardu JIS X 0208 pozostają puste.

Jednak następujący układ dla wiersza 13, wprowadzony po raz pierwszy przez firmę NEC , jest powszechnym rozszerzeniem. Jest używany (z drobnymi zmianami, zaznaczonymi w przypisach) przez Windows-932 (który jest zgodny ze standardem kodowania WHATWG używanym przez HTML5 ), przez wariant PostScript (ale od wersji 7 KanjiTalk , a nie zwykłego) MacJapanese , oraz JIS X 0213 (następca JIS X 0208). W przeciwieństwie do innych rozszerzeń stworzonych przez Windows-932/WHATWG i JIS X 0213, te dwa pasują, a nie kolidują, więc dekodowanie większości tego wiersza jest lepiej obsługiwane niż inne rozszerzenia stworzone przez JIS X 0213.

Znaki specjalne NEC dla JIS X 0208 (z prefiksem 0x2D)
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_MI	_F
2_		① 2460 13-1	② 2461 13-2	③ 2462 13-3	④ 2463 13-4	⑤ 2464 13-5	⑥ 2465 13-6	⑦ 2466 13-7	⑧ 2467 13-8	⑨ 2468 13-9	⑩ 2469 13-10	⑪ 246A 13-11	⑫ 246B 13-12	⑬ 246C 13-13	⑭ 246D 13-14	⑮ 246E 13-15
3_	⑯ 246F 13-16	⑰ 2470 13-17	⑱ 2471 13-18	⑲ 2472 13-19	⑳ 2473 13-20	Ⅰ 2160 13-21	Ⅱ 2161 13-22	Ⅲ 2162 13-23	Ⅳ 2163 13-24	Ⅴ 2164 13-25	Ⅵ 2165 13-26	Ⅶ 2166 13-27	Ⅷ 2167 13-28	Ⅸ 2168 13-29	Ⅹ 2169 13-30	Ⅺ 216A 13-31
4_	㍉ 3349 13-32	㌔ 3314 13-33	㌢ 3322 13-34	㍍ 334D 13-35	㌘ 3318 13-36	㌧ 3327 13-37	㌃ 3303 13-38	㌶ 3336 13-39	㍑ 3351 13-40	㍗ 3357 13-41	㌍ 330D 13-42	㌦ 3326 13-43	㌣ 3323 13-44	㌫ 332B 13-45	㍊ 334a 13-46	㌻ 333B 13-47
5_	㎜ 339C 13-48	㎝ 339D 13-49	㎞ 339E 13-50	㎎ 338E 13-51	㎏ 338F 13-52	㏄ 33C4 13-53	㎡ 33A1 13-54	Ⅻ 216B 13-55	13-56	13-57	13-58	13-59	13-60	13-61	13-62	㍻ 337b 13-63
6_	〝 301D 13-64	〟 301F 13-65	№ 2116 13-66	㏍ 33CD 13-67	℡ 2121 13-68	㊤ 32A4 13-69	㊥ 32A5 13-70	㊦ 32A6 13-71	㊧ 32A7 13-72	㊨ 32A8 13-73	㈱ 3231 13-74	㈲ 3232 13-75	㈹ 3239 13-76	㍾ 337E 13-77	㍽ 337D 13-78	㍼ 337C 13-79
7_	≒ 2252 13-80	≡ 2261 13-81	∫ 222B 13-82	∮ 222E 13-83	∑ 2211 13-84	√ 221A 13-85	⊥ 22A5 13-86	∠ 2220 13-87	∟ 221F 13-88	⊿ 22BF 13-89	∵ 2235 13-90	∩ 2229 13-91	∪ 222A 13-92	❖ 2756 13-93	☞ 261E 13-94

Wiersze kanji

Struktura kodu

W celu reprezentacji punktów kodowych , numery kolumn/wierszy są używane dla kodów jednobajtowych, a numery kuten są używane dla kodów dwubajtowych. Aby zidentyfikować postać bez zależności od kodu, używane są nazwy postaci.

Kody jednobajtowe

Prawie wszystkie kody znaków graficznych JIS X 0208 są reprezentowane przez dwa bajty po co najmniej siedem bitów każdy. Jednak każdy znak kontrolny , jak również przestrzeń zwykła – choć nie przestrzeń ideograficzna – jest reprezentowana za pomocą jednobajtowego kodu. Aby przedstawić kombinację bitów (ビット組合せ, bitto kumiawase ) kodu jednobajtowego, używane są dwie liczby dziesiętne – numer kolumny i numer wiersza . Trzy bity wysokiego rzędu z siedmiu lub cztery bity wysokiego rzędu z ośmiu, licząc odpowiednio od zera do siedmiu lub od zera do piętnastu, tworzą numer kolumny. Numer wiersza tworzą cztery bity niższego rzędu liczące od zera do piętnastu. Każda liczba dziesiętna odpowiada jednej cyfrze szesnastkowej . Na przykład kombinacja bitów odpowiadająca znakowi graficznemu „spacja” to 010 0000 jako liczba 7-bitowa i 0010 0000 jako liczba 8-bitowa. W notacji kolumna/linia jest to reprezentowane jako 2/0. Inne reprezentacje tego samego kodu jednobajtowego to 0x20 jako szesnastkowy lub 32 jako pojedyncza liczba dziesiętna.

Punkty kodowe i numery kodowe

Kody dwubajtowe są ułożone w 94 ponumerowane grupy, z których każda nazywana jest rzędem (区, ku , dosł. „sekcja”) . Każdy wiersz zawiera 94 ponumerowane kody, każdy nazywany komórką (点, dziesięć , dosł. „punkt”) . To daje łącznie 8836 (94 × 94) możliwych punktów kodowych (chociaż nie wszystkie są przypisane, patrz poniżej); są one przedstawione w standardzie w 94-wierszowej, 94-kolumnowej tabeli kodów.

Numer wiersza i numer komórki (każdy numer od 1 do 94 dla standardowego kodu JIS X 0208) tworzą punkt kuten (区点) , który jest używany do reprezentowania dwubajtowych punktów kodu. Szereg Kod lub kuten ilość (区点番号, kuten BANGO ) jest wyrażona w postaci „rzędzie” komórek, liczby wierszy i komórkowe są rozdzielone łącznikiem . Na przykład znak „亜” ma punkt kodowy w wierszu 16, komórka 1, więc jego numer kodu jest reprezentowany jako „16-01”.

W 7-bitowym JIS X 0208 (co może być przełączone w JIS X 0202 / ISO-2022-JP ), oba bajty muszą należeć do zakresu 94-bajtowego od 0x21 (używane dla wiersza lub komórki o numerze 1) do 0x7E ( używany dla numeru wiersza lub komórki 94) – dokładnie odpowiadający zakresowi używanemu do drukowania 7-bitowych znaków ASCII, nie licząc spacji. W związku z tym zakodowane bajty uzyskuje się przez dodanie 0x20 (32) do każdej liczby. Na przykład powyższy przykład 16-01 ("亜") będzie reprezentowany przez bajty 0x30 0x21. Zamiast tego 8-bitowy EUC-JP używa zakresu od 0xA1 do 0xFE (ustawiając wysoki bit na 1), podczas gdy inne kodowania, takie jak Shift JIS, używają bardziej skomplikowanych transformacji. Shift JIS zawiera więcej miejsca na kodowanie niż jest potrzebne dla samego JIS X 0208; niektóre rozszerzenia specyficzne dla Shift JIS do JIS X 0208 wykorzystują numery wierszy powyżej 94.

Ta struktura jest również używana w chińskim kontynentalnym GB 2312 (gdzie jest znana jako区位; qūwèi ) i południowokoreańskim KS C 5601 (obecnie KS X 1001 ; ku i dziesięć są znane odpowiednio jako hang i yol ). Późniejszy JIS X 0213 rozszerza tę strukturę, mając więcej niż jedną płaszczyznę (面, mężczyźni , dosł. „twarz”) rzędów, która jest również strukturą używaną przez CNS 11643 .

Nieprzypisane punkty kodowe

Wśród kodów 2-bajtowych wiersze od 9 do 15 i od 85 do 94 są nieprzypisanymi punktami kodowymi (空き領域, aki ryōiki ) ; oznacza to, że są to punkty kodowe bez przypisanych do nich znaków. Ponadto niektóre komórki w innych wierszach są również zasadniczo nieprzypisanymi punktami kodowymi.

Te puste obszary zawierają punkty kodowe, których zasadniczo nie należy używać. Z wyjątkiem sytuacji, gdy istnieje uprzednia zgoda między odpowiednimi stronami, znaki ( gaiji ) do wymiany informacji nie powinny być przypisywane do nieprzypisanych punktów kodowych.

Nawet przy przypisywaniu znaków do nieprzypisanych punktów kodowych, znaki graficzne zdefiniowane w normie nie powinny być do nich przypisywane, a ten sam znak nie powinien być przypisywany do wielu nieprzypisanych punktów kodowych; znaki nie powinny być powielane w zestawie.

Ponadto, przypisując znaki do nieprzypisanych punktów kodowych, należy zachować ostrożność przy ujednoliceniu w odniesieniu do glifów kanji. Na przykład komórka 66 wiersza 25 odpowiada znakowi kanji oznaczającemu „wysoki” lub „drogi”; zarówno forma z komponentem przypominającym znak „usta” (口) w środku (高) i mniej powszechna forma z konstrukcją przypominającą drabinę w tym samym miejscu (髙) są podciągane do tego samego punktu kodowego. W konsekwencji ograniczenie punktu 25-66 do formy „usta” i przypisanie tej ostatniej formy „drabiny” do nieprzypisanego punktu kodowego byłoby technicznie naruszeniem normy.

W praktyce jednak kilka specyficznych dla dostawcy wariantów Shift JIS , w tym Windows-932 i MacJapanese , koduje rozszerzenia dostawcy w nieprzydzielonych wierszach przestrzeni kodowania dla JIS X 0208. Ponadto większość kodów nieprzypisanych w JIS X 0208 jest przypisywana przez nowszy standard JIS X 0213 .

Imiona postaci

Każdy znak JIS X 0208 otrzymuje nazwę . Używając imienia postaci, można zidentyfikować postacie bez polegania na ich kodach. Nazwy znaków są skoordynowane z innymi standardami zestawów znaków, w szczególności Universal Coded Character Set (UCS/ Unicode ), więc jest to jedno z możliwych źródeł mapowania znaków do zestawów znaków, takich jak Unicode. Na przykład, zarówno znak w ISO/IEC 646 International Reference Version ( US-ASCII ) kolumna 4 wiersz 1 i znak w JIS X 0208 wiersz 3 komórka 33 mają nazwę „LATIN CAPITAL LETTER A”. Dlatego znak 4/1 w ASCII i znak 3-33 w JIS X 0208 można traktować jako ten sam znak (chociaż w praktyce dla znaku JIS X 0208 używane jest alternatywne mapowanie ze względu na kodowanie dostarczające oddzielnie ASCII ). Odwrotnie, znaki ASCII 2/2 (cudzysłów), 2/7 (apostrof), 2/13 (łącznik-minus) i 7/14 (tylda) można określić jako znaki, które nie istnieją w tym standardzie.

Nazwy znaków innych niż kanji zawierają wielkie litery, spacje i łączniki rzymskie. Znaki inne niż kanji otrzymują japońską nazwę zwyczajową (日本語通用名称, Nihongo tsūyō meishō ) , ale niektóre przepisy dotyczące tych nazw nie istnieją. Z drugiej strony nazwy kanji są ustawiane mechanicznie zgodnie z odpowiednią szesnastkową reprezentacją ich kodu w UCS/Unicode. Nazwę znaku kanji można uzyskać, poprzedziwszy punkt kodowy Unicode przedrostkiem „CJK UNIFIED IDEOGRAPH-”. Na przykład komórka 1 wiersza 16 (亜) odpowiada U+4E9C w UCS, więc jej nazwa będzie brzmiała „CJK UNIFIED IDEOGRAPH-4E9C”. Kanji nie ma japońskich nazw zwyczajowych.

Zestaw kanji

Przegląd

JIS X 0208 określa zestaw 6879 znaków graficznych, które odpowiadają dwubajtowym kodom z siedmioma lub ośmioma bitami na bajt; w JIS X 0208 nazywa się to zestawem kanji (漢字集合, kanji shūgō ) , który obejmuje 6355 kanji oraz 524 nie-kanji (非漢字, hikanji ) , w tym znaki takie jak litery łacińskie , kana i tak dalej.

Znaki specjalne: Zajmuje rzędy 1 i 2. Jest 18 symboli deskryptorów (記述記号, kijutsu kigō ), takich jak „przestrzeń ideograficzna” ( 　) oraz japoński przecinek i kropka ; osiem znaków diakrytycznych, takich jak dakuten i handakuten ; 10 znaków dla rzeczy, które następują po kana lub kanji (仮名又は漢字に準じるもの, kana mata wa kanji ni junjiru mono ), takich jak znak iteracji ; 22 symbole nawiasów (括弧記号, kakko kigō ) ; 45 symboli matematycznych (学術記号, gakujutsu kigō ) ; oraz 32 symbole jednostek , w tym znak waluty i znak pocztowy , łącznie 147 znaków.
Cyfry: Zajmuje część rzędu 3. Dziesięć cyfr od „0” do „9”.
litery łacińskie: Zajmuje część rzędu 3. 26 liter alfabetu angielskiego pisanych wielkimi i małymi literami, co daje łącznie 52.
Hiragana: Zajmuje wiersz 4. Zawiera 48 bezdźwięcznych kana (w tym przestarzałe wi i my ), 20 dźwięcznych kana ( dakuten ), 5 półdźwięcznych kana ( handakuten ), 10 małych kana dla palatalizowanych i zasymilowanych dźwięków, co daje łącznie 83 znaki.
katakana: Zajmuje wiersz 5. Jest 86 znaków; oprócz odpowiedników katakana znaków hiragana, małe ka / ke kana (ヵ/ヶ) i vu kana (ヴ).
litery greckie: Zajmuje wiersz 6. 24 litery alfabetu greckiego w postaci wielkich i małych liter (minus końcowa sigma ) w sumie 48.
Litery cyrylicy: Zajmuje wiersz 7. 33 litery alfabetu rosyjskiego pisane wielkimi i małymi literami, łącznie 66.
Postacie do rysowania w pudełku: Zajmuje rząd 8. Cienkie segmenty, grube segmenty i mieszane segmenty cienkie i grube, łącznie 32.
Kanji: 2965 znaków poziomu 1 (第1水準, dai ichi suijun ) od rzędu 16 do rzędu 47 oraz 3390 znaków poziomu 2 (第2水準, dai ni suijun ) od rzędu 48 do rzędu 84, łącznie 6355.

Znaki specjalne, cyfry i znaki łacińskie

Jeśli chodzi o znaki specjalne w zestawie kanji, niektóre znaki z zestawu znaków graficznych International Reference Version (IRV) normy ISO/IEC 646 :1991 (odpowiednik ASCII ) są nieobecne w JIS X 0208. Istnieją cztery wymienione powyżej znaki „Cytatuś”, „APOSTROF”, „ŁĄCZNIK-MINUS” i „TYLDA”. Pierwsze trzy są podzielone na różne punkty kodowe w zestawie kanji (Nishimura, 1978; standard JIS X 0221-1:2001, rozdział 3.8.7). "TILDE" w IRV nie ma odpowiadającego znaku w zestawie kanji.

W poniższej tabeli, omawiane znaki IRV ISO/IEC 646:1991 są porównywane z ich wielokrotnymi odpowiednikami w JIS X 0208, z wyjątkiem znaku IRV „TILDE”, który jest porównywany z „WAVE DASH” w JIS X 0208. Wpisy w kolumnach „Symbol” wykorzystują punkty kodowe UCS/Unicode, więc specyfika wyświetlania może się różnić.

Znakom ASCII/IRV bez dokładnych odpowiedników JIS X 0208 zostały później przypisane punkty kodowe przez JIS X 0213 , są one również wymienione poniżej, podobnie jak mapowanie czterech znaków przez Microsoft .

Nieścisła korespondencja między ISO/IEC 646:1991 IRV (ASCII) a JIS X 0208
ISO/IEC 646:1991 IRV					JIS X 0208
Kolumna/Linia	x0213	Microsoft	Symbol	Nazwa	Kuten	Symbol	Nazwa
2/2	1-2-16	92-94 115-24	"	CUDZYSŁÓW	1-15	¨	DIAEREZA
					1-40	“	LEWY PODWÓJNY cudzysłów
					1-41	”	PRAWY PODWÓJNY cudzysłów
					1-77	″	PODWÓJNY PRIME
2/7	1-2-15	92-93 115-23	'	APOSTROF	1-13	´	Ostry AKCENT
					1-38	'	LEWY POJEDYNCZY cudzysłów
					1-39	'	PRAWY POJEDYNCZY cudzysłów
					1-76	ja	GŁÓWNY
2/13	1-2-17	1-61	-	ŁĄCZNIK-MINUS	1-30	‐	ŁĄCZNIK
2/13	1-2-17	1-61	-	ŁĄCZNIK-MINUS	1-61	−	MINUS
7/14	1-2-18	1-33	~	TYLDA	(brak odpowiadającego znaku)
(brak odpowiadającego znaku)					1-33	ja	SZYBKA FALA

Oznacza to, że zestaw kanji jest najbardziej rozpowszechnionym niezgodnym w górę zestawem znaków na świecie; uważa się to za jeden ze słabych punktów tego standardu.

Nawet z 90 znakami specjalnymi, cyframi i literami łacińskimi, które zestaw kanji i zestaw IRV mają wspólne, norma ta nie jest zgodna z układem ISO/IEC 646. Te 90 znaków jest podzielonych między wiersze 1 (interpunkcja) i 3 ( litery i cyfry), chociaż wiersz 3 jest zgodny z układem ISO 646 dla samych 62 liter i cyfr (np. 4/1("A") w ISO 646 staje się 2/3 4/1(tj. 3-33) w JIS X 0208).

Jeśli chodzi o przyczynę tego, w jaki sposób te cyfry, litery łacińskie itd. w zestawie kanji są „znakami alfanumerycznymi o pełnej szerokości” (全角英数字, zenkaku eisūji ) i jak pierwotna implementacja wyszła z inną interpretacją w porównaniu do IRV, uważa się, że jest to spowodowane tymi niezgodnościami.

Od pierwszego standardu możliwe było przedstawienie złożonych (合成, gōsei ), takich jak liczby w kółkach , ligatury dla nazw jednostek miary i cyfry rzymskie ; nie otrzymali niezależnych punktów kodowych kuten . Chociaż poszczególne firmy produkujące systemy informatyczne mogą dołożyć starań, aby przedstawić te znaki zgodnie z wymaganiami klientów poprzez ich kompozycję, żadna nie poprosiła o dodanie ich do standardu, zamiast tego zdecydowała się zaoferować je jako gaiji .

W czwartym standardzie (1997) wszystkie te postacie zostały wyraźnie zdefiniowane jako znaki towarzyszące awansowi aktualnej pozycji; to znaczy, że są to znaki odstępu . Co więcej, orzeczono, że nie powinny być tworzone przez kompozycję postaci. Z tego powodu zabroniono w ogóle przedstawiania znaków łacińskich za pomocą znaków diakrytycznych , z prawdopodobnie jedynym wyjątkiem symbolu ångström ( Å ) w wierszu 2 komórki 82.

Hiragana i katakana

Hiragana i katakana w JIS X 0208, w przeciwieństwie do JIS X 0201 , obejmuje dakuten i handakuten oznaczenia jako części znaku. Uwzględniono również katakana wi (ヰ) i my (ヱ) (oba przestarzałe we współczesnym języku japońskim), a także małe wa (ヮ) , które nie występują w JIS X 0201.

Układ kana w JIS X 0208 różni się od układu katakana w JIS X 0201. W JIS X 0201 sylabariusz zaczyna się od wo (ヲ) , po którym następuje mała kana posortowana według kolejności gojūon , po której następuje pełnowymiarowa kana, również w kolejności gojūon (ヲァィゥェォャュョッーアイウエオ......ラリルレロワン). Z drugiej strony, w JIS X 0208, kana są sortowane najpierw według kolejności gojūon , a następnie w kolejności „mała kana, pełnowymiarowa kana, kana z dakuten i kana z handakuten” tak, że ta sama podstawowa kana jest pogrupowana z jego pochodnymi (ぁあぃいぅうぇえぉお......っつづ......はばぱひびぴふぶぷへべぺほぼぽ......ゎわゐゑをん). Ta kolejność została wybrana, aby w prostszy sposób ułatwić sortowanie wyszukiwań słownikowych opartych na kana (Yasuoka, 2006).

Jak wspomniano powyżej, w tym standardzie wcześniej zdefiniowana kolejność katakana w JIS X 0201 nie była przestrzegana w JIS X 0208. Uważa się, że katakana JIS X 0201 będąca „kaną o połowie szerokości ” powstała z powodu niezgodności z katakaną ten standard. Ten punkt jest również jedną ze słabości tego standardu.

Kanji

W jaki sposób kanji w tym standardzie zostały wybrane z jakich źródeł, dlaczego są podzielone na poziom 1 i 2 oraz jak są rozmieszczone, szczegółowo wyjaśniono w czwartym standardzie (1997). Zgodnie z tym wyjaśnieniem, kanji zawarte w następujących czterech listach kanji zostało odzwierciedlone w 6349 znakach pierwszego standardu (1978).

Lista Kanji dla kodu standardowego (wstępna) (標準コード用漢字表 (試案) , Hyōjun Kōdo-yō Kanjihyō (Shian) )

Komitet ds. Kodów Kanji Japońskiego Towarzystwa Przetwarzania Informacji opracował tę listę w 1971 r. W poniższym „Wynikach analizy korespondencji” wydaje się, że jest to 6086 znaków.

Podstawowe Kanji do celów administracyjnych przetwarzania danych (行政情報処理用基本漢字, Gyōsei Jōhō Shoriyō Kihon Kanji )

Wybrany przez agencję zarządzania administracyjnego Japonii w 1975 roku składa się z 2817 znaków. W odniesieniu do danych do celów selekcji Agencja sporządziła raport, w którym, zaczynając od „Wykazu Kanji dla kodu standardowego (wstępnego)”, skontrastowano kilka wykazów kanji, „Wyniki analizy korespondencji i częstotliwość używania znaku Kanji do celów administracyjnych przetwarzania danych Normalny wybór Kanji” (行政情報処理用標準漢字選定のための漢字の使用頻度および対応分析結果, Gyōsei Jōhō Shoriyō Kihon Kanji Sentei no Tame no Kanji no Shiyō Hindo Oyobi Taiō Bunseki Kekka ) lub „Wyniki analizy korespondencji” (対応分析結果, Taiō Bunseki Kekka ) w skrócie.

Japońskie imię i nazwisko rejestracyjne osobowości Kanji (日本生命収容人名漢字, Nihon Seimei Shūyō Jinmei Kanji )

Jeden z wpisów kanji składających się na „Wyniki analizy korespondencji”, składający się z 3044 znaków. Już nie istnieje. Pierwotna lista nie istniała dla pierwotnego komitetu redakcyjnego; ta lista kanji została odzwierciedlona w standardzie, zgodnie z „Wynikami analizy korespondencji”.

Kanji dla Krajowego Okręgu Administracyjnego Lista (国土行政区画総覧使用漢字, Kokudo Gyōsei Kukaku Sōran Shiyō Kanji )

Jeden z wpisów kanji składających się na „Wyniki analizy korespondencji”, składający się z 3251 znaków. Są to kanji używane na liście wszystkich nazw miejscowości administracyjnych opracowanej przez Japońskie Centrum Danych Geograficznych , „Narodową Wykaz Okręgów Administracyjnych” (国土行政区画総覧, Kokudo Gyōsei Kukaku Sōran ) . Pierwotna komisja redakcyjna nie zbadała samego wykazu; kanji użyte z tej listy następowało po „Wynikach analizy korespondencji”.

W drugim i trzecim standardzie dodali odpowiednio cztery i dwa znaki do poziomu 2, co daje całkowitą liczbę kanji do 6355. Również w drugim standardzie zmieniono formy znaków, a także transpozycję między poziomami; również w trzecim standardzie zmieniono formy postaci. Zostały one opisane poniżej.

Partycjonowanie poziomów

2965 znaków kanji poziomu 1 zajmuje wiersze od 16 do 47. 3390 znaków kanji poziomu 2 zajmuje wiersze od 48 do 84.

Dla poziomu 1 wybrano znaki wspólne dla wielu glifów kanji, używając jako podstawy tōyō kanji , wersji roboczej tōyō kanji oraz kanji jinmeiyō . Skonsultowano się również z JIS C 6260 („Kod identyfikacyjny To-Do-Fu-Ken (Prefektura)”; obecnie JIS X 0401 ) i JIS C 6261 („Kod identyfikacyjny miast, miasteczek i wsi”; obecnie JIS X 0402 ); kanji dla prawie wszystkich japońskich prefektur , miast, dzielnic, okręgów, miasteczek, wiosek itd. celowo umieszczono na poziomie 1. Ponadto dodano poprawki wprowadzone przez ekspertów.

Poziom 2 był poświęcony kanji, które pojawiło się we wspomnianych czterech głównych wykazach, ale nie zostało wybrane do poziomu 1. Jak zauważono poniżej, kanji poziomu 1 zostały uporządkowane według ich wymowy, a więc wśród kanji, których wymowa była trudna do ustalenia, były takie, które na tej podstawie zostały przeniesione z poziomu 1 na poziom 2 (Nishimura, 1978).

Z powodu tych decyzji, w większości, poziom 1 zawiera częściej używane znaki kanji, a poziom 2 zawiera rzadziej używane znaki kanji, ale oczywiście były one oceniane według standardów dnia; z biegiem czasu, niektóre znaki kanji poziomu 2 stały się coraz częściej używane, takie jak jedno oznaczające „wznosić się” (翔) i jedno oznaczające „błyszczeć” (煌); i odwrotnie, niektóre znaki kanji poziomu 1 stały się rzadkie, zwłaszcza te oznaczające „centymetr” (糎) i „milimetr” (粍). Z obecnych jōyō kanji , 30 znajduje się na poziomie 2, podczas gdy trzech w ogóle nie ma (塡󠄀, 剝󠄀 i 頰󠄀). Z obecnych kanji jinmeiyō 192 są na poziomie 2, a 105 nie jest częścią standardu.

Układ

Znaki kanji na poziomie 1 są posortowane według „reprezentatywnych odczytów” każdego z nich (tj. czytania kanonicznego wybranego wyłącznie na potrzeby tego standardu); czytanie kanji dla tego może być czytaniem on lub kun ; odczyty są sortowane w kolejności gojūon . Zgodnie z ogólną zasadą, odczyt on (dźwięk chiński) jest uważany za odczyt reprezentatywny; gdzie kanji ma wiele na odczyty odczyt ocenia się przeważać częstotliwości został wykorzystany dla reprezentatywnego odczytu (standard JIS 6226-1978 ° C, rozdział 3.4). Niewielkiego odsetka Kanji, które albo nie mają na czytanie lub posiadają na odczyt, który trochę znana i powszechnie używany, Kun odczytu jest wykorzystywana jako reprezentatywnego pomiaru. Gdy czasownik kun musi być użyty jako odczyt reprezentatywny, używa się formy ren'yōkei (zamiast shūshikei ).

Na przykład, komórki od 1 do 41, w rzędzie 16 są 41 znaki klasyfikowane jako związek wyjściowy z lektury . W ciągu tych 22 znaków, w tym 16-10 (葵: na czytanie " Ki "; kun czytanie" Aoi ") i 16-32 (粟: na odczytach" Zoku " i " Shoku "; kun czytanie" awa ") są tam na podstawie ich odczytów kun . 16-09 (逢: na czytanie " ho ", kun Reading " a (i) ") i 16-23 (扱: na odczytach" SO " i " kyu ", kun czytanie " atsuka (I) ") są tylko dwa przykłady czasowników w formie ren'yōkei używanych do reprezentatywnego czytania.

Tam, gdzie odczyt reprezentatywny jest taki sam dla różnych kanji, kanji, które używa odczytu on, jest umieszczane przed tym, które używa odczytu kun . Tam, gdzie odczyty on lub kun są takie same w więcej niż jednym kanji, są one następnie uporządkowane według ich pierwotnego radykału i liczby uderzeń .

Niezależnie od tego, czy na poziomie 1, czy na poziomie 2, itaiji są ułożone tak, aby bezpośrednio podążały za ich wzorcową formą. Na przykład na poziomie 2, zaraz po wierszu 49 komórki 88 (劍), następujące bezpośrednio znaki odbiegają od ogólnej zasady (w tym przypadku liczba uderzeń), aby uwzględnić trzy warianty 49-88 (劔,劒i剱).

Znaki kanji na poziomie 2 są ułożone w kolejności pierwotnej liczby rodników i udarów. Tam, gdzie te dwie właściwości są takie same dla różnych znaków kanji, są one następnie sortowane według czytania.

Kanji z nieznanych źródeł

Kanji, którego źródła są niejasne, nieznane lub w inny sposób niemożliwe do zidentyfikowania w JIS X 0208:1997 Załącznik 7
Kuten	Symbol	Klasyfikacja
52-55	墸	Nieznany
52-63	壥	Nieznany
54-12	妛	Źródło niejasne
55-27	彁	Niemożliwy do zidentyfikowania
57-43	挧	Źródło niejasne
58-83	暃	Źródło niejasne
59-91	椢	Źródło niejasne
60-57	槞	Źródło niejasne
74-12	蟐	Źródło niejasne
74-57	袮	Źródło niejasne
79-64	閠	Źródło niejasne
81-50	駲	Źródło niejasne

Zwrócono uwagę, że w zestawie kanji znajdują się znaki kanji, których nie ma w obszernych, nieskróconych słownikach kanji, a ich źródła nie są znane. Na przykład, zaledwie rok po ustanowieniu pierwszego standardu, Tajima (1979) poinformował, że potwierdził 63 znaki kanji, których nie można znaleźć w Shinjigen (dużym słowniku kanji wydanym przez Kadokawa Shoten ) ani w Dai Kan-Wa jiten. , i nie miały sensu jako ryakuji jakiegokolwiek rodzaju; zauważył, że byłoby lepiej, gdyby kanji niedostępne w słownikach kanji było wybierane z określonych źródeł. Te kanji stały się znane między innymi jako "duch" (幽霊文字, yūrei moji ) lub "duch kanji" (幽霊漢字, yūrei kanji ) .

Komisja redakcyjna czwartej wersji standardu również dostrzegła istnienie kanji ze źródłami nieznanymi jako problem, dlatego też zbadała, do jakiego rodzaju źródeł powoływała się komisja redakcyjna pierwszej wersji. W rezultacie odkryto, że pierwotna komisja redakcyjna w dużym stopniu polegała na „Wynikach analizy korespondencji”, aby zebrać kanji. Kiedy komisja redakcyjna zbadała „Wyniki analizy korespondencji”, stało się jasne, że wiele znaków kanji zawartych w zbiorze kanji, ale nie znalezionych w wyczerpujących słownikach kanji, podobno pochodzi od „japońskiej nazwy rejestracyjnej osobowości Kanji” i „Kanji dla Krajowego Okręgu Administracyjnego”. Listing” wymienione w „Wynikach analizy korespondencji”.

Potwierdzono, że nie istnieje oryginalny tekst dla „japońskiej nazwy rejestracyjnej Kanji”, o której mowa w „Wynikach analizy korespondencji”. Na potrzeby " Wykazu Krajowych Okręgów Administracyjnych" Sasahara Hiroyuki z komitetu redakcyjnego czwartej wersji zbadał kanji, które pojawiło się na stronach w toku opracowywania pierwszego standardu. Komitet zapoznał się również z wieloma starożytnymi pismami, a także wieloma przykładami nazwisk w bazie danych książek telefonicznych NTT .

Dzięki temu dokładnemu dochodzeniu komisja była w stanie zmniejszyć liczbę znaków kanji, których źródła nie można z całą pewnością wytłumaczyć, do dwunastu, pokazanych na sąsiedniej tabeli. Spośród nich przypuszcza się, że kilka glifów powstało z powodu błędów kopiowania. W szczególności 妛 powstało prawdopodobnie, gdy drukarki próbowały utworzyć 𡚴 przez wycinanie i wklejanie 山 i 女 razem. Cień z tego procesu został błędnie zinterpretowany jako linia, co dało 妛 (zdjęcie tego można znaleźć w Jōyō kanji jiten ).

Ujednolicenie wariantów kanji

Zgodnie ze specyfikacją czwartego standardu (1997), unifikacja (包摂, hōsetsu , nie ten sam termin używany dla „ unifikacji ” Unicode , chociaż jest to prawie ta sama koncepcja) jest działaniem polegającym na nadaniu znakowi tego samego punktu kodowego bez względu na jego różne formy charakteru. W czwartym standardzie dozwolone glify są ograniczone; stopień, w jakim poszczególne glify allograficzne są ujednolicone w graficzny punkt kodowy, jest jasno określony.

Ponadto, zgodnie ze specyfikacjami w standardzie, glif (字体, jitai , dosł. „ciało znaku”;) jest pojęciem abstrakcyjnym dotyczącym graficznej reprezentacji znaku graficznego; postać znaków (字形, jikei niem „kształt znaków”; także „glif” w tym sensie, ale zróżnicowane na innym poziomie dla celów normalizacyjnych) jest reprezentacją w postaci graficznej, która glif zajmuje w rzeczywistości (na przykład z powodu do glifu pisanego odręcznie, drukowanego, wyświetlanego na ekranie itp.). Dla pojedynczego glifu istnieje nieskończony zakres możliwych konkretnie i/lub widocznie różnych form postaci. Odmiana pomiędzy formą znaku jednego glifu jest określana jako „różnica projektowa” (デザインの差, dezain no sa ) .

Stopień, w jakim glif jest zunifikowany do jednego punktu kodowego, jest określany zgodnie z „przykładowym glifem” tego punktu kodowego (例示字体, reiji jitai ) i „kryteriami unifikacji” (包摂規準, hōsetsu kijun ), które można zastosować do tego przykładu glif; oznacza to, że przykładowy glif dla punktu kodowego ma zastosowanie do tego punktu kodowego, a wszelkie glify, dla których części tworzące przykładowy glif są zastępowane zgodnie z kryteriami unifikacji, mają również zastosowanie do tego punktu kodowego.

Na przykład, przykładowy glif w 33-46 (僧) składa się z radykalnej 9 (亻) i kanji, które ostatecznie zrodziło oba so kana (曽). Również w kryterium unifikacji 101 wyświetlane są trzy kanji: pierwsze przyjmuje postać najczęściej spotykaną w języku japońskim (曽); druga zawiera bardziej tradycyjną formę (曾), w której dwie pierwsze kreski tworzą cyfrę 12 (liczba kanji oznaczająca liczbę 8:八); a trzeci jest podobny do drugiego, z wyjątkiem tego, że rodnik 12 jest odwrócony (曾). W konsekwencji wszystkie trzy permutacje (僧,僧,僧) odnoszą się do punktu kodowego w wierszu 33, komórka 46.

W czwartym standardzie, w tym w jednej z errat do pierwszego druku, znajduje się 186 kryteriów unifikacji.

Gdy przykładowy glif punktu kodowego składa się z więcej niż jednego glifu części, do każdej części można zastosować kryteria unifikacji. Po zastosowaniu kryterium unifikacji do jednego glifu części, do tej części nie można zastosować więcej kryteriów unifikacji. Ponadto kryterium unifikacji nie może mieć zastosowania, jeśli wynikowy glif byłby całkowicie zbieżny z innym punktem kodowym.

Przykładowy glif jest tylko przykładem dla tego punktu kodowego; nie jest to glif „zatwierdzony” przez standard. Ponadto kryteria unifikacji muszą być używane tylko dla ogólnie używanych znaków kanji oraz w celu przypisania rzeczy do punktów kodowych tego standardu. Standardowe żądania, aby ogólnie nieużywane znaki kanji nie były tworzone na podstawie przykładowych glifów i kryteriów unifikacji.

Kanji z zestawu kanji nie są dobierane całkowicie konsekwentnie zgodnie z kryteriami unifikacji. Na przykład, chociaż 41-7 odpowiada formie, w której trzecie i czwarte uderzenie przecinają się (彥) oraz formie, w której się nie przecinają (彦) zgodnie z kryterium unifikacji 72, 20-73 odpowiada tylko formie, w której nie krzyżuj (顔), a 80-90 odpowiada tylko formie, w której to robią (顏).

Terminy „ujednolicenie”, „kryteria unifikacji” i „przykładowy glif” zostały przyjęte w czwartym standardzie. Od pierwszej do trzeciej wersji, kanji i relacje między kanji zostały pogrupowane na trzy typy: "niezależne" (独立, dokuritsu ) , "kompatybilne" (対応, taiō ) i "równoważne" (同値, dōchi ) ; wyjaśniono, że postacie uznane za równoważne „konsolidują się tylko do jednego punktu”. Uwzględniono "Równoważność", inne niż kanji o dokładnie tym samym kształcie, kanji różniące się stylem oraz kanji, w którym różnica w postaci znaków jest niewielka.

W pierwszym standardzie zastrzeżono, że „ten standard ... nie określa szczegółów form znaków” (rozdział 3.1); stwierdza również, że „celem tego standardu jest ustalenie ogólnej idei postaci i ich kodów; projekt ich form znaków i takie leżą poza jego zakresem”. Również w drugim i trzecim standardzie wskazano, że konkretne projekty form postaci leżą poza jego zakresem (uwaga do pkt. 1). Czwarta norma stanowi również, że „Niniejsza norma reguluje znaki graficzne oraz ich wzory bitowe, a zastosowanie, konkretne wzory poszczególnych znaków itp. nie są objęte zakresem tej normy” (JIS X 0208:1997, poz. 1). ).

Kryteria ujednolicenia zgodności

W czwartym standardzie zdefiniowano „kryteria ujednolicenia dla zachowania zgodności z poprzednimi standardami” (過去の規格との互換性を維持するための包摂規準, kako no kikaku do no gokansei wo iji suru tame no hōsetsu kijun ) . Ich zastosowanie jest ograniczone do 29 punktów kodowych, których glify różnią się znacznie między standardami JIS C 6226-1983 i po JIS C 6226-1978. Dla tych 29 punktów kodowych glify z JIS C 6226-1983 i później są wyświetlane jako „A”, a glify z JIS C 6226-1978 jako „B”. Na każdym z nich można zastosować glify „A” i „B”. Jednakże, aby zapewnić zgodność ze standardem, należy wyraźnie zaznaczyć, czy dla każdego punktu kodowego użyto formy „A” czy „B”.

Kodowanie znaków

Schematy kodowania określone przez JIS X 0208

W JIS X 0208:1997 artykuł 7 w połączeniu z załącznikami 1 i 2 definiuje łącznie osiem schematów kodowania.

W poniższych opisach regiony „CL” (kontrola po lewej), „GL” (grafika po lewej), „CR” (kontrola po prawej) i „GR” (grafika po prawej) są odpowiednio, w notacji kolumna/linia, od 0 /0 do 1/15, od 2/1 do 7/14, od 8/0 do 9/15 i od 10/1 do 15/14. Dla każdego kodu 2/0 jest przypisany znak graficzny „SPACJA”, a 7/15 znak kontrolny „DELETE”. Te znaki sterujące C0 (określonych w JIS X 0211 i dopasowania ISO / IEC 6429 ) są przypisane do regionu CL.

7-bitowe kodowanie dla kanji: Przewidziane w samej normie. Zestaw dwubajtowy JIS X 0208 jest przypisany do regionu GL.
8-bitowe kodowanie dla kanji: Przewidziane w samej normie. To samo co kodowanie 7-bitowe, ale zdefiniowane w kategoriach 8-bitowych bajtów. Region CR może być nieużywany lub kodować znaki kontrolne C1 z JIS X 0211. Region GR jest nieużywany.
Międzynarodowa wersja referencyjna + 7-bitowe kodowanie kanji: Przewidziane w samej normie. Przesunięcie znaku kontrolnego wyznacza ISO / IEC 646 : 1991 IRV (International wersji referencyjnej, co odpowiada US-ASCII ) na obszarze GL. Shift out oznacza zestaw dwubajtowy JIS X 0208 do tego samego regionu.
Znaki łacińskie + 7-bitowe kodowanie dla kanji: Przewidziane w samej normie. Jak IRV+7-bit, ale ISO/IEC 646:IRV zastąpione przez ISO/IEC 646:JP (rzymski zestaw JIS X 0201 ).
Międzynarodowa wersja referencyjna + 8-bitowe kodowanie kanji: Przewidziane w samej normie. ISO/IEC 646:IRV jest przypisane do regionu GL, JIS X 0208 do regionu GR. W rzeczywistości jest to podzbiór EUC-JP , z wyłączeniem katakany o połowie szerokości z JIS X 0201 i dodatkowego kanji z JIS X 0212 .
Znaki łacińskie + 8-bitowe kodowanie dla kanji: Przewidziane w samej normie. Tak jak w przypadku IRV+8-bit, ale w przypadku ISO/IEC 646:IRV zastąpiono ISO/IEC 646:JP.
Zestaw znaków z kodowaniem Shift: Zgodnie z Załącznikiem 1: "Reprezentacja z kodem zmiany" (シフト符号化表現, Shifuto Fugōka Hyōgen ) . Autorytatywna definicja Shift JIS .
Zestaw znaków zakodowany w RFC 1468: Określone w załączniku 2: „Reprezentacja kodowana zgodnie z RFC 1468” ( RFC 1468符号化表現, RFC 1468 Fugōka Hyōgen ) . Przypomina ISO-2022-JP (który jest autorytatywnie zdefiniowany w RFC 1468), ale jest zdefiniowany za pomocą bajtów ośmiobitowych, podczas gdy ISO-2022-JP jest zdefiniowany za pomocą bajtów siedmiobitowych.

Spośród kodowań przewidzianych w czwartym standardzie tylko zestaw znaków zakodowanych „Shift” jest rejestrowany przez IANA . Jednak niektóre inne są ściśle związane z kodowaniami zarejestrowanymi w IANA zdefiniowanymi gdzie indziej (EUC-JP i ISO-2022-JP).

Sekwencje ucieczki dla JIS X 0202 / ISO 2022

JIS X 0208 może być używany w ramach ISO 2022 /JIS X 0202 (którego ISO-2022-JP jest podzbiorem). Poniżej wymieniono sekwencje specjalne służące do przypisania JIS X 0208 do każdego z czterech zestawów kodów ISO 2022. Tutaj „ESC” odnosi się do znaku sterującego „ Escape ” (0x1B lub 1/11).

Sekwencje specjalne ISO 2022, aby wybrać JIS C 6226 i JIS X 0208
Standard	G0	G1	G2	G3
78	ESC 2/4 4/0	ESC 2/4 2/9 4/0	ESC 2/4 2/10 4/0	ESC 2/4 2/11 4/0
83	ESC 2/4 4/2	ESC 2/4 2/9 4/2	ESC 2/4 2/10 4/2	ESC 2/4 2/11 4/2
90 i dalej	ESC 2/6 4/0 ESC 2/4 4/2	ESC 2/6 4/0 ESC 2/4 2/9 4/2	ESC 2/6 4/0 ESC 2/4 2/10 4/2	ESC 2/6 4/0 ESC 2/4 2/11 4/2

Sekwencja ucieczki rozpoczynająca się od ESC 2/4 wybiera wielobajtowy zestaw znaków. Sekwencja ucieczki rozpoczynająca się od ESC 2/6 określa wersję nadchodzącego wyboru zestawu znaków. JIS C 6226:1978 jest identyfikowany przez bajt 4/0 wielobajtowego identyfikatora 94 (odpowiadający ASCII @). JIS C 6226:1983 / JIS X 0208:1983 jest identyfikowany przez wielobajtowy 94 zestaw identyfikatora bajt 4/2 ( B). JIS X 0208:1990 jest również identyfikowany przez 94-setowy bajt identyfikatora 4/2, ale można go odróżnić za pomocą identyfikatora wersji 4/0 ( @).

Zduplikowane kodowania ASCII i JIS X 0201

W przypadku używania zestawu kanji tego standardu z zestawem znaków graficznych IRV ISO/IEC 646:1991 ( ASCII ) lub zestawem znaków graficznych JIS X 0201 dla znaków łacińskich ( JIS-Roman ), traktowanie znaków wspólnych dla obu zestawów staje się problematyczny. O ile nie podejmie się specjalnych środków, znaki zawarte w obu zestawach nie wszystkie są odwzorowane na siebie jeden do jednego, a pojedynczy znak może mieć więcej niż jeden punkt kodowy; oznacza to, że może spowodować zduplikowane kodowanie.

JIS X 0208:1997, w odniesieniu do tego, kiedy znak jest wspólny dla obu zestawów, zasadniczo zabrania używania punktu kodowego w zestawie kanji (który jest jednym z dwóch punktów kodowych), eliminując zduplikowane kodowania. Ocenia się, że postacie o tej samej nazwie są tą samą postacią.

Na przykład, zarówno nazwa znaku odpowiadającego wzorcowi bitowemu 4/1 w ASCII, jak i nazwa znaku odpowiadającego komórce 33 wiersza 33 zestawu kanji to „LATIN WIELKA LITERA A”. W Międzynarodowej Wersji Referencyjnej + 8-bitowy kod dla kanji, czy to przez wzorzec bitowy 4/1, czy przez wzorzec bitowy odpowiadający komórce 33 wiersza 3 zestawu kanji (10/3 12/1), litera „ A ” (tj. „WIELKA ŁACIŃSKA LITERA A”). Standard zabrania używania wzorca bitowego „10/3 12/1” w celu wyeliminowania zduplikowanego kodowania.

Biorąc pod uwagę implementacje, które traktują znaki punktów kodowych zestawu kanji jako „ znaki o pełnej szerokości ”, a znaki ASCII lub JIS-Roman jako różne znaki, użycie punktów kodowych zestawu kanji jest dozwolone tylko ze względu na kompatybilność wsteczna. Na przykład, w celu zapewnienia kompatybilności wstecznej, dozwolone jest uznanie 10/3 12/1 w Międzynarodowej Wersji Referencyjnej + 8-bitowy kod, aby kanji odpowiadało pełnej szerokości „A”.

Jeśli zestaw kanji jest używany razem z ASCII lub JIS-Roman, to nawet jeśli standard jest ściśle przestrzegany, unikatowe kodowanie znaku nie jest gwarantowane. Na przykład w Międzynarodowej Wersji Referencyjnej + 8-bitowy kod dla kanji, możliwe jest reprezentowanie łącznika za pomocą wzorca bitowego 2/13 dla znaku „HYPHEN-MINUS”, jak również z komórką wiersza 1 zestawu kanji 30 (wzór bitowy 10/1 11/14) dla znaku "HYPHEN". Ponadto standard nie definiuje, którego z dwóch użyć do czego, dlatego łącznik nie ma jednego unikalnego kodowania. Ten sam problem dotyczy znaku minus , cudzysłowów i tak dalej.

Co więcej, nawet jeśli zestaw kanji jest używany jako oddzielny kod, nie ma gwarancji, że zaimplementowano unikalne kodowanie znaków. Jednak w wielu przypadkach współistnieją „ PRZESTRZEŃ IDEOGRAFICZNA ” o pełnej szerokości w komórce 1 wiersza 1 i przestrzeń o połowie szerokości (2/0). To, czym te dwa elementy powinny się różnić, nie jest oczywiste i nie jest określone w normie.

Porównanie schematów kodowania stosowanych w praktyce

Kodowanie	Alternatywna nazwa	7-bitowy?	ISO 2022 ?	Bezpaństwowiec?	Akceptuje ASCII ?	0x00–7F zawsze ASCII?	Nadzbiór 8-bitowego JIS X 0201 ?	Obsługuje JIS X 0212 ?	Samosynchronizacja?
ISO-2022-JP	„ JIS ” (JIS X 0202)	tak	tak	Nie	tak	Sekwencje mogą być inne niż ASCII	Nie (możliwe kodowanie)	Możliwy	Nie
Shift_JIS	„SJIS”	Nie	Nie	tak	Prawie	Wyizolowane bajty mogą być inne niż ASCII	tak	Nie	Nie
EUC-JP	„UJIS” (zunifikowany JIS)	Nie	tak	tak	Zwykle	tak	Nie (zakodowany)	Zwykle dostępne	Nie
Formaty Unicode do porównania
UTF-8		Nie	Nie	tak	tak	tak	Nie (zakodowany)	Do dyspozycji	Zwykle
UTF-16	„Unikod”	Nie	Nie	tak	Nie	Nie	Nie (zakodowany)	Do dyspozycji	Tylko ponad 16-bitowe słowa.
GB 18030		Nie	Nie	tak	tak	Wyizolowane bajty mogą być inne niż ASCII	Nie (zakodowany)	Do dyspozycji	Nie
UTF-32		Nie	Nie	tak	Nie	Nie	Nie (zakodowany)	Do dyspozycji	Zwykle w praktyce

Historia

Aż upłynie pięć lat od ustanowienia, ponownego potwierdzenia lub zrewidowania japońskiej normy przemysłowej, poprzednia norma przechodzi proces potwierdzania, rewizji lub wycofania. Od momentu powstania norma była trzykrotnie zmieniana, a obecnie obowiązuje norma czwarta.

Pierwszy standard

Pierwszym standardem jest JIS C 6226-1978 „Code of Japanese Graphic Character Set for Information Interchange” (情報交換用漢字符号系, Jōhō Kōkan'yō Kanji Fugōkei ) , ustanowiony przez japońskiego Ministra Handlu Międzynarodowego i Przemysłu 1 stycznia 1978 r. Nazywa się również w skrócie 78JIS . Powierzony przez Agencję Nauki i Technologii Przemysłowej , komisja badawczo-naukowa JIPDEC ds. standaryzacji kodów kanji opracowała projekt. Przewodniczącym komitetu był Moriguchi Shigeichi .

Kod zawierał 453 znaki inne niż kanji (w tym Hiragana, Katakana, alfabety rzymskie, greckie i cyrylica oraz znaki interpunkcyjne) oraz 6349 Kanji (2965 Kanji poziomu 1 i 3384 Kanji poziomu 2), co daje łącznie 6802 znaki. Nie zawierał jeszcze znaków do rysowania w pudełku . Sam standard został ustalony w kroju pisma Ishii Mincho firmy Shaken Co., Ltd.

Drugi standard

Drugi standard JIS C 6226-1983 „Kod japońskiego zestawu znaków graficznych do wymiany informacji” (情報交換用漢字符号系, Jōhō Kōkan'yō Kanji Fugōkei ) zmienił pierwszy standard 1 września 1983 r. Jest również nazywany 83JIS . Powierzony przez AIST, komisja JIS JIPDEC związana z kodem kanji opracowała projekt. Przewodniczącym komisji był Motooka Tōru .

Projekt drugiego standardu opierał się na rozważeniu takich czynników, jak promulgacja jōyō kanji , egzekwowanie jinmeiyō kanji oraz standaryzacja japońskiego teleteksu przez Ministerstwo Poczty i Telekomunikacji ; również kolejna modyfikacja została dokonana, aby dotrzymać kroku JIS C 6234-1983 (24-pikselowe formy znakowe drukarki matrycowej; obecnie JIS X 9052).

Dodanie znaków specjalnych: Do znaków specjalnych dodano 39 znaków. Spośród tych 39, zgodnie z zaleceniami JICST oraz z takich standardów jak JIS Z 8201-1981 (symbole matematyczne) i JIS Z 8202-1982 (ilość, jednostka i symbole chemiczne), wybrano rzeczy, których nie można przedstawić za pomocą składu.
Nowo dodane postacie do rysowania w pudełku: Dodano 32 znaki do rysowania w pudełku .
Zamiana punktów kodowych itaiji: Punkty kodowe dla 22 par wariantów Kanji zostały zamienione, tak że wariant z poziomu 2 został przeniesiony na poziom 1 i odwrotnie. Na przykład komórka 59 wiersza 36 (poziom 1) w pierwszym standardowym (壺) została przeniesiona do komórki 68 wiersza 52 (poziom 2); punkt pierwotnie w wierszu 52 komórki 68 (壷) został z kolei przeniesiony do wiersza 36 komórki 59.
Dodatki do kanji level poziomu 2: Trzy postacie z poziomu 1 i jedna postać z poziomu 2 otrzymały nowe punkty kodowe we wcześniej nieprzypisanych punktach kodowych w wierszu 84 jako kanji poziomu 2. Itaiji dla każdego z tych punktów kodowych zostały na nowo przypisane do ich oryginalnych lokalizacji. Na przykład, komórka 1 rzędu 84 w drugim standardzie (堯) została przeniesiona tam, aby pomieścić inny formularz nie zawarty w pierwszym standardzie w komórce 38 rzędu 22 jako znak kanji poziomu 1 (尭).
Modyfikacja form postaci: Zmieniono formy znaków około 300 kanji.

Wśród zmian w tych około 300 formach znaków kanji, wiele glifów poziomu 1, które były w stylu Słownika Kangxi, zostało zmienionych na warianty, a zwłaszcza bardziej uproszczone formy (np. ryakuji i rozszerzony shinjitai ). Na przykład kilka punktów kodowych, które często są przedmiotem krytyki ze względu na znaczne zmiany, to wiersz 18, komórka 10 (78JIS:鷗, 83JIS:鴎) i wiersz 38, komórka 34 (78JIS:瀆, 83JIS:涜).

Było wiele mniejszych zmian od wariantów w stylu Kangxi; na przykład wiersz 25 komórka 84 (鵠) utracił część obrysu. Ponadto, tam gdzie niektóre glify dla kanji poziomu 1 nie były formami w stylu Kangxi, niektóre zostały zmienione na formy w stylu Kangxi; na przykład wiersz 80, komórka 49 (靠) zyskała część obrysu (tj. tę samą część obrysu, którą stracił 25-84).

W celu wyjaśnienia pierwotnej intencji pierwszego standardu, zostały one ostatecznie objęte parametrami kryteriów unifikacji w czwartym standardzie. Różnica w postaci dla przykładów wymienionych powyżej („鵠” i „靠”) mieści się w parametrach kryterium unifikacji 42 (dotyczące składnika „告”).

Większość zmian w formach postaci to różnice między kanji poziomu 1 i 2. W szczególności uproszczenie było wykonywane częściej dla kanji poziomu 1 niż dla kanji poziomu 2; uproszczenia zastosowane do znaków kanji poziomu 1 (np. „潑” do „溌” i „醱” do „醗”) nie były generalnie stosowane do znaków kanji na poziomie 2 („撥” pozostało bez zmian ). Wspomniane wcześniej 25-84 (鵠) i 80-49 (靠) zostały również potraktowane inaczej, ponieważ pierwszy jest na poziomie 1, a drugi na poziomie 2. Mimo to nastąpiły pewne zmiany niezależnie od poziomu; na przykład znaki zawierające komponenty "drzwi" (戸) i "zima" (冬) zostały zmienione bez różnicy w traktowaniu kanji poziomu 1 i 2.

Jednak dla 29 punktów kodowych (takich jak problematyczne 18-10 i 38-34 wspomniane powyżej) formy odziedziczone przez czwarty standard są sprzeczne z pierwotną intencją pierwszego. W tym celu istnieją specjalne kryteria unifikacji, aby zachować zgodność z poprzednimi standardami w tych punktach kodowych.

Kiedy wprowadzono nową kategorię „X” dla japońskich norm przemysłowych (dla dziedzin związanych z informacjami), drugi standard został przemianowany na JIS X 0208-1983 w dniu 1 marca 1987 r.

Trzeci standard

Trzecia norma JIS X 0208-1990 „Kod japońskiego zestawu znaków graficznych do wymiany informacji” (情報交換用漢字符号, Jōhō Kōkan'yō Kanji Fugō ) zrewidowała drugą normę 1 września 1990 r. W skrócie nazywana jest również 90JIS . Powierzony przez AIST komitet w Japońskim Stowarzyszeniu Normalizacyjnym ds. rewizji JIS X 0208 stworzył projekt. Przewodniczącym komisji był Tajima Kazuo .

Zmieniono 225 glifów kanji i dodano dwie postacie do poziomu 2 (84-05 "凜" i 84-06 "熙"). Było to rozłączenie itaiji dla dwóch już uwzględnionych znaków (49-59 „凛” i 63-70 „煕”). Niektóre zmiany i dwa dodatki odpowiadały 118 kanji jinmeiyō dodanym w marcu 1990. Sam standard został ustalony w Heisei Mincho .

Czwarty standard

Czwarty standard JIS X 0208:1997 „7-bitowe i 8-bitowe dwubajtowe zestawy KANJI do wymiany informacji” ( 7ビット及び8ビットの2バイト情報交換用符号化漢字集合, Nana-Bitto Oyobi Hachi-Bitto nie Ni-Baito joho Kōkan'yō Fugōka Kanji Shugo ) zmienione trzecią normę w dniu 20 stycznia 1997. jest również nazywany 97JIS za krótki. Powierzony przez AIST, komitet JSA ds. badań i studiów nad kodowanymi zestawami znaków opracował projekt. Przewodniczącym komitetu był Shibano Kōji .

Podstawowe zasady tej rewizji polegały na tym, aby nie wprowadzać zmian w zestawie znaków, wyjaśniać niejednoznaczne zapisy i czynić standard stosunkowo łatwiejszym w użyciu. Dodawanie, usuwanie i zmiana kolejności punktów kodowych nie zostały wykonane i bez wyjątku przykładowe glify również pozostały niezmienione. Jednak postanowienia normy zostały całkowicie przepisane i/lub uzupełnione. Podczas gdy trzeci standard liczył 65 stron bez wyjaśnień, czwarty standard liczył 374 strony bez wyjaśnień.

Główne punkty rewizji to:

Definicja metod kodowania: Do trzeciego standardu definiowana była tylko metoda kodowania oparta na rozszerzeniu kodu JIS X 0202. Jest to coś niezwykłego, jeśli chodzi o kodowane zestawy znaków. W czwartym standardzie zdefiniowano metody kodowania, które nie wykorzystują sekwencji specjalnych w celu rozszerzenia kodu.
Definicja ogólnego zakazu używania nieprzypisanych punktów kodowych i metod użycia nieprzypisanych punktów kodowych: Trzeci standard, w wyjaśnieniu, które nie było częścią standardu, opisywał rzeczy tak, jakby były miejsca, w których dla niektórych nieprzypisanych punktów kodowych można było przypisać gaiji. W czwartym standardzie wyjaśniono, że używanie nieprzypisanych punktów kodowych jest ogólnie zabronione. Określono również warunki użycia nieprzypisanych punktów kodowych.
Ogólna eliminacja zduplikowanych kodowań: Każdej postaci nadano „imię postaci”, które odpowiada innym standardom. Określono również metody kodowania do ich wykorzystania wraz z Międzynarodową Wersją Referencyjną ISO/IEC 646 lub JIS X 0201. Gdy JIS X 0208 jest używany razem z jednym z dwóch przypisanych punktów kodowych dla znaków o tej samej nazwie, dozwolony jest tylko jeden; w ten sposób zduplikowane kodowania zostały ogólnie wyeliminowane.
Badanie źródeł kanji: Znaki zawarte do tej pory w standardzie, których nie ma ani w Słowniku Kangxi, ani w Dai Kanwa Jiten, nie zostały zidentyfikowane. W związku z tym dokładnie zbadano, w jakim celu i z jakich źródeł te kanji pochodziły podczas kompilacji pierwszego standardu.
Definicja kryteriów ujednolicenia kanji: W oparciu o takie rzeczy, jak materiały do opracowania pierwszego standardu, podjęto próbę przywrócenia intencji pierwszego standardu dla zakresu glifów, które reprezentuje każdy punkt kodowy. Ponadto jasno określono kryteria ujednolicenia glifów kanji.
Włączenie norm de facto: Do czasu czwartego standardu metody kodowania Shift JIS i ISO-2022-JP stały się de facto standardami odpowiednio dla komputerów osobistych i poczty elektronicznej. Te metody kodowania zostały uwzględnione jako „Shift-Coded Representation” i „RFC 1468-Coded Representation” (opisane powyżej).

Następcy

JIS X 0213 ( rozszerzony kanji ) został zaprojektowany „w celu zaoferowania wystarczającego zestawu znaków do celów kodowania współczesnego języka japońskiego, który JIS X 0208 miał być od samego początku”; definiuje zestaw znaków, który rozszerza się na zestaw kanji JIS X 0208. Projektanci JIS X 0213 zalecają migrację z JIS X 0208 do JIS X 0213, wśród zalet jest zgodność JIS X 0213 z Hyōgai Kanji Glyph List i nowszymi jinmeiyō kanji .

Wbrew oczekiwaniom autorów, przyjęcie JIS X 0213 nie było szybkie od czasu jego uchwalenia w 2000 r. Komitet redakcyjny JIS X 0213:2004 napisał (w 2004 r.): „Status, w którym większość systemów informatycznych może być używana wspólnie, to tylko JIS X 0208”. (JIS X 0213:2000, załącznik 1:2004, sekcja 2.9.7)

W przypadku Microsoft Windows , głównego systemu operacyjnego (a tym samym dostarczającego dominujące środowisko pulpitu ) w sektorze komputerów osobistych, repertuar JIS X 0213 został uwzględniony od czasu wydania systemu Windows Vista w listopadzie 2006 r. Mac OS X jest zgodny z JIS X 0213 od wersji 10.1 (wydanej w 2001 roku). Wiele Uniksów, takich jak Linux, może (opcjonalnie) obsługiwać w razie potrzeby JIS X 0213. Dlatego uważa się, że z czasem obsługa JIS X 0213 na komputerach osobistych nie będzie przeszkodą w jego ewentualnym przyjęciu.

Wśród autorów JIS X 0213 są tacy, którzy oczekują połączenia JIS X 0208 i JIS X 0213 przed przyjęciem JIS X 0213 (Satō, 2004). Jednak JIS X 0208 jest nadal używany do chwili obecnej i wielu przewiduje, że przetrwa jako standard. Istnieją bariery, które należy pokonać, jeśli JIS X 0213 ma zastąpić JIS X 0208 w powszechnym użyciu:

Repertuary znaków używane obecnie w japońskich telefonach komórkowych są oparte na JIS X 0208. Nie ma żadnych oficjalnie ogłoszonych planów migracji do kompatybilności z JIS X 0213. Ponieważ telefony komórkowe są obecnie wszechobecnym aspektem japońskiej komunikacji tekstowej (patrz japońska kultura telefonów komórkowych ), będąc szeroko rozpowszechnionym, powszechnie używanym medium do wysyłania wiadomości e-mail i dostępu do sieci WWW , brak przyjęcia telefonów komórkowych zniechęca do korzystania z nich gdzie indziej.
JIS X 0213 nie jest ściśle zgodny w górę z JIS X 0208 pod względem kryteriów unifikacji (patrz poniżej ). Uważa się, że w przypadku archiwów o dużej skali (np. baz bibliograficznych i Aozora Bunko ), które używają JIS X 0208 i ściśle przestrzegają jego kryteriów unifikacji, niezwykle trudna byłaby praca zarówno w przypadku konwersji wszystkich danych do JIS X 0213, jak i zachowania tego samego standardu integralności tekstu.
W praktyce wiele systemów definiuje i używa nieprzypisanych punktów kodowych w JIS X 0208. Na przykład system Windows przypisuje znaki rozszerzone IBM i NEC oraz obszary znaków zdefiniowane przez użytkownika (patrz Windows-932 ), a telefony komórkowe przypisują w niektórych takich miejscach emoji . Punkty kodowe tych gaiji kolidują z punktami kodowymi używanymi w kodach JIS X 0213, więc byłoby pewne trudności w migracji tych systemów z JIS X 0208 do JIS X 0213. Planowane są również migracje do UCS / Unicode i użycie stamtąd repertuar JIS X 0213, ale dopóki administrator systemu nie będzie w stanie ocenić, czy implementacje par zastępczych UCS/Unicode i kompozycje znaków są wystarczająco stabilne, prawdopodobnie zawaha się przed użyciem repertuaru JIS X 0213, który tego wymaga. wdrożenia.
Ulepszenia wprowadzone przez JIS X 0213 dotyczą głównie znaków, które nie są używane tak często, jak te już obecne w JIS X 0208. Ponieważ jest prawie dwa razy więcej glifów, które trzeba zaimplementować, aby zmniejszyć użycie tych dodatkowych glifów , w wielu przypadkach może to być niski zwrot z inwestycji, zwłaszcza gdy zasoby są ograniczone.

Realizacje

Ponieważ JIS X 0208 / JIS C 6226 jest przede wszystkim zestawem znaków, a nie ściśle określonym kodowaniem znaków , kilka firm wdrożyło własne kodowanie zestawu znaków.

Apple Computer Inc .: MacJapanese (oparty na Shift_JIS )
Fujitsu : kod kanji JEF
Hitachi Ltd. : KEIS (z siedzibą w EBCDIC)
IBM : różne, w tym IBM-932 i IBM-942 (oba oparte na Shift_JIS)
Microsoft : Windows-932 (oparty na Shift_JIS)
NEC : JIPS

Kilka z nich zawiera przypisania znaków specyficzne dla dostawcy zamiast nieprzydzielonych regionów standardu. Są to okna i MacJapanese-932, jak również NEC „s PC98 kodowania znaków. Chociaż IBM-932 i IBM-942 obejmują również przypisania dostawców, obejmują je poza regionem używanym dla JIS X 0208.

Stosunek do innych standardów

ISO/IEC 646 IRV i ASCII

Jak wspomniano powyżej, zestaw znaków kanji nie jest zgodny w górę z zestawem znaków graficznych ISO/IEC 646:1991 IRV (ASCII). Zestaw kanji i zestaw znaków graficznych IRV mogą być używane razem, jak określono w JIS X 0208 (IRV + 7-bitowy kod dla kanji i IRV + 8-bitowy kod dla kanji). Mogą być również używane razem w EUC-JP .

JIS X 0201

W zestawie kanji brakuje trzech znaków zawartych w zestawie znaków graficznych JIS X 0201 dla znaków łacińskich: 2/2 (CUDAŃSTWO), 2/7 (APOSTROF) i 2/13 (HYPHEN-MINUS). Zestaw kanji zawiera wszystkie znaki zawarte w zestawie znaków graficznych JIS X 0201 dla katakana.

Zestaw kanji i zestaw znaków graficznych dla znaków łacińskich mogą być używane razem, jak określono w JIS X 0208 (znaki łacińskie + 7-bitowy kod dla kanji i znaki łacińskie + 8-bitowy kod dla kanji). Zestaw kanji, zestaw znaków graficznych dla znaków łacińskich i zestaw znaków graficznych JIS X 0201 dla katakana mogą być używane razem, jak określono w JIS X 0208 (zestaw znaków z kodowaniem Shift ; tj. Shift JIS ). Zestaw kanji i zestaw znaków graficznych dla katakana mogą być używane razem w EUC-JP .

JIS X 0212

JIS X 0212 (dodatkowe znaki kanji) definiuje dodatkowe znaki z punktami kodowymi do celów przetwarzania informacji, które wymagają znaków, których nie ma w JIS X 0208. Zamiast przydzielać znaki w głównym zbiorze kanji JIS X 0208, definiuje drugi 94 na 94 kanji zestaw zawierający znaki uzupełniające.

JIS X 0212 może być używany z JIS X 0208 w EUC-JP . Ponadto, JIS X 0208 i JIS X 0212 są standardami źródłowymi dla ujednolicenia Han UCS/Unicode , co oznacza, że kanji z obu zestawów można umieścić w jednym dokumencie w formacie Unicode.

Wśród punktów kodowych, które zmieniła druga wersja JIS X 0208, 28 punktów kodowych w JIS X 0212 odzwierciedla formy znaków sprzed zmian. Ponadto JIS X 0212 ponownie przypisuje „ znacznik zamknięcia ”, który JIS X 0208 przypisał jako nie-kanji ( 〆 , w wierszu 1 komórka 26) jako kanji (乄, w wierszu 16 komórka 17). JIS X 0212 nie ma innych znaków wspólnych z JIS X 0208 niż te. W związku z tym nie nadaje się do ogólnego użytku samodzielnie.

Jednak w czwartej wersji JIS X 0208 połączenie z JIS X 0212 nie zostało w ogóle zdefiniowane. Uważa się, że dzieje się tak dlatego, że komitet redakcyjny czwartego standardu JIS X 0208 miał krytyczną opinię na temat metod wyboru i identyfikacji JIS X 0212. Znaczenie znaków i uzasadnienie wyboru nie zostały odpowiednio udokumentowane, co utrudnia określenie, czy jest to pożądane. kanji odpowiadało tym w swoim repertuarze. Tekst czwartego standardu, poza wskazaniem na problematyczne punkty wyboru znaków w JIS X 0212, stwierdza, że „uważa się, że nie tylko wybór znaków jest niemożliwy, ale także nie można go używać razem; związek z JIS X 0212 nie jest w ogóle zdefiniowany." (sekcja 3.3.1)

JIS X 0213

Diagram Eulera porównujący repertuary JIS X 0208, JIS X 0212 , JIS X 0213 , Windows-31J , repertuar standardu Microsoft i Unicode .

JIS X 0213 (rozszerzenie kanji) definiuje zestaw kanji, który rozszerza się na zestaw kanji JIS X 0208. Zgodnie z tym standardem, jest „zaprojektowany w celu zaoferowania wystarczającego zestawu znaków do celów kodowania współczesnego języka japońskiego że JIS X 0208 miał być od samego początku."

Zestaw kanji JIS X 0213 zawiera wszystkie znaki, które mogą być reprezentowane w zestawie kanji JIS X 0208, z wieloma dodatkami. W sumie JIS X 0213 definiuje 1183 nie-kanji i 10 050 kanji (łącznie 11 233 znaków), w dwóch płaszczyznach 94 na 94 (面, men ) . Pierwsza płaszczyzna (bez kanji i kanji poziomu 1-3) jest oparta na JIS X 0208, podczas gdy druga płaszczyzna (kanji poziomu 4) została zaprojektowana tak, aby pasowała do nieprzydzielonych wierszy JIS X 0212, co pozwala na użycie w EUC-JP . JIS X 0213 definiuje również Shift_JISx0213 , wariant Shift_JIS zdolny do kodowania całości JIS X 0213.

Dla większości celów i celów płaszczyzna 1 JIS X 0213 jest nadzbiorem JIS X 0208. Jednak do niektórych punktów kodowych w JIS X 0213 są stosowane inne kryteria unifikacji niż w JIS X 0208. W związku z tym niektóre pary glifów kanji, które były reprezentowane o jeden punkt kodowy JIS X 0208, ze względu na ujednolicenie, otrzymują oddzielne punkty kodowe w JIS X 0213. Na przykład glif w komórce 46 wiersza 33 w JIS X 0208 ("僧", opisany powyżej ) ujednolica kilka wariantów ze względu na do jego prawej części. W JIS X 0213 dwie formy (te zawierające składnik „丷”) są zunifikowane w płaszczyźnie 1 wiersz 33 komórka 46, a druga (zawierająca składnik „八”) znajduje się w płaszczyźnie 1 wiersz 14 komórka 41. czy komórka 46 JIS X 0208 wiersz 33 powinna być mapowana na komórkę 46 JIS X 0213, płaszczyznę 1 wiersz 33, czy komórkę 41, płaszczyznę 1 wiersz 14, nie można określić automatycznie. Ogranicza to stopień, w jakim JIS X 0213 można uznać za zgodny w górę z JIS X 0208, jak przyznał komitet redakcyjny JIS X 0213.

Jednak w większości komórka n rzędu m w JIS X 0208 odpowiada komórce n w płaszczyźnie 1 rzędu m w JIS X 0213; dlatego w praktyce nie powstaje wiele zamieszania. Dzieje się tak, ponieważ większość krojów pisma używa glifów przedstawionych w JIS X 0208, a większość użytkowników nie zdaje sobie sprawy z kryteriów unifikacji.

ISO/IEC 10646 i Unicode

Zestaw kanji JIS X 0208 jest jednym z oryginalnych standardów źródłowych dla unifikacji Han w ISO/IEC 10646 (UCS) i Unicode . Każdy znak kanji w JIS X 0208 odpowiada własnemu punktowi kodowemu w podstawowej płaszczyźnie wielojęzycznej (BMP) UCS/Unicode .

Znaki inne niż kanji w JIS X 0208 również odpowiadają ich własnym punktom kodowym w BMP. Jednak dla niektórych znaków specjalnych, niektóre systemy implementują inne odpowiedniki niż te z UCS/Unicode (które są oparte na nazwach znaków podanych w JIS X 0208:1997).

Przypisy

Wyjaśniający

Przypisy referencyjne

^ "Dlaczego Japonia nie stworzyła iPoda" . Gatunki . 5 maja 2008 r.
^ JIS X 0208 nie był jednym ze standardów zawartych w wykazie odpowiednich systemów docelowych do wyświetlania nowego znaku JIS ogłoszonym przez Ministerstwo Gospodarki, Handlu i Przemysłu 17 stycznia 2007 r.
^ ^B ^c Steele Shawn (15 kwietnia 1998). "CP932.TXT: cp932 do tabeli Unicode" . Microsoft. (kody w formacie Shift_JIS; SJIS 0x815C = 1-29 = JIS 0x213D; SJIS 0x817C = 1-61 = JIS 0x215D)
^ ^a ^b „Mapa (wersja zewnętrzna) z japońskiego kodowania Mac OS do Unicode 2.1 i nowszych” . Jabłko. (kody w formacie Shift_JIS; SJIS 0x815C = 1-29 = JIS 0x213D; SJIS 0x817C = 1-61 = JIS 0x215D)
^ ^B ^c ^d Lunde Ken (21 marca 2019). „Krótka historia japońskich ligatur nazw ery” . Blog typu CJK . Adobe Inc .
^ „233: Japoński zestaw znaków graficznych do wymiany informacji, samolot 1” (PDF) . IPSJ.
^ Unicode, Inc. (14 października 2011). „JIS X 0208 (1990) do Unicode” .
^ van Kesteren, Anne , „Indeks jis0208” , Standard kodowania , WHATWG
^ Jungshik Shin (14 października 2011). "KSX1001.TXT: KS X 1001 do tabeli Unicode" . Unicode, Inc.
^ ^a ^b ISO-IR-233 (JIS X 0213: 2004 samolot 1) wykres kodów
^ JIS C 6225-1979 (kody znaków kontrolnych na potrzeby japońskiego zestawu znaków graficznych do wymiany informacji) pod warunkiem znaków kontrolnych dla początku i końca kompozycji. JIS C 6225 został przemianowany na JIS X 0207 w 1987 roku i został wycofany w 1997 roku.
^ W zestawach znaków IANAShift JIS jest definiowany przez odniesienie do JIS X 0208:1997 Dodatek 1.
^ ^a ^b ^c ^d "15. Historia JIS X 0208" (PDF) , IBM Japanese Graphic Character Set for Extended UNIX Code (EUC) , IBM, s. 371, zarchiwizowane (PDF) z oryginału w dniu 8 grudnia 2017 r. , pobrane 8 grudnia 2017 r.
^ Lunde, Ken. „Załącznik Q § 78-vs-83-3” . Przetwarzanie informacji CJKV (materiał uzupełniający) . O'Reilly. Zwróć uwagę na włączenie kodów kuten z pominiętym myślnikiem.
^ Lunde, Ken. „Załącznik Q § 78-vs-83-2” . Przetwarzanie informacji CJKV (materiał uzupełniający) . O'Reilly. Zwróć uwagę na włączenie kodów kuten z pominiętym myślnikiem.
^ Według Nomury (1984) liczba zmienionych postaci znaków, w tym ruchów między punktami kodowymi, wynosi 294. Według Shibano (1997a) i tekstu czwartego standardu liczba zmienionych postaci znaków wynosi 300.
^ ^a ^b Oryginalny japoński: 「JIS X 0208が当初符号化を意図していた現代日本語を符号化するために十分な文字集合を提供することを目的として設計された」
^ Lunde, Ken. „Załącznik Q § TJ2” . Przetwarzanie informacji CJKV (materiał uzupełniający) . O'Reilly. Zwróć uwagę na włączenie kodów kuten z pominiętym myślnikiem.
^ Na przykład Shibano Kōji (1997a), który pełnił funkcję przewodniczącego komitetu redakcyjnego czwartego standardu, powiedział o metodzie selekcji: „Opiera się na powierzchownym zrozumieniu wyboru zestawu znaków JIS X 0208; jest to błędne zrozumienie” (oryginalny japoński:「JIS X 0208の文字集合選定の表層的理解に基づくものであり、間違った理解である」 ) i „Istnieje duży problem w badaniu całego zestawu znaków, który przekracza 10000 znaków ”. (oryginalny japoński:「1万字を越える水準の文字集合の検討としては、大きな問題がある」 )
^ Marukawa, Kazushi. „Zestawy znaków JIS – JIS X 0212:1990” . Zarchiwizowane z oryginału w dniu 22 maja 2005 r.
^ Chang, Hyeshik. „Plik Readme dla CJKCodecs” . cPython . Fundacja Oprogramowania Pythona.
^ JIS X 0213: 2000 sekcja 5.3.2, JIS X 0213: 2000 Dodatek 1:2004 sekcja 3.2.2

Zobacz też

Kodowane zestawy znaków JIS
- JIS X 0201 „7-bitowe i 8-bitowe kodowane zestawy znaków do wymiany informacji”
- JIS X 0202 „Technologia informacyjna – Struktura kodu znakowego i techniki rozszerzania” ( ISO/IEC 2022 )
- JIS X 0208 „7-bitowe i 8-bitowe dwubajtowe zestawy KANJI do wymiany informacji”
- JIS X 0211 „Funkcje sterujące dla kodowanych zestawów znaków” ( ISO/IEC 6429 )
- JIS X 0212 „Kod dodatkowego japońskiego zestawu znaków graficznych do wymiany informacji”
- JIS X 0213 „7-bitowe i 8-bitowe dwubajtowe rozszerzone zestawy KANJI do wymiany informacji”
- JIS X 0221 „Uniwersalny zestaw znaków kodowanych wielooktetowo (UCS)” ( ISO/IEC 10646 )
Rozszerzony shinjitai
Pomoc: japoński

Bibliografia

Dla celów cytowania, te japońskie nazwy są przedstawione tak, jakby były w porządku zachodnim, gdzie zostały zromanizowane, i zachowują porządek wschodni, gdzie nie.

Nishimura, Hirohiko [西村恕彦], 1978. Kanji JIS [漢字のJIS ]. Dziennik normalizacji [標準化ジャーナル], 171: 3-8.
Nomura, Masaaki [野村雅昭], 1984. Rewizja JIS C 6226: Kody Kanji do wymiany informacji [ JIS C 6226 情報交換用漢字符号系の改正]. Dziennik normalizacyjny [標準化ジャーナル], 14 (3): 4-9.
Ogata, Katsuhiro [小形克宏], 2006a.permanent dead link ] Rzeczy, które nie zostały ujednolicone w 97JIS wśród przykładowych glifów zmienionych w JIS C 6226-1983 (83JIS) [JIS C 6226-1983 (83JIS) で例示字体を変更したうち、97JISで包摂とされなかったもの] (dostęp 29 stycznia 2007 r.).
Ogata, Katsuhiro [小形克宏], 2006b.stały martwy link ] Rzeczy, które wchodziły w zakres unifikacji wśród przykładowych glifów zmienionych w JIS C 6226-1983 (83JIS) [JIS C 6226-1983 (83JIS) 例示字体変更のうち、包摂の範囲内だったもの] ( uzyskano dostęp 29 stycznia 2007 r.).
Satō, Takayuki [佐藤敬幸], 2004. Odnośnie rewizji JIS X 0213 (7-bitowe i 8-bitowe rozszerzone zestawy Kanji kodowane dwubajtowo do wymiany informacji) [ JIS X 0213 (7ビット及び8ビットの2バイト情報交換) ]. Dziennik normalizacyjny [標準化ジャーナル], 34 (4): 8-12.
Shibano, Kōji [芝野耕司], 1997a. Odnośnie wersji JIS X 0208 (7-bitowe i 8-bitowe dwubajtowe zestawy Kanji do wymiany informacji) [ JIS X0208 (7ビット及び8ビットの2バイト情報交換用符号化漢字集合) の改正について]. Dziennik normalizacji [標準化ジャーナル], 27 (3): 8-12.
Shibano, Kōji [芝野耕司], 1997b. Plan rozszerzenia kanji JIS [ JIS漢字の拡張計画]. Dziennik normalizacji [標準化ジャーナル], 27 (7): 5-11.
Shibano, Kōji [芝野耕司], 2000. Ustanowienie JIS X 0213 (7-bitowe i 8-bitowe dwubajtowe rozszerzone zestawy Kanji do wymiany informacji) [ JIS X 0213 (7ビット及び8ビットの2バイト情報交換用符号) ]. Dziennik normalizacji [標準化ジャーナル], 30 (3): 3-7.
Shibano, Kōji [芝野耕司], 2001. Odnośnie JIS kanji [漢字について]. Standaryzacja i kontrola jakości [標準化と品質管理], 54 (8): 44-50.
Shibano, Kōji [芝野耕司] (redaktor), 2002. JIS Kanji Dictionary, wydanie rozszerzone i poprawione [増補改訂 JIS漢字字典]. Tokio: Japońskie Stowarzyszenie Normalizacyjne ( ISBN 4-542-20129-5 ).
Shibano, Kōji [芝野耕司], 2002. Rozwój technologii przetwarzania kanji i języka japońskiego: standaryzacja kodów kanji [漢字・日本語処理技術の発展: 漢字コードの標準化] . Magazynek IPSJ [情報処理], 43 (12): 1362–1367
Tajima, Kazuo [田嶋一夫], 1979. Problemy związane z używaniem listy kanji JIS: projektowanie i obsługa kanji w systemach przetwarzania kanji [ JIS漢字表の利用上の問題: 漢字処理システムにおける漢字のデザインと管理]. Journal of Information Processing Society of Japan [情報管理], 21 (10): 753-761.
Uchida, Tomio [内田富雄], 1990. Ustanowienie JIS X 0212 (Kanji Code for Information Interchange – Supplemental Kanji) [ JIS X 0212 (情報交換用漢字符号―補助漢字) の制定]. Dziennik normalizacyjny [標準化ジャーナル], 20 (11): 6–11.
Yasuoka, Koichi [安岡孝一], 2001a. Sytuacja najnowszych kodów znaków w Japonii (dawna część) [日本における最新文字コード事情 (前編) ]. Systemy, kontrola i informacja [システム/制御/情報], 45 (9): 528-535.
Yasuoka, Koichi [安岡], 2001b. Sytuacja najnowszych kodów znaków w Japonii (ostatnia część) [日本における最新文字コード事情 (後編) ]. Systemy, kontrola i informacja [システム/制御/情報], 45 (12): 687–694.
Yasuoka, Kōichi [安岡孝一], 2006 „Różnice między planem kanji JIS (1976) a JIS C 6226-1978” [ JIS漢字案 (1976) とJIS C 6226-1978の異同] na 17. Studia” [東洋学へのコンピュータ利用] seminarium badawcze. 3-51.
Yasuoka, Kōichi [安岡孝一] i Motoko Yasuoka [安岡素子], 2006. Historia kodów znaków: Europa, Ameryka i Japonia [文字符号の歴史: 欧米と日本編]. Tokio: Kyōritsu Shuppan ( ISBN 4-32012102-3 ).

Zewnętrzne linki

Międzynarodowy Rejestr nadzorowany przez IPSJ/ITSCJ.
(w języku japońskim) Wyszukiwanie w bazie danych Japońskiego Komitetu Norm Przemysłowych (najnowszą normę można przeczytać tutaj).
(w języku japońskim) Wyszukiwanie w bazie danych Japońskiego Stowarzyszenia Normalizacyjnego : (kopię najnowszej normy można kupić tutaj).
(w języku japońskim) Przepisy dotyczące unifikacji w standardach JIS X 0208 i 0213
(po japońsku) Cyber Librarian – JIS kanji listing

[1] "Dlaczego Japonia nie stworzyła iPoda" . Gatunki . 5 maja 2008 r.

[2] JIS X 0208 nie był jednym ze standardów zawartych w wykazie odpowiednich systemów docelowych do wyświetlania nowego znaku JIS ogłoszonym przez Ministerstwo Gospodarki, Handlu i Przemysłu 17 stycznia 2007 r.

[ms932-3] B ^c Steele Shawn (15 kwietnia 1998). "CP932.TXT: cp932 do tabeli Unicode" . Microsoft. (kody w formacie Shift_JIS; SJIS 0x815C = 1-29 = JIS 0x213D; SJIS 0x817C = 1-61 = JIS 0x215D)

[macjapanese-4] „Mapa (wersja zewnętrzna) z japońskiego kodowania Mac OS do Unicode 2.1 i nowszych” . Jabłko. (kody w formacie Shift_JIS; SJIS 0x815C = 1-29 = JIS 0x213D; SJIS 0x817C = 1-61 = JIS 0x215D)

[lundenec13-10] B ^c ^d Lunde Ken (21 marca 2019). „Krótka historia japońskich ligatur nazw ery” . Blog typu CJK . Adobe Inc .

[11] „233: Japoński zestaw znaków graficznych do wymiany informacji, samolot 1” (PDF) . IPSJ.

[16] Unicode, Inc. (14 października 2011). „JIS X 0208 (1990) do Unicode” .

[17] van Kesteren, Anne , „Indeks jis0208” , Standard kodowania , WHATWG

[18] Jungshik Shin (14 października 2011). "KSX1001.TXT: KS X 1001 do tabeli Unicode" . Unicode, Inc.

[x02132004m1-20] ISO-IR-233 (JIS X 0213: 2004 samolot 1) wykres kodów

[25] JIS C 6225-1979 (kody znaków kontrolnych na potrzeby japońskiego zestawu znaków graficznych do wymiany informacji) pod warunkiem znaków kontrolnych dla początku i końca kompozycji. JIS C 6225 został przemianowany na JIS X 0207 w 1987 roku i został wycofany w 1997 roku.

[34] W zestawach znaków IANAShift JIS jest definiowany przez odniesienie do JIS X 0208:1997 Dodatek 1.

[ibm208history-51] "15. Historia JIS X 0208" (PDF) , IBM Japanese Graphic Character Set for Extended UNIX Code (EUC) , IBM, s. 371, zarchiwizowane (PDF) z oryginału w dniu 8 grudnia 2017 r. , pobrane 8 grudnia 2017 r.

[52] Lunde, Ken. „Załącznik Q § 78-vs-83-3” . Przetwarzanie informacji CJKV (materiał uzupełniający) . O'Reilly. Zwróć uwagę na włączenie kodów kuten z pominiętym myślnikiem.

[53] Lunde, Ken. „Załącznik Q § 78-vs-83-2” . Przetwarzanie informacji CJKV (materiał uzupełniający) . O'Reilly. Zwróć uwagę na włączenie kodów kuten z pominiętym myślnikiem.

[54] Według Nomury (1984) liczba zmienionych postaci znaków, w tym ruchów między punktami kodowymi, wynosi 294. Według Shibano (1997a) i tekstu czwartego standardu liczba zmienionych postaci znaków wynosi 300.

[goal-56] Oryginalny japoński: 「JIS X 0208が当初符号化を意図していた現代日本語を符号化するために十分な文字集合を提供することを目的として設計された」

[57] Lunde, Ken. „Załącznik Q § TJ2” . Przetwarzanie informacji CJKV (materiał uzupełniający) . O'Reilly. Zwróć uwagę na włączenie kodów kuten z pominiętym myślnikiem.

[58] Na przykład Shibano Kōji (1997a), który pełnił funkcję przewodniczącego komitetu redakcyjnego czwartego standardu, powiedział o metodzie selekcji: „Opiera się na powierzchownym zrozumieniu wyboru zestawu znaków JIS X 0208; jest to błędne zrozumienie” (oryginalny japoński:「JIS X 0208の文字集合選定の表層的理解に基づくものであり、間違った理解である」 ) i „Istnieje duży problem w badaniu całego zestawu znaków, który przekracza 10000 znaków ”. (oryginalny japoński:「1万字を越える水準の文字集合の検討としては、大きな問題がある」 )

[59] Marukawa, Kazushi. „Zestawy znaków JIS – JIS X 0212:1990” . Zarchiwizowane z oryginału w dniu 22 maja 2005 r.

[python-eucjis-60] Chang, Hyeshik. „Plik Readme dla CJKCodecs” . cPython . Fundacja Oprogramowania Pythona.

[62] JIS X 0213: 2000 sekcja 5.3.2, JIS X 0213: 2000 Dodatek 1:2004 sekcja 3.2.2

Languages

In other projects