CJK統合漢字

CJK統合漢字とは



CJK統合漢字は、ISO/IEC 10646|ISO_IEC 10646Unicodeで採用されている符号化用漢字集合です。中国語、日本語、朝鮮語で使われる漢字を統合したことに由来します。初期バージョンはCJKVと称し、ベトナムで使用される漢字も含めていました。これは、ソフトウェアの国際化における文字コード分野で重要な役割を果たしています。

歴史



1978年に日本で最初のISO 2022に基づく漢字コード規格が制定されました。その後、中国、台湾、韓国でも独自の規格が制定されましたが、互換性がありませんでした。1980年国立国会図書館の高橋徳太郎氏が東アジアの統一漢字コードの必要性を提唱し、台湾で制定されたCCCIIは、最初の統一的な試みの一つでした。1984年、ISOは世界中の文字を単一の文字集合として扱えるISO 10646の作成を開始しました。

当初、16ビットでの実装を想定していましたが、中国の反対により、各国の漢字コードを統合したHCCのアイデアが提案されました。その後、32ビットでの表現となり、各国の漢字コードをそのまま入れることになりました。しかし、中国は統合を強く求め、CJK-JRGが設置され、議論が継続されました。

一方、1987年頃から、ジョー・ベッカーとリー・コリンズはUnicodeを開発しており、16ビットで全ての文字を扱えることを目標とし、日本、中国、韓国の漢字を統合する方針でした。1991年ISO/IEC 10646|ISO_IEC 10646Unicodeの一本化が図られ、CJK-JRGによって統合漢字コード表が作成されました。1992年、この統合された文字表(URO)を取り込んだISO 10646が国際規格化されました。

1993年、最初のCJK統合漢字が割り当てられ、20,902字が登録されました。その後、拡張A、B、C、D、E、F、G、H、Iと段階的に追加され、2023年時点では合計97,680文字に達しています。これらの拡張は、各国の漢字の多様性に対応するためのものです。

CJK統合漢字の特徴と問題点



CJK統合漢字は、各国の漢字を統合することで文字コードの管理を効率化する一方で、いくつかの問題点も抱えています。例えば、一つの漢字に一つの符号位置しか与えられないため、各国の規格で同じ形の漢字が重複して収録されている場合、Unicodeとの相互変換で可逆性が失われる可能性があります。

この問題を解決するために、CJK互換漢字の領域が設けられています。また、包摂基準の変更により、本来は統合されるべき漢字が分離されることもあり、複雑な状況を生み出しています。

CJK互換漢字



CJK互換漢字は、U+F900〜U+FAFFのブロックに割り当てられ、CJK統合漢字と重複する漢字が収録されています。これは、各国の文字コード間の相互変換における可逆性の問題を解決するための措置です。例えば、KS X 1001などの規格で同じ漢字が重複している場合に、Unicodeとの変換で情報が失われないようにするためのものです。また、JIS X 0213で分離された漢字などもこのブロックに追加されています。

原規格



CJK統合漢字の各文字には、少なくとも一つの原典参照があります。これは文字の典拠を明確にするためのものです。原典は、G(中国)、H(香港)、M(マカオ)、T(台湾)、J(日本)、K(韓国)、KP(北朝鮮)、V(ベトナム)などがあります。それぞれの原典は、その地域での漢字の典拠となる規格や辞書を指します。

原典の例



G: 中国の規格や辞書
H: 香港の規格や辞書
M: マカオの規格や辞書
T: 台湾の規格や辞書
J: 日本の規格や辞書
K: 韓国の規格や辞書
KP: 北朝鮮の規格や辞書
V: ベトナムの規格や辞書

その他



漢字は書記素クラスタとして扱われ、UTF-16で16、32、48、64ビットの可変長で表現されます。基本多言語面(BMP)は16ビット、追加面は32ビット、基本多言語面(BMP)とSVS(字形選択子)は48ビット、追加面とIVSは64ビットで表されます。

今後の予定



中国は『康熙字典』や少数民族の特殊漢字をUCSに収録しようとしており、日本や韓国、ベトナムでも漢字の追加提案があります。Unicode 16.0では拡張Jの追加が予定されています。また、甲骨文字や金文などの古代文字や、漢字の部品と仮名やアルファベットを組み合わせた文字、仏教の呪文に使われる特殊な字形の文字も、将来的に追加される可能性があります。


参考文献



三上喜貴『文字符号の歴史 アジア編』共立出版
安岡孝一、安岡素子『文字符号の歴史 欧米と日本編』共立出版

関連項目



IICORE
符号点(コードポイント)
書記素
基本多言語面
CJK統合漢字 (Unicodeのブロック)
CJK互換漢字
CJK統合漢字拡張A
追加面
追加漢字
CJK統合漢字拡張B
CJK統合漢字拡張C
CJK統合漢字拡張D
CJK統合漢字拡張E
CJK統合漢字拡張F
CJK統合漢字拡張I
CJK互換漢字補助
第三漢字
CJK統合漢字拡張G
CJK統合漢字拡張H
異体字セレクタ
拡張漢字
Unihan

外部リンク



Chinese Japanese Korean Characters in Unicode
Windowsの多言語フォント・リスト
CJK-CODE
BabelMap - Unicode Character Map for Windows

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。