CJK統合漢字

CJK統合漢字とは



CJK統合漢字は、ISO/IEC 10646|ISO_IEC 10646Unicodeで採用されている符号化用漢字集合です。中国語、日本語、朝鮮語で使われる漢字を統合したことに由来します。初期バージョンはCJKVと称し、ベトナムで使用される漢字も含めていました。これは、ソフトウェアの国際化における文字コード分野で重要な役割を果たしています。

歴史



1978年に日本で最初のISO 2022に基づく漢字コード規格が制定されました。その後、中国、台湾、韓国でも独自の規格が制定されましたが、互換性がありませんでした。1980年国立国会図書館の高橋徳太郎氏が東アジアの統一漢字コードの必要性を提唱し、台湾で制定されたCCCIIは、最初の統一的な試みの一つでした。1984年、ISOは世界中の文字を単一の文字集合として扱えるISO 10646の作成を開始しました。

当初、16ビットでの実装を想定していましたが、中国の反対により、各国の漢字コードを統合したHCCのアイデアが提案されました。その後、32ビットでの表現となり、各国の漢字コードをそのまま入れることになりました。しかし、中国は統合を強く求め、CJK-JRGが設置され、議論が継続されました。

一方、1987年頃から、ジョー・ベッカーとリー・コリンズはUnicodeを開発しており、16ビットで全ての文字を扱えることを目標とし、日本、中国、韓国の漢字を統合する方針でした。1991年ISO/IEC 10646|ISO_IEC 10646Unicodeの一本化が図られ、CJK-JRGによって統合漢字コード表が作成されました。1992年、この統合された文字表(URO)を取り込んだISO 10646が国際規格化されました。

1993年、最初のCJK統合漢字が割り当てられ、20,902字が登録されました。その後、拡張A、B、C、D、E、F、G、H、Iと段階的に追加され、2023年時点では合計97,680文字に達しています。これらの拡張は、各国の漢字の多様性に対応するためのものです。

CJK統合漢字の特徴と問題点



CJK統合漢字は、各国の漢字を統合することで文字コードの管理を効率化する一方で、いくつかの問題点も抱えています。例えば、一つの漢字に一つの符号位置しか与えられないため、各国の規格で同じ形の漢字が重複して収録されている場合、Unicodeとの相互変換で可逆性が失われる可能性があります。

この問題を解決するために、CJK互換漢字の領域が設けられています。また、包摂基準の変更により、本来は統合されるべき漢字が分離されることもあり、複雑な状況を生み出しています。

CJK互換漢字



CJK互換漢字は、U+F900〜U+FAFFのブロックに割り当てられ、CJK統合漢字と重複する漢字が収録されています。これは、各国の文字コード間の相互変換における可逆性の問題を解決するための措置です。例えば、KS X 1001などの規格で同じ漢字が重複している場合に、Unicodeとの変換で情報が失われないようにするためのものです。また、JIS X 0213で分離された漢字などもこのブロックに追加されています。

原規格



CJK統合漢字の各文字には、少なくとも一つの原典参照があります。これは文字の典拠を明確にするためのものです。原典は、G(中国)、H(香港)、M(マカオ)、T(台湾)、J(日本)、K(韓国)、KP(北朝鮮)、V(ベトナム)などがあります。それぞれの原典は、その地域での漢字の典拠となる規格や辞書を指します。

原典の例



G: 中国の規格や辞書
H: 香港の規格や辞書
M: マカオの規格や辞書
T: 台湾の規格や辞書
J: 日本の規格や辞書
K: 韓国の規格や辞書
KP: 北朝鮮の規格や辞書
V: ベトナムの規格や辞書

その他



漢字は書記素クラスタとして扱われ、UTF-16で16、32、48、64ビットの可変長で表現されます。基本多言語面(BMP)は16ビット、追加面は32ビット、基本多言語面(BMP)とSVS(字形選択子)は48ビット、追加面とIVSは64ビットで表されます。

今後の予定



中国は『康熙字典』や少数民族の特殊漢字をUCSに収録しようとしており、日本や韓国、ベトナムでも漢字の追加提案があります。Unicode 16.0では拡張Jの追加が予定されています。また、甲骨文字や金文などの古代文字や、漢字の部品と仮名やアルファベットを組み合わせた文字、仏教の呪文に使われる特殊な字形の文字も、将来的に追加される可能性があります。


参考文献



三上喜貴『文字符号の歴史 アジア編』共立出版
安岡孝一、安岡素子『文字符号の歴史 欧米と日本編』共立出版

関連項目



IICORE
符号点(コードポイント)
書記素
基本多言語面
CJK統合漢字 (Unicodeのブロック)
CJK互換漢字
CJK統合漢字拡張A
追加面
追加漢字
CJK統合[[漢字拡張B]]
CJK統合漢字拡張C
CJK統合[[漢字拡張D]]
CJK統合漢字拡張E
CJK統合漢字拡張F
CJK統合漢字拡張I
CJK互換漢字補助
第三漢字
CJK統合漢字拡張G
CJK統合漢字拡張H
異体字セレクタ
拡張漢字
Unihan

外部リンク



Chinese Japanese Korean Characters in Unicode
Windowsの多言語フォント・リスト
CJK-CODE
BabelMap - Unicode Character Map for Windows

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。