CJK統合漢字とは
CJK統合
漢字は、
ISO/IEC 10646|ISO_IEC 10646と
Unicodeで採用されている符号化用
漢字集合です。
中国語、日本語、
朝鮮語で使われる
漢字を統合したことに由来します。初期バージョンはCJKVと称し、
ベトナムで使用される
漢字も含めていました。これは、
ソフトウェアの国際化における
文字コード分野で重要な役割を果たしています。
歴史
1978年に日本で最初のISO 2022に基づく
漢字コード規格が制定されました。その後、中国、
台湾、韓国でも独自の規格が制定されましたが、互換性がありませんでした。
1980年、
国立国会図書館の高橋徳太郎氏が東アジアの統一
漢字コードの必要性を提唱し、
台湾で制定されたCCCIIは、最初の統一的な試みの一つでした。
1984年、ISOは世界中の文字を単一の文字集合として扱えるISO 10646の作成を開始しました。
当初、16ビットでの実装を想定していましたが、中国の反対により、各国の
漢字コードを統合したHCCのアイデアが提案されました。その後、32ビットでの表現となり、各国の
漢字コードをそのまま入れることになりました。しかし、中国は統合を強く求め、CJK-JRGが設置され、議論が継続されました。
一方、
1987年頃から、ジョー・ベッカーとリー・コリンズは
Unicodeを開発しており、16ビットで全ての文字を扱えることを目標とし、日本、中国、韓国の
漢字を統合する方針でした。
1991年、
ISO/IEC 10646|ISO_IEC 10646と
Unicodeの一本化が図られ、CJK-JRGによって統合
漢字コード表が作成されました。
1992年、この統合された文字表(URO)を取り込んだISO 10646が国際規格化されました。
1993年、最初のCJK統合
漢字が割り当てられ、20,902字が登録されました。その後、拡張A、B、C、D、E、F、G、H、Iと段階的に追加され、2023年時点では合計97,680文字に達しています。これらの拡張は、各国の
漢字の多様性に対応するためのものです。
CJK統合漢字の特徴と問題点
CJK統合
漢字は、各国の
漢字を統合することで
文字コードの管理を効率化する一方で、いくつかの問題点も抱えています。例えば、一つの
漢字に一つの符号位置しか与えられないため、各国の規格で同じ形の
漢字が重複して収録されている場合、
Unicodeとの相互変換で可逆性が失われる可能性があります。
この問題を解決するために、CJK互換
漢字の領域が設けられています。また、包摂基準の変更により、本来は統合されるべき
漢字が分離されることもあり、複雑な状況を生み出しています。
CJK互換漢字
CJK互換
漢字は、U+F900〜U+FAFFのブロックに割り当てられ、CJK統合
漢字と重複する
漢字が収録されています。これは、各国の
文字コード間の相互変換における可逆性の問題を解決するための措置です。例えば、KS X 1001などの規格で同じ
漢字が重複している場合に、
Unicodeとの変換で情報が失われないようにするためのものです。また、
JIS X 0213で分離された
漢字などもこのブロックに追加されています。
原規格
CJK統合
漢字の各文字には、少なくとも一つの原典参照があります。これは文字の典拠を明確にするためのものです。原典は、G(中国)、H(香港)、M(マカオ)、T(
台湾)、J(日本)、K(韓国)、KP(北朝鮮)、V(
ベトナム)などがあります。それぞれの原典は、その地域での
漢字の典拠となる規格や辞書を指します。
原典の例
G: 中国の規格や辞書
H: 香港の規格や辞書
M: マカオの規格や辞書
T:
台湾の規格や辞書
J: 日本の規格や辞書
K: 韓国の規格や辞書
KP: 北朝鮮の規格や辞書
V:
ベトナムの規格や辞書
その他
漢字は書記素クラスタとして扱われ、UTF-16で16、32、48、64ビットの可変長で表現されます。基本多言語面(BMP)は16ビット、追加面は32ビット、基本多言語面(BMP)とSVS(字形選択子)は48ビット、追加面とIVSは64ビットで表されます。
今後の予定
中国は『康熙字典』や少数民族の特殊
漢字をUCSに収録しようとしており、日本や韓国、
ベトナムでも
漢字の追加提案があります。
Unicode 16.0では拡張Jの追加が予定されています。また、
甲骨文字や金文などの古代文字や、
漢字の部品と仮名やアルファベットを組み合わせた文字、仏教の呪文に使われる特殊な字形の文字も、将来的に追加される可能性があります。
参考文献
三上喜貴『文字符号の歴史 アジア編』共立出版。
安岡孝一、安岡素子『文字符号の歴史 欧米と日本編』
共立出版。
関連項目
IICORE
符号点(コードポイント)
書記素
基本多言語面
CJK統合漢字 (Unicodeのブロック)
CJK互換
漢字
CJK統合漢字拡張A
追加面
追加漢字面
CJK統合漢字拡張B
CJK統合漢字拡張C
CJK統合漢字拡張D
CJK統合漢字拡張E
CJK統合
漢字拡張F
CJK統合漢字拡張I
CJK互換
漢字補助
第三漢字面
CJK統合
漢字拡張G
CJK統合漢字拡張H
異体字セレクタ
拡張漢字
Unihan
外部リンク
Chinese Japanese Korean Characters in Unicode
Windowsの多言語フォント・リスト
CJK-CODE
BabelMap - Unicode Character Map for Windows