CJK統合漢字とは
CJK統合
漢字は、
ISO/IEC 10646|ISO_IEC 10646と
Unicodeで採用されている符号化用
漢字集合です。
中国語、日本語、
朝鮮語で使われる
漢字を統合したことに由来します。初期バージョンはCJKVと称し、
ベトナムで使用される
漢字も含めていました。これは、
ソフトウェアの国際化における
文字コード分野で重要な役割を果たしています。
歴史
1978年に日本で最初のISO 2022に基づく
漢字コード規格が制定されました。その後、中国、
台湾、韓国でも独自の規格が制定されましたが、互換性がありませんでした。
1980年、
国立国会図書館の高橋徳太郎氏が東アジアの統一
漢字コードの必要性を提唱し、
台湾で制定されたCCCIIは、最初の統一的な試みの一つでした。
1984年、ISOは世界中の文字を単一の文字集合として扱えるISO 10646の作成を開始しました。
当初、16ビットでの実装を想定していましたが、中国の反対により、各国の
漢字コードを統合したHCCのアイデアが提案されました。その後、32ビットでの表現となり、各国の
漢字コードをそのまま入れることになりました。しかし、中国は統合を強く求め、CJK-JRGが設置され、議論が継続されました。
一方、
1987年頃から、ジョー・ベッカーとリー・コリンズは
Unicodeを開発しており、16ビットで全ての文字を扱えることを目標とし、日本、中国、韓国の
漢字を統合する方針でした。
1991年、
ISO/IEC 10646|ISO_IEC 10646と
Unicodeの一本化が図られ、CJK-JRGによって統合
漢字コード表が作成されました。
1992年、この統合された文字表(URO)を取り込んだISO 10646が国際規格化されました。
1993年、最初のCJK統合
漢字が割り当てられ、20,902字が登録されました。その後、拡張A、B、C、D、E、F、G、H、Iと段階的に追加され、2023年時点では合計97,680文字に達しています。これらの拡張は、各国の
漢字の多様性に対応するためのものです。
CJK統合漢字の特徴と問題点
CJK統合
漢字は、各国の
漢字を統合することで
文字コードの管理を効率化する一方で、いくつかの問題点も抱えています。例えば、一つの
漢字に一つの符号位置しか与えられないため、各国の規格で同じ形の
漢字が重複して収録されている場合、
Unicodeとの相互変換で可逆性が失われる可能性があります。
この問題を解決するために、CJK互換
漢字の領域が設けられています。また、包摂基準の変更により、本来は統合されるべき
漢字が分離されることもあり、複雑な状況を生み出しています。
CJK互換漢字
CJK互換
漢字は、U+F900〜U+FAFFのブロックに割り当てられ、CJK統合
漢字と重複する
漢字が収録されています。これは、各国の
文字コード間の相互変換における可逆性の問題を解決するための措置です。例えば、KS X 1001などの規格で同じ
漢字が重複している場合に、
Unicodeとの変換で情報が失われないようにするためのものです。また、
JIS X 0213で分離された
漢字などもこのブロックに追加されています。
原規格
CJK統合
漢字の各文字には、少なくとも一つの原典参照があります。これは文字の典拠を明確にするためのものです。原典は、G(中国)、H(香港)、M(マカオ)、T(
台湾)、J(日本)、K(韓国)、KP(北朝鮮)、V(
ベトナム)などがあります。それぞれの原典は、その地域での
漢字の典拠となる規格や辞書を指します。
原典の例
G: 中国の規格や辞書
H: 香港の規格や辞書
M: マカオの規格や辞書
T:
台湾の規格や辞書
J: 日本の規格や辞書
K: 韓国の規格や辞書
KP: 北朝鮮の規格や辞書
V:
ベトナムの規格や辞書
その他
漢字は書記素クラスタとして扱われ、UTF-16で16、32、48、64ビットの可変長で表現されます。基本多言語面(BMP)は16ビット、追加面は32ビット、基本多言語面(BMP)とSVS(字形選択子)は48ビット、追加面とIVSは64ビットで表されます。
今後の予定
中国は『康熙字典』や少数民族の特殊
漢字をUCSに収録しようとしており、日本や韓国、
ベトナムでも
漢字の追加提案があります。
Unicode 16.0では拡張Jの追加が予定されています。また、
甲骨文字や金文などの古代文字や、
漢字の部品と仮名やアルファベットを組み合わせた文字、仏教の呪文に使われる特殊な字形の文字も、将来的に追加される可能性があります。
参考文献
三上喜貴『文字符号の歴史 アジア編』共立出版。
安岡孝一、安岡素子『文字符号の歴史 欧米と日本編』
共立出版。
関連項目
IICORE
符号点(コードポイント)
書記素
基本多言語面
CJK統合漢字 (Unicodeのブロック)
CJK互換
漢字
CJK統合漢字拡張A
追加面
追加漢字面
CJK統合[[漢字拡張B]]
CJK統合漢字拡張C
CJK統合[[漢字拡張D]]
CJK統合漢字拡張E
CJK統合
漢字拡張F
CJK統合漢字拡張I
CJK互換
漢字補助
第三漢字面
CJK統合
漢字拡張G
CJK統合漢字拡張H
異体字セレクタ
拡張漢字
Unihan
外部リンク
Chinese Japanese Korean Characters in Unicode
Windowsの多言語フォント・リスト
CJK-CODE
BabelMap - Unicode Character Map for Windows