Unihan(
Unicode Han Database)は、
ユニコードコンソーシアムが管理する
漢字の
データベースで、定期的に更新されています。この
データベースには、中国、日本、台湾、韓国における
漢字のプロパティや情報が含まれ、
Unicodeの標準化を支援しています。Unihanの詳細は、
Unicodeの附属書UAX#38にて説明されています。なお、
漢字の統合に関する意思決定の手順は
ISO/IEC 10646|ISO_IEC 10646:2010の「付属書S」に記されています。
構造と配列
UnihanにおけるCJK(中国語、日本語、韓国語)文字は、
部首画数順で基本的に整理されています。しかし、登録同時期の追加による混乱や規則の適用による調整が難しいため、
データベースでは
Unicode値や
部首番号、
部首に応じた画数から計算されたソートキーに基づいて整理されていることが特徴です。
類似漢字の統合
漢字には「形」「音」「義」という3つの側面があるとされています。
CJK統合漢字では、同じ由来を持ち、字形が似ている
漢字を基準に統合しています。これに関する詳細は
ISO/IEC 10646|ISO_IEC 10646の補遺Sに記載されていますが、同じ
漢字が異なる国々で異なる意味や発音を持つこともあるため、統合の基準も慎重に適用されています。たとえば、日本語の「机」と中国語の「机」は統合されますが、意味が異なる「届」などの
漢字には同一の符号が付与されます。
統合された漢字の例
統合
漢字の中には、字形が同じでなくても「同じ抽象字形を持つ
漢字」として統合される例も見られます。「為」と「爲」や「単」と「单」などがその例です。これが結果的に、同じ
データベース内で文字の形や画数を特定しにくくすることもあります。
原規格分離規則
統合
漢字の初期であるURO(Unified Repertoire and Ordering)において、中国、台湾、日本、韓国の国内規格で明確に異なる
漢字は、統合
漢字においても分けることが定められました。実際、JISで誤って異なる符号化が行われた「飲」と「飮」などがその例です。このように、国毎の文字規格が統合
漢字にも影響しています。
統合における矛盾
CJK統合漢字には定められた原則や規則にもかかわらず、統合や分離の不一致が見られることがあります。たとえば「桟」と「栈」は特に区別されているわけでもないのに、なぜか統合
漢字では個別に符号付けされています。
台湾で制定された
CNS 11643:1992規格は、既存の
Unicode標準と互換性がありません。特に、追加された
漢字の中には、
Unicodeが統合した
漢字が含まれ、多くの異体字が再定義されています。このように、規格の間でのラウンドトリップ変換が実現不可能となるケースが多発しました。
CJK統合漢字の中には、由来が不明の「幽霊
漢字」として知られる
漢字や、同じ文字が異なる符号位置に重複して登録されている例もあります。特に拡張Bでの追加では、過去に統合された文字が新たな符号位置を与えられることがあったため、整合性のない登録が目立ちます。たとえば、点の有無が異なる「器」の2つが新たに補足されることもあります。
誤って統合された漢字
CJK統合漢字の中には、形が似ていることを理由に誤って統合されたものも存在します。そのため、特定の文字は再設定が行われ、適切な符号位置に移動されることが求められています。
サロゲートペアの対応
CJK統合漢字拡張B以降は、
Unicodeの
UTF-16システムにおいてサロゲートペア(代用対)を使って認識される必要があります。これにより、一部のアプリケーションでは対応が遅れたり不十分な対応が行われたりするケースが見られます。
関連項目
参考文献