Unihan

Unihan:Unicode漢字データベースの概要



Unihan(Unicode Han Database)は、ユニコードコンソーシアムが管理する漢字データベースで、定期的に更新されています。このデータベースには、中国、日本、台湾、韓国における漢字のプロパティや情報が含まれ、Unicodeの標準化を支援しています。Unihanの詳細は、Unicodeの附属書UAX#38にて説明されています。なお、漢字の統合に関する意思決定の手順はISO/IEC 10646|ISO_IEC 10646:2010の「付属書S」に記されています。

構造と配列



UnihanにおけるCJK(中国語、日本語、韓国語)文字は、部首画数順で基本的に整理されています。しかし、登録同時期の追加による混乱や規則の適用による調整が難しいため、データベースではUnicode値や部首番号、部首に応じた画数から計算されたソートキーに基づいて整理されていることが特徴です。

類似漢字の統合



漢字には「形」「音」「義」という3つの側面があるとされています。CJK統合漢字では、同じ由来を持ち、字形が似ている漢字を基準に統合しています。これに関する詳細はISO/IEC 10646|ISO_IEC 10646の補遺Sに記載されていますが、同じ漢字が異なる国々で異なる意味や発音を持つこともあるため、統合の基準も慎重に適用されています。たとえば、日本語の「机」と中国語の「机」は統合されますが、意味が異なる「届」などの漢字には同一の符号が付与されます。

統合された漢字の例



統合漢字の中には、字形が同じでなくても「同じ抽象字形を持つ漢字」として統合される例も見られます。「為」と「爲」や「単」と「单」などがその例です。これが結果的に、同じデータベース内で文字の形や画数を特定しにくくすることもあります。

原規格分離規則



統合漢字の初期であるURO(Unified Repertoire and Ordering)において、中国、台湾、日本、韓国の国内規格で明確に異なる漢字は、統合漢字においても分けることが定められました。実際、JISで誤って異なる符号化が行われた「飲」と「飮」などがその例です。このように、国毎の文字規格が統合漢字にも影響しています。

統合における矛盾



CJK統合漢字には定められた原則や規則にもかかわらず、統合や分離の不一致が見られることがあります。たとえば「桟」と「栈」は特に区別されているわけでもないのに、なぜか統合漢字では個別に符号付けされています。

CNS 11643:1992規格との非互換性



台湾で制定されたCNS 11643:1992規格は、既存のUnicode標準と互換性がありません。特に、追加された漢字の中には、Unicodeが統合した漢字が含まれ、多くの異体字が再定義されています。このように、規格の間でのラウンドトリップ変換が実現不可能となるケースが多発しました。

幽霊漢字と重複漢字



CJK統合漢字の中には、由来が不明の「幽霊漢字」として知られる漢字や、同じ文字が異なる符号位置に重複して登録されている例もあります。特に拡張Bでの追加では、過去に統合された文字が新たな符号位置を与えられることがあったため、整合性のない登録が目立ちます。たとえば、点の有無が異なる「器」の2つが新たに補足されることもあります。

誤って統合された漢字



CJK統合漢字の中には、形が似ていることを理由に誤って統合されたものも存在します。そのため、特定の文字は再設定が行われ、適切な符号位置に移動されることが求められています。

サロゲートペアの対応



CJK統合漢字拡張B以降は、UnicodeUTF-16システムにおいてサロゲートペア(代用対)を使って認識される必要があります。これにより、一部のアプリケーションでは対応が遅れたり不十分な対応が行われたりするケースが見られます。

関連項目




参考文献



もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。