文字コードにおける
包摂(ほうせつ)とは、ある文字の複数の異なる
字体(字形)を、区別せずに同一の符号位置に対応
させることです。これは、文字のバリエーションをすべて異なる符号位置に割り当てるのではなく、ある程度まとめることで、
文字コードの効率性や互換性を高めるために行われます。
包摂のルールは
包摂規準と呼ばれます。包摂は、明示的な規準が存在するかどうかにかかわらず、
文字集合を扱う上で広く見られる現象です。例えば、ひらがなの「
き」「
さ」「
そ」には複数の
字体が存在しますが、これらは通常区別
されません。同様に、
ラテン文字の「a」「g」「Q」「
W」なども、
字体の違いは無視
されます。
漢字の場合、例えば「しんにょう」の点が1点(辶)か2点(⻍)か、あるいは草冠の画数が3画か4画かといった違いは、通常、文字の区別には影響せず、包摂の対象となります。
しかし、
漢字のような複雑な表記体系では、すべての
字体が共有
されているとは限りません。
そのため、
漢字を含む
文字コードを正確に運用するためには、明示的かつ文書化
された包摂規準が必要となります。
ASCII
ASCIIコードでは、基本的な
ラテン文字や数字、記号が定義
されており、
字体のバリエーションを考慮する必要性は低いため、包摂という概念はあまり重要ではありません。
JIS X 0201-1997においては、符号位置0x7Eに割り当てられた文字は、文字名称が「OVER LINE」となっていますが、実際の図形はオーバーラインだけでなく、
チルダのような形でも良いと規定
されています。これは、
字体のバリエーションを包摂する例と言えます。
JIS X 0208の1997年改正では、
漢字について初めて包括的な包摂規準が作成
され、規格の一部として規定
されました。この規準は、過去の版の解説や改正プロセスを基に、帰納的に導
き出
されたものです。全部で186の包摂規準が設けられました。
JIS X 0213は
JIS X 0208の包摂規準を継承し、
さらにいくつかの規準を追加しました。これにより、合計199の包摂規準が定義
されました。
ただし、法務省の要望により追加
された「人名許容・康熙別掲」文字に関しては、本来包摂
されるべ
き字体ですが、特別に包摂の対象外とする規定が追加
されました。
ISO/IEC 10646|ISO_IEC 10646 UCS(および
Unicode)の
CJK統合漢字は、日本・中国・台湾・韓国の
漢字の
字体の差異を包摂して定義
されています。ただし、統合
漢字の元となった規格で区別
されている文字は、UCSにおいても包摂の対象外となり、分離
されます。
また、著しく
字体が異なる文字は包摂
されません。2007年現在、同規格には
漢字に関する包括的な包摂規準は明記
されていませんが、付属書には包摂と分離に関する事例が記述
されており、包摂規準の一端を知ることがで
きます。
漢字以外にも、U+010Fのキャロン付
き小文字dや点字の6点と8点など、複数の
字体を包摂している例が多数存在します。
包摂の重要性
包摂は、
文字コードを効率的に運用するために不可欠な概念です。包摂がなければ、わずかな
字体の違いごとに異なる符号位置を割り当てる必要があり、
文字コードのサイズが肥大化し、データの互換性が損なわれる可能性が高まります。
しかし、過度な包摂は、
漢字のように
字体の差異が意味を持つ場合に問題を引
き起こす可能性があります。
そのため、適切な包摂規準を設けることが重要となります。
まとめ
この記事では、
文字コードにおける包摂の概念、各規格における包摂規準、具体的な例について解説しました。包摂は
文字コードの効率性、互換性を維持するために重要な概念であり、
文字コードを扱う際には常に意識しておく必要があります。
包摂の規準は、
文字コード規格によって異なり、
漢字のような複雑な表記体系では特に注意が必要です。包摂規準は、明示的なルールとして定められていることもあれば、事実上の慣習として運用
されていることもあります。
関連項目
字種
字体
字形
外部リンク
包摂基準書 - 総務省請負調査
*
JIS包摂規準 - CyberLibrarian