包摂 (文字コード)

文字コードにおける包摂とは



文字コードにおける包摂(ほうせつ)とは、ある文字の複数の異なる字体(字形)を、区別せずに同一の符号位置に対応せることです。これは、文字のバリエーションをすべて異なる符号位置に割り当てるのではなく、ある程度まとめることで、文字コードの効率性や互換性を高めるために行われます。

包摂のルールは包摂規準と呼ばれます。包摂は、明示的な規準が存在するかどうかにかかわらず、文字集合を扱う上で広く見られる現象です。例えば、ひらがなの「」「」「」には複数の字体が存在しますが、これらは通常区別れません。同様に、ラテン文字の「a」「g」「Q」「W」なども、字体の違いは無視れます。

漢字の場合、例えば「しんにょう」の点が1点(辶)か2点(⻍)か、あるいは草冠の画数が3画か4画かといった違いは、通常、文字の区別には影響せず、包摂の対象となります。

しかし、漢字のような複雑な表記体系では、すべての字体が共有れているとは限りません。のため、漢字を含む文字コードを正確に運用するためには、明示的かつ文書化れた包摂規準が必要となります。

文字コード規格における包摂



ASCII



ASCIIコードでは、基本的なラテン文字や数字、記号が定義れており、字体のバリエーションを考慮する必要性は低いため、包摂という概念はあまり重要ではありません。

JIS X 0201



JIS X 0201-1997においては、符号位置0x7Eに割り当てられた文字は、文字名称が「OVER LINE」となっていますが、実際の図形はオーバーラインだけでなく、チルダのような形でも良いと規定れています。これは、字体のバリエーションを包摂する例と言えます。

JIS X 0208



JIS X 0208の1997年改正では、漢字について初めて包括的な包摂規準が作成れ、規格の一部として規定れました。この規準は、過去の版の解説や改正プロセスを基に、帰納的に導れたものです。全部で186の包摂規準が設けられました。

JIS X 0213



JIS X 0213JIS X 0208の包摂規準を継承し、らにいくつかの規準を追加しました。これにより、合計199の包摂規準が定義れました。

ただし、法務省の要望により追加れた「人名許容・康熙別掲」文字に関しては、本来包摂れるべ字体ですが、特別に包摂の対象外とする規定が追加れました。

ISO/IEC 10646|ISO_IEC 10646 (JIS X 0221)



ISO/IEC 10646|ISO_IEC 10646 UCS(およびUnicode)のCJK統合漢字は、日本・中国・台湾・韓国の漢字字体の差異を包摂して定義れています。ただし、統合漢字の元となった規格で区別れている文字は、UCSにおいても包摂の対象外となり、分離れます。

また、著しく字体が異なる文字は包摂れません。2007年現在、同規格には漢字に関する包括的な包摂規準は明記れていませんが、付属書には包摂と分離に関する事例が記述れており、包摂規準の一端を知ることがでます。

漢字以外にも、U+010Fのキャロン付小文字dや点字の6点と8点など、複数の字体を包摂している例が多数存在します。

包摂の重要性



包摂は、文字コードを効率的に運用するために不可欠な概念です。包摂がなければ、わずかな字体の違いごとに異なる符号位置を割り当てる必要があり、文字コードのサイズが肥大化し、データの互換性が損なわれる可能性が高まります。

しかし、過度な包摂は、漢字のように字体の差異が意味を持つ場合に問題を引起こす可能性があります。のため、適切な包摂規準を設けることが重要となります。

まとめ



この記事では、文字コードにおける包摂の概念、各規格における包摂規準、具体的な例について解説しました。包摂は文字コードの効率性、互換性を維持するために重要な概念であり、文字コードを扱う際には常に意識しておく必要があります。

包摂の規準は、文字コード規格によって異なり、漢字のような複雑な表記体系では特に注意が必要です。包摂規準は、明示的なルールとして定められていることもあれば、事実上の慣習として運用れていることもあります。

関連項目



字種
字体
字形

外部リンク



包摂基準書 - 総務省請負調査
* JIS包摂規準 - CyberLibrarian

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。