文字コードの世界において、「面」という概念は、特に
マルチバイト文字符号化方式において重要な役割を果たします。これは、符号空間を分割し、効率的に文字を管理するための仕組みです。
Unicodeでは、文字を表現するために、UCS-4という4バイトの符号空間を基本としています。この空間は、群、面、区、点という階層構造で区切られており、それぞれの点に文字が割り当てられています。
Unicodeでは、このうち面に着目して分類を行います。
Unicodeでは、
UTF-16の制約から、使用できるのは第0群の第0面から第16面までの範囲です。このうち、実際に文字が割り当てられているのは以下の面です。
第0面 (Plane 0): 基本多言語面 (BMP)
最も基本的な文字を収録しており、日常的に使用される文字のほとんどがこの面に含まれます。
UTF-16で2バイト、
UTF-8で3バイト以内で表現できるため、多くの環境で扱いやすいのが特徴です。
第1面 (Plane 1): 追加多言語面 (SMP)
歴史的な文字や特殊な記号、音楽記号などが収録されています。
線文字Bや
ゴート文字、
デザレット文字など、特定の分野で利用される文字も含まれます。
第2面 (Plane 2): 追加漢字面 (SIP)
[基本多言語面]に収録しきれなかった
漢字が収録されています。
第3面 (Plane 3): 第三漢字面 (TIP)
さらに多くの
漢字や古代文字が収録されており、
漢字の歴史研究や特殊な用途で活用されています。
第14面 (Plane 14): 追加特殊用途面 (SSP)
言語タグや
異体字セレクタなど、文字の属性や表現を制御するための特殊な文字が収録されています。
第15-16面 (Plane 15-16): 私用面
ユーザーが独自に文字を定義できる領域です。特定の用途や環境に合わせて柔軟に文字を割り当てることができます。
第4面から第13面は、将来の使用のために予約されています。
基本多言語面は、
Unicodeで最も重要な面の一つです。この面には、世界中で使われる主要な文字が収録されており、
Unicodeの基盤となっています。
追加多言語面 (SMP)
追加多
言語面には、より専門的な文字が収録されており、歴史的な文献や特殊な分野での使用を目的としています。
追加漢字面 (SIP)・第三漢字面 (TIP)
追加
漢字面と第三
漢字面には、
基本多言語面に収録しきれなかった
漢字や古代文字が収録されており、
漢字のコレクションを充実させています。これにより、学術的な研究や特定の用途での利用が可能になっています。
追加特殊用途面には、
言語タグや
異体字セレクタなど、文字の表現を細かく制御するための文字が収録されています。これにより、多
言語環境でのテキスト処理や文字の表現をより正確に行うことができます。
私用面は、ユーザーが独自に文字を定義できる柔軟な領域です。特定の環境や用途に合わせて文字を割り当てることで、より効率的な
文字コード運用が可能になります。
ISO 2022準拠の文字集合の面
ISO/IEC 2022|ISO_IEC 2022に準拠した
文字集合では、面、区、点の組み合わせで文字を特定します。特に、
JIS X 0213や
CNS 11643などの巨大な
文字集合では、複数の面が利用されており、エスケープシーケンスによって面を切り替えることで、多種多様な文字を扱うことができます。
JIS X 0213は、
JIS X 0208を拡張した
文字集合で、第1面と第2面で構成されています。第1面には
JIS X 0208の文字と第3水準文字、第2面には第4水準文字が収録されています。
CNS 11643は、
Big5の文字をISO 2022準拠に並べ替えたもので、複数の面で構成されています。当初は2面でしたが、後に拡張され、最大16面まで対応しています。
CCCIIは、
繁体字と
簡体字を異なる面に収録し、異字体も複数の面に分けて収録しています。
TRONコードでは、「面」は「スクリプト」と呼ばれ、31面で構成されています。各面には、異なる
言語や文字体系が収録されています。例えば、第1面には
JIS X 0208や
GB 2312などの主要な
文字集合が収録されており、多
言語環境での利用を想定しています。
まとめ
[文字コード]]における「面」は、符号空間を効率的に管理するための重要な概念です。Unicodeでは、
基本多言語面]を中心に、追加の面が定義されており、それぞれの面で異なる種類の文字や記号が扱われています。また、ISO 2022準拠の[[文字集合や
TRONコードでも面という概念が用いられており、
文字コードの多様性を支えています。