追加多言語面(SMP)とは
追加多言語面(Supplementary Multilingual Plane, SMP)は、
ISO/IEC 10646|ISO_IEC 10646の第0群第1面、および
Unicodeの第1面に位置づけられる追加面の一つです。正式名称は「用字及び記号のための追加多言語面」と言います。この面は、
基本多言語面(BMP)に収まりきらなかった文字、特に現代では使われることのない古代の文字体系や、人工的に作られた文字などを収録することを目的としています。
漢字を除く、多様な文字を包括的に扱うための領域です。
符号化方式
追加多言語面に収録されている文字は、2バイト固定長方式のUCS-2では表現できません。これらの文字を符号化するには、
UTF-8、
UTF-16、
UTF-32といった方式が用いられます。いずれの符号化方式でも、これらの文字は4バイトで符号化されます。特に
UTF-16を用いる場合は、サロゲートペア(代用対)と呼ばれる仕組みを利用する必要があります。
歴史
追加多言語面が利用可能になった背景には、
Unicodeの歴史的な変遷があります。
1996年7月: Unicode 2.0において、サロゲートペア(代用対)が導入されました。これにより、基本多言語面以外の領域への文字の収録が可能になりました。ただし、この時点では具体的な面への名称はまだ定められていませんでした。
2001年3月: Unicode 3.1にて、追加多言語面、追加
漢字面、追加特殊用途面といった、
基本多言語面以外の面が正式に定義されました。この定義を機に、BMP外への文字割り当てが本格的に開始されました。
収録文字について
追加多言語面には、様々な古代文字や人工文字が収録されています。例えば、古代に使われていた様々な文字体系や、現代人が創作した文字などが含まれます。これらの文字は、歴史的な研究や特殊な用途に使われることがあります。
収録予定のない文字
一方で、2023年6月現在においても、追加多言語面に収録される予定のない文字も存在します。例えば、以下のような文字が挙げられます。
クリンゴン語のピカッド
アイハ文字
神代文字
これらの文字は、Unicodeの標準に沿って符号化される必要がないと判断されたり、別の領域(例えば第3面)に収録される予定があるなどの理由から、SMPへの収録が見送られています。特に、古代漢字や甲骨文字は、この面ではなく第3面(第三漢字面)に追加される計画です。
関連情報
追加多言語面に関連する情報として、以下の項目も参照してください。
Unicode: 文字符号化の国際規格。
ISO/IEC 10646|ISO_IEC 10646: Unicodeと協調して策定される文字符号化規格。
基本多言語面 (BMP): Unicodeの基本となる面。
追加面: 基本多言語面以外の拡張領域。
追加漢字面: 漢字を収録するための追加面。
第三漢字面: さらに漢字を収録するための面。
追加特殊用途面: 特殊な用途の文字を収録する面。
私用面: ユーザーが自由に文字を定義できる領域。
外部リンク
Roadmap to the SMP(英語)
*
Not The Roadmap(英語)