基本多言語面

基本多言語面(BMP)について



基本多言語面(Basic Multilingual Plane, BMP)とは、ISO/IEC 10646|ISO_IEC 10646Unicode規格における第0面のことで、符号位置0x0000から0xFFFFまでの65,536個の領域を指します。

BMPの特徴



BMPは、世界中で使用される主要な文字、記号、制御文字などを収録しており、日常的なテキスト表現に必要となる要素のほとんどが含まれています。そのため、多くのシステムでBMPが基本として利用されています。

符号化の効率性



BMPの大きな特徴の一つとして、UTF-8UTF-16といった文字符号化方式において、他の面に比べて少ないバイト数で表現できる点が挙げられます。

UTF-8: 1〜3バイトで符号化されます。
UTF-16: 2バイトで符号化され、サロゲートペアは不要です。
UTF-32: 他の面と同様に4バイトで符号化されます。

UCS-2とUnicodeの歴史



初期のUnicode規格ではBMPのみが使用され、UCS-2はBMPの範囲のみを対象としていました。Unicode 3.0以前のバージョンでは、BMPが唯一の面でした。

BMPの歴史



元々BMPは、1990年に策定されたDIS 10646の一部でした。DISとはDraft International Standard(国際標準草案)の略称です。当初のDIS 10646では、文字を群、面、区、点で4バイト符号化しており、BMPはその最初の面にあたります。しかし、DIS 10646の初版はISO 2022に準拠しており、BMPを含む各面は9216個の符号位置しか持っていませんでした。

一方で、UnicodeはISO 2022に準拠しない2バイトの符号化方式として民間開発されていました。1991年にDIS 10646の初版が否決されたことをきっかけに、Unicodeとの統合が決定され、BMPはUnicodeと完全に互換性を持つようになりました。ISO 2022の制約が取り払われたことで、BMPは256×256の65,536個の符号位置を持つ第0群第0面となりました。この結果、DIS 10646の第二版が生まれ、1993年ISO/IEC 10646|ISO_IEC 10646として正式に標準化されました。

BMPの配置領域



BMPは、同種の文字をまとめた領域に分割されていますが、文字の追加や変更により、その区分けの意味合いは薄れてきています。かつては、アルファベットや記号、漢字などの用途に応じて領域が分けられていましたが、現在では、特定の領域に収まらない文字が別の領域に配置されることもあります。

当初、BMPは以下の4つの領域に分けられていました。

A領域 (0x0000-0x33FF): アルファベット、音節文字、各種記号
I領域 (0x3400-0x9FFF): 中国、日本、韓国の統合漢字
O領域 (0xA000-0xDFFF): 将来の標準化のために予約された領域
R領域 (0xE000-0xFFFD): 私用文字、互換文字、特殊文字

現在では、以下の2つのみが領域として定義されています。

S領域 (0xD800-0xDFFF): サロゲートペアに使用する領域
私用領域 (0xE000-0xF8FF): ユーザーが自由に文字を定義できる領域

収録されている文字の種類



BMPには、以下のような多様な文字や記号が含まれています。

ラテン文字
ギリシャ文字
キリル文字
ひらがな、カタカナ
漢字
各種記号、制御文字など

まとめ



基本多言語面(BMP)は、Unicodeの基礎となる重要な面であり、日常的なテキスト処理に不可欠な文字や記号が収録されています。符号化効率が高く、多くのシステムで標準的に採用されています。ただし、文字の追加や変更により、BMPの配置領域の境界は曖昧になってきています。



参考資料



[Unicode]] Terminology English - Japanese(日本語訳):[https://www.unicode.org/terminology/

関連項目



面 (文字コード))
追加面
追加多言語
追加漢字面
第三漢字面
追加特殊用途面
私用面
多言語
多言語サイト
Unicode
超漢字

外部リンク



Roadmap to the BMP(英語

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。