Unicodeでは、ブロック(英: block)という概念が存在します。これは符号位置(code points)の連続する範囲を指し、各ブロックは一意の名前が与えられ、重複することはありません。具体的には、各ブロックはh0形式の開始符号位置とhF形式の終了符号位置を持っています。この構造によって、
Unicodeは異なる文字や記号を体系的に整理することが可能となっているのです。
ブロックには、未割当(unassigned)または非文字(non-character)に分類される符号位置を明示的に含むことができます。そして、特定の名前付きブロックに属さない符号位置もあります。例えば、第4面から第13面にかけての符号位置は、ブロック「No_block」として扱われます。この場合、これらの符号位置には特定のブロック名が存在しないことを示しています。
逆に、割当済の符号位置は全て「ブロック名」という特性を持っており、これはその符号位置が属するブロックの名前を示します。例えば、「
チベット文字」(Tibetan)や「補助矢印A」(Supplemental Arrows-A)などです。このように、各割当済の符号位置にはユニークなブロック名が設定されており、それによって文字の役割や意味合いを理解する手助けとなっています。
ついでに言うと、「Miscellaneous symbols」ブロック内にある「チェスシンボル」は、意味的には区分けされていますが、正式なブロックには分類されません。これらの下位グループの名称は基本的には利便性を高めるためのものであり、必須ではありません。
Unicodeにおける各ブロックに含まれる符号位置の数は16の倍数で構成されています。これにより、ブロックのサイズは最小で16位置、最大で65,536位置とし、統一的な構造を保持しています。現在、
Unicode 17.0では346のブロックが定義されています。
具体的なブロックの内訳を見てみましょう。第0面の
基本多言語面(Basic Multilingual Plane; BMP)には164のブロックが、また第1面の
追加多言語面(Supplementary Multilingual Plane; SMP)には168のブロックがあります。さらに、第2面には追加
漢字面(Supplementary Ideographic Plane; SIP)が7つ、第3面には第三
漢字面(Tertiary Ideographic Plane; TIP)が3つ、そして第14面には
追加特殊用途面(Supplementary Special-purpose Plane; SSP)が2つという具合です。最後に、
私用面として第15面(Fhex)と第16面(10hex)にはそれぞれ補助私用領域A、補助私用領域Bというブロックがあります。
このように、
Unicodeのブロックは非常に多様であり、その詳細な構造は
Unicodeコンソーシアムによって管理されています。正確な情報を知りたい方は、公式のリソースから最新の情報を入手することを推奨します。
Unicodeに関する資料は、公式サイトや関連文献で見ることができ、ブロック一覧表の更新情報も確認可能です。