DIS 10646とは
DIS 10646は、ISO(国際標準化機構)が策定した
文字コード規格である
ISO/IEC 10646|ISO_IEC 10646の原案です。この規格は、世界中の
文字を単一の
文字集合として扱うことを目指し、
文字コードの切り替えを不要にすることを目的としていました。
概要
DIS 10646には、
1990年に作成されたものの廃案となった第1版と、
1992年に作成され正式規格の基礎となった第2版が存在します。この二つの版は内容が大きく異なっており、本記事では、
1980年代後半に議論されていた2オクテット案である「DP 10646」についても触れます。
DP 10646 (2オクテット案)
1983年7月、ISO/TC 97は、アメリカの提案に基づき、各国の
文字を統一的に扱える2オクテットコードの作成を決定しました。この作業は、
文字コードを担当するISO/TC 97/SC 2が行うことになりました。
1984年4月、
京都で開催されたISO/TC 97/SC 2において、専門のワークグループ (ISO/TC 97/SC 2/WG 2) が設置され、規格番号がISO 10646と決定されました。
1985年には、アメリカが作成したA案と
イギリスが作成したB案の二つの案が提出されました。
A案: ISO 2022との互換性を重視し、制御領域を避け、20から7EとA0からFFのみを使用する。
B案: 「真の16ビットコード」を目指し、16ビットで表現できる空間を全て使用する。
両案とも、日本、
中国、
韓国の
漢字については統合せずにそのまま含むことを想定していました。
1987年3月、
ベルリンで開催されたISO/TC 97/SC 2でA案が選ばれ、「DP 10646」となりました。
しかし、この案では
中国が当時拡張を進めていた
GB 2312の
文字を全て入れることができないという問題や、日本も
JIS X 0208の拡張で増える
文字を収容できないという問題が生じ、大幅な見直しを迫られることになりました。結果として、DIS 10646は4オクテット(32ビット)をベースに、1から4オクテットのサブセットを持つコードに根本的に作り直されることになりました。
DIS 10646 第1版
1990年11月、4オクテット案がDIS 10646の第1版として完成しました。この第1版は、ISO 646の拡張として、必要な全ての
文字を一つの体系に収録しようとするものでした。
この版では、全ての
文字を4オクテット(32ビット)で表現し、各オクテットをそれぞれ群(group)、面(plane)、区 (row)、点(cell)としました。各面には、
ISO/IEC 2022|ISO_IEC 2022の
制御文字領域を避け、0x20から0x7Fと0xA0から0xFFの範囲に
文字を割り当てることで、合計で1330863361字を収容可能としていました。そして、
ISO/IEC 2022|ISO_IEC 2022に基づく各国の
文字コードを、区点の位置もそのままに平行移動して収容するという、従来のコード系との互換性を最大限に尊重した構成となっていました。
最初の面である第20群第20面を
基本多言語面 (BMP; Basic Multilingual Plane) と呼んでおり、この名称は後のDIS 10646第2版、そして
ISO/IEC 10646|ISO_IEC 10646にも受け継がれています。
BMPには、以下のような
文字コードが配置されました。
20203021から20207E7Eまで: 日本の
JIS X 0208の16区1点から94区94点
2020B021から2020FE7Eまで:
中国の
GB 2312の16区以降(
漢字部分)
2020B0A1から2020FEFEまで:
韓国のKS C 5601(現在の
KS X 1001)の16行以降
一方で、
1987年頃からXeroxのJoe BeckerとLee Collinsによって、世界中の
文字を統一して扱える
文字コード「
Unicode」が開発されていました。
Unicodeは、2オクテット(16ビット)で全ての
文字を扱えることを目指し、以下の点を基本ポリシーとしていました。
符号位置はコントロール領域まで全て使う。
各種アルファベット類は新規に割り当てる。
日本、
中国、
韓国の
漢字の類似する
漢字を統合する。
1989年のSC 2アンマン会議で、アメリカはDP 10646に対して
Unicodeの採用を提案しましたが、この提案は採用されず、
1990年11月には4オクテットベースのDIS 10646第1版が完成しました。
しかし、ほぼ同時期に
Unicodeも制定に向けて作業が進められており、同じ目的を持つ二つの
文字コードが存在することに抵抗がありました。また、欧米では1
文字を表現するのに4オクテット(32bit)も使用することへの抵抗が強く、
中国は
漢字を各国でばらばらに符号化するのではなく統一して扱うことを求めていました。
このような背景から、2オクテットで全ての
文字を扱えることを目指していた
Unicodeが優位となり、DIS 10646第1版は
1991年6月に国際投票の結果、
Unicodeとの一本化を求める各国により否決されました。
DIS 10646 第2版
DIS 10646第1版は否決されましたが、その投票の中には、DIS 10646第1版と
Unicodeのマージを支持する意見が多かったため、DIS 10646第1版と
Unicode(1.0)の両方の特徴を取り入れた新たなDIS 10646を作成することになりました。
特に、
漢字部分の
文字の選択と配置が問題となり、ISO/TC 97/SC 2/WG 2は、CJK-JRG (Joint Research Group) と呼ばれるグループを設置し、
漢字統合について検討しました。CJK-JRGは、各国の
漢字コードに基づき独自の統合規準を定め、ISO 10646 /
Unicode用の統合
漢字コード表を作成しました。
中国は「
漢字発祥の国」として、自身が作成した「統合
漢字表」を元に最終的な統合
漢字表を作成することを提案しましたが、日本は各国の規格の
漢字表を対等な基準で組み合わせることを主張しました。この中で、「各国の元になる規格で別の
漢字として扱われている
漢字は統合
漢字表でも別の
漢字として取り扱う」という、「原規格分離規則」が生まれました。
1991年末、各国の
漢字コードに基づき独自の統合規準を定めた、ISO 10646 /
Unicode用の統合
漢字コード表が Unified Repertoire and Ordering (URO)として完成し、
1992年5月30日、UROを取り込んだDIS 10646第2版が完成しました。
DIS 10646第2版では、群、面、区、点という構造は残されましたが、群は00から7Eのみが使用可能になり、実質31ビットのコードになりました。また、面、区、点については値の制限が無くなりました。最初の面を
基本多言語面(BMP)と称する形も残しながら、BMPに
Unicodeをそっくり入れてその他の群・面は未使用という、実質
Unicodeと同一の2オクテットの符号となりました。
1993年5月1日、DIS 10646第2版を元にした「
ISO/IEC 10646|ISO_IEC 10646-1: 1993 Universal Multiple-Octet Coded Character Set (UCS) -- Part 1: Architecture and basic Multilingual Plane」が国際規格化されました。
この
ISO/IEC 10646|ISO_IEC 10646は、
Unicodeとは
文字を割り当てたコードポイントについては完全に一致していましたが、
基本多言語面以外の面の存在を最初から想定しており、それらの領域についても未使用であるという立場をとっていました。
ISO/IEC 10646|ISO_IEC 10646は、DIS 10646第1版に源流を持つ「群、面、区、点」という構造を受け継いだ31ビットコードであり、あくまで一つの面(BMP)しか持たない16ビットコードである
Unicodeに対して「上位互換」の関係にありました。しかし両者は、この時点では完全に同一のものではありませんでした。
その後
1993年6月、
Unicode側も制定されたばかりの
ISO/IEC 10646|ISO_IEC 10646-1:1993に合わせて、
Unicode 1.0を若干変更した
Unicode 1.1を制定しました。
その後、両者は改訂時期を多少ずらすことはあっても、追加する
文字については同じコードポイントを割り当てるなど、歩調を合わせながら度々改訂されていくことになります。
Unicodeは、2.0以降はサロゲートペアを導入して
基本多言語面以外の面の存在を可能にし、収容可能な
文字を大幅に増やしました。また、
ISO/IEC 10646|ISO_IEC 10646も
2003年になって、
文字を割り当てられる可能性のある範囲が
Unicodeと同一になりました。
2010年時点で検討中の
ISO/IEC 10646|ISO_IEC 10646の改正案では、初期の
Unicodeの特徴であった2オクテット固定長
文字コードとしてのUCS-2をdeprecatedとし、
ISO/IEC 10646|ISO_IEC 10646の構造自体を完全に
Unicodeと一致させる趣旨の規定が盛り込まれています。
参考文献
安岡孝一「
文字符号の歴史」、共立出版、2006年、
ISBN 4320121023
関連文献
安岡孝一「日本における最新
文字コード事情(前編)」『システム/制御/情報』第45巻第9号、システム制御情報学会、2001年、528-535頁
* 安岡孝一「日本における最新
文字コード事情(後編)」『システム/制御/情報』第45巻第12号、システム制御情報学会、2001年、687-694頁