DIS 10646

DIS 10646とは



DIS 10646は、ISO(国際標準化機構)が策定した文字コード規格であるISO/IEC 10646|ISO_IEC 10646の原案です。この規格は、世界中の文字を単一の文字集合として扱うことを目指し、文字コードの切り替えを不要にすることを目的としていました。

概要



DIS 10646には、1990年に作成されたものの廃案となった第1版と、1992年に作成され正式規格の基礎となった第2版が存在します。この二つの版は内容が大きく異なっており、本記事では、1980年代後半に議論されていた2オクテット案である「DP 10646」についても触れます。

DP 10646 (2オクテット案)



1983年7月、ISO/TC 97は、アメリカの提案に基づき、各国の文字を統一的に扱える2オクテットコードの作成を決定しました。この作業は、文字コードを担当するISO/TC 97/SC 2が行うことになりました。

1984年4月、京都で開催されたISO/TC 97/SC 2において、専門のワークグループ (ISO/TC 97/SC 2/WG 2) が設置され、規格番号がISO 10646と決定されました。1985年には、アメリカが作成したA案とイギリスが作成したB案の二つの案が提出されました。

A案: ISO 2022との互換性を重視し、制御領域を避け、20から7EとA0からFFのみを使用する。
B案: 「真の16ビットコード」を目指し、16ビットで表現できる空間を全て使用する。

両案とも、日本、中国韓国漢字については統合せずにそのまま含むことを想定していました。1987年3月、ベルリンで開催されたISO/TC 97/SC 2でA案が選ばれ、「DP 10646」となりました。

しかし、この案では中国が当時拡張を進めていたGB 2312文字を全て入れることができないという問題や、日本もJIS X 0208の拡張で増える文字を収容できないという問題が生じ、大幅な見直しを迫られることになりました。結果として、DIS 10646は4オクテット(32ビット)をベースに、1から4オクテットのサブセットを持つコードに根本的に作り直されることになりました。

DIS 10646 第1版



1990年11月、4オクテット案がDIS 10646の第1版として完成しました。この第1版は、ISO 646の拡張として、必要な全ての文字を一つの体系に収録しようとするものでした。

この版では、全ての文字を4オクテット(32ビット)で表現し、各オクテットをそれぞれ群(group)、面(plane)、区 (row)、点(cell)としました。各面には、ISO/IEC 2022|ISO_IEC 2022制御文字領域を避け、0x20から0x7Fと0xA0から0xFFの範囲に文字を割り当てることで、合計で1330863361字を収容可能としていました。そして、ISO/IEC 2022|ISO_IEC 2022に基づく各国の文字コードを、区点の位置もそのままに平行移動して収容するという、従来のコード系との互換性を最大限に尊重した構成となっていました。

最初の面である第20群第20面を基本多言語面 (BMP; Basic Multilingual Plane) と呼んでおり、この名称は後のDIS 10646第2版、そしてISO/IEC 10646|ISO_IEC 10646にも受け継がれています。

BMPには、以下のような文字コードが配置されました。

20203021から20207E7Eまで: 日本のJIS X 0208の16区1点から94区94点
2020B021から2020FE7Eまで: 中国GB 2312の16区以降(漢字部分)
2020B0A1から2020FEFEまで: 韓国のKS C 5601(現在のKS X 1001)の16行以降

Unicodeの登場



一方で、1987年頃からXeroxのJoe BeckerとLee Collinsによって、世界中の文字を統一して扱える文字コード「Unicode」が開発されていました。Unicodeは、2オクテット(16ビット)で全ての文字を扱えることを目指し、以下の点を基本ポリシーとしていました。

符号位置はコントロール領域まで全て使う。
各種アルファベット類は新規に割り当てる。
日本、中国韓国漢字の類似する漢字を統合する。

DIS 10646とUnicodeの一本化



1989年のSC 2アンマン会議で、アメリカはDP 10646に対してUnicodeの採用を提案しましたが、この提案は採用されず、1990年11月には4オクテットベースのDIS 10646第1版が完成しました。

しかし、ほぼ同時期にUnicodeも制定に向けて作業が進められており、同じ目的を持つ二つの文字コードが存在することに抵抗がありました。また、欧米では1文字を表現するのに4オクテット(32bit)も使用することへの抵抗が強く、中国漢字を各国でばらばらに符号化するのではなく統一して扱うことを求めていました。

このような背景から、2オクテットで全ての文字を扱えることを目指していたUnicodeが優位となり、DIS 10646第1版は1991年6月に国際投票の結果、Unicodeとの一本化を求める各国により否決されました。

DIS 10646 第2版



DIS 10646第1版は否決されましたが、その投票の中には、DIS 10646第1版とUnicodeのマージを支持する意見が多かったため、DIS 10646第1版とUnicode(1.0)の両方の特徴を取り入れた新たなDIS 10646を作成することになりました。

特に、漢字部分の文字の選択と配置が問題となり、ISO/TC 97/SC 2/WG 2は、CJK-JRG (Joint Research Group) と呼ばれるグループを設置し、漢字統合について検討しました。CJK-JRGは、各国の漢字コードに基づき独自の統合規準を定め、ISO 10646 / Unicode用の統合漢字コード表を作成しました。

中国は「漢字発祥の国」として、自身が作成した「統合漢字表」を元に最終的な統合漢字表を作成することを提案しましたが、日本は各国の規格の漢字表を対等な基準で組み合わせることを主張しました。この中で、「各国の元になる規格で別の漢字として扱われている漢字は統合漢字表でも別の漢字として取り扱う」という、「原規格分離規則」が生まれました。

1991年末、各国の漢字コードに基づき独自の統合規準を定めた、ISO 10646 / Unicode用の統合漢字コード表が Unified Repertoire and Ordering (URO)として完成し、1992年5月30日、UROを取り込んだDIS 10646第2版が完成しました。

DIS 10646第2版では、群、面、区、点という構造は残されましたが、群は00から7Eのみが使用可能になり、実質31ビットのコードになりました。また、面、区、点については値の制限が無くなりました。最初の面を基本多言語面(BMP)と称する形も残しながら、BMPにUnicodeをそっくり入れてその他の群・面は未使用という、実質Unicodeと同一の2オクテットの符号となりました。

ISO/IEC 10646|ISO_IEC 10646の制定



1993年5月1日、DIS 10646第2版を元にした「ISO/IEC 10646|ISO_IEC 10646-1: 1993 Universal Multiple-Octet Coded Character Set (UCS) -- Part 1: Architecture and basic Multilingual Plane」が国際規格化されました。

このISO/IEC 10646|ISO_IEC 10646は、Unicodeとは文字を割り当てたコードポイントについては完全に一致していましたが、基本多言語面以外の面の存在を最初から想定しており、それらの領域についても未使用であるという立場をとっていました。

ISO/IEC 10646|ISO_IEC 10646は、DIS 10646第1版に源流を持つ「群、面、区、点」という構造を受け継いだ31ビットコードであり、あくまで一つの面(BMP)しか持たない16ビットコードであるUnicodeに対して「上位互換」の関係にありました。しかし両者は、この時点では完全に同一のものではありませんでした。

その後



1993年6月、Unicode側も制定されたばかりのISO/IEC 10646|ISO_IEC 10646-1:1993に合わせて、Unicode 1.0を若干変更したUnicode 1.1を制定しました。

その後、両者は改訂時期を多少ずらすことはあっても、追加する文字については同じコードポイントを割り当てるなど、歩調を合わせながら度々改訂されていくことになります。

Unicodeは、2.0以降はサロゲートペアを導入して基本多言語面以外の面の存在を可能にし、収容可能な文字を大幅に増やしました。また、ISO/IEC 10646|ISO_IEC 106462003年になって、文字を割り当てられる可能性のある範囲がUnicodeと同一になりました。

2010年時点で検討中のISO/IEC 10646|ISO_IEC 10646の改正案では、初期のUnicodeの特徴であった2オクテット固定長文字コードとしてのUCS-2をdeprecatedとし、ISO/IEC 10646|ISO_IEC 10646の構造自体を完全にUnicodeと一致させる趣旨の規定が盛り込まれています。

参考文献



安岡孝一「文字符号の歴史」、共立出版、2006年、ISBN 4320121023

関連文献



安岡孝一「日本における最新文字コード事情(前編)」『システム/制御/情報』第45巻第9号、システム制御情報学会、2001年、528-535頁
* 安岡孝一「日本における最新文字コード事情(後編)」『システム/制御/情報』第45巻第12号、システム制御情報学会、2001年、687-694頁

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。