ISO/IEC 2022

ISO/IEC 2022: 多言語文字符号化の国際規格



ISO/IEC 2022(旧称 ISO 2022)は、コンピュータで文字を扱うための国際規格です。7ビットまたは8ビットの符号を使って文字を表現する技術と、複数の文字集合を一つの符号化方式にまとめる技術を定めています。JIS X 0202やECMA-35といった対応規格も存在します。

歴史



コンピュータが文字情報を扱うようになってから、様々な言語に対応した文字符号化が開発されてきました。しかし、複数の文字集合が混在すると、情報交換に問題が発生します。ISO/IEC 2022は、この問題を解決するために開発された規格で、複数の文字集合を統一的に扱うための仕組みを提供します。

初期のASCIIは7ビットで、表現できる文字数が限られていました。ISO/IEC 646|ISO_IEC 646では、国ごとに一部の文字を置き換える仕組みが導入されましたが、多くの言語文字を表現するには不十分でした。そこで、8ビット符号に対応したISO/IEC 4873が制定され、さらにISO/IEC 8859|ISO_IEC 8859シリーズへと発展していきました。東アジア言語のように、8ビットでは表現しきれない文字数を持つ言語に対しては、2バイト以上の文字集合が必要となり、ISO/IEC 2022はこのような多様な文字集合を扱うための技術基盤を提供しています。

符号表の構造



ISO/IEC 2022は、文字を表現する領域と制御機能に使う領域に符号表を分割しています。7ビット符号では、制御文字基本集合(C0)と図形文字集合(GL)の領域を持ち、8ビット符号では、さらに制御文字補助集合(C1)と図形文字集合(GR)の領域が追加されます。マルチバイト文字集合では、複数のバイトを使って1文字を符号化します。例えば、94n文字集合では2バイトで8836文字、3バイトで830584文字を表現できます。文字の位置は、行列や区点で指定されます。

制御機能



ISO/IEC 2022では、文字集合の選択や切り替えなどの制御機能があります。7ビット符号ではESCAPEシーケンス(エスケープ文字で始まる2~4バイトの制御コード)、8ビット符号ではC1制御文字も使用されます。データの解釈は、最後に適用された制御機能に依存するため、データの先頭から順番に処理する必要があります。

文字集合の選択



文字集合を選択するには、「指示」と「呼び出し」の2段階の手順が必要です。4つのバッファ(G0~G3)があり、指示によって文字集合をバッファに割り当て、呼び出しによってバッファを符号表の領域に関連付けます。呼び出しには、ロッキングシフト(一度呼び出された状態が継続)とシングルシフト(直後の文字のみ呼び出された状態)があります。

ISO国際登録簿



ISO/IEC 2022は、具体的な符号化文字集合を規定するものではありません。そのため、エスケープシーケンス文字集合の対応関係を定めたISO国際登録簿が存在します。登録申請は、ISO/IECの技術委員会、作業グループ、会員団体、関連国際機関などから行うことができます。登録事務局は、日本の情報処理学会情報規格調査会が担当しています。

応用例



ISO/IEC 2022の仕組みは、様々な符号化方式で利用されています。代表的な例として、日本語電子メール用のISO-2022-JPUNIX環境で使われるEUC-JP、中国のGB 2312(EUC-CN)、韓国のEUC-KRなどがあります。また、ISO/IEC 8859|ISO_IEC 8859シリーズもISO/IEC 2022の構造に基づいています。

ISO-2022-JP



ISO-2022-JPは、日本語電子メールなどで広く使われています。7ビット符号で、JIS X 0208文字集合を使用します。空白や制御文字の使用、行末でのASCIIへの復帰など、いくつかの制約があります。RFC 1468で規定されています。

Extended Unix Code (EUC)



EUCは、ISO/IEC 2022に準拠した8ビット符号です。アナウンス機能は省略され、文字集合の指示と呼び出しは固定的に行われます。EUC-JP、EUC-CN、EUC-KRなどがあります。ベンダ独自の拡張も存在するため、厳密にはISO/IEC 2022に完全に準拠しているとは限りません。

拡張ASCII



「拡張ASCII」は、ASCIIと上位互換性を持つ8ビット符号のシングルバイト文字集合です。ISO/IEC 4873に準拠した符号表を使用します。ISO/IEC 8859|ISO_IEC 8859シリーズなどが含まれます。

その他



VISCIIベトナム語)、KOI8系(キリル文字)、MS-DOS/Windowsのコードページ、Compound Text Encoding (CTEXT)なども、ISO/IEC 2022の機構を利用した、もしくは拡張した符号化方式です。

まとめ



ISO/IEC 2022は、多様な文字集合を統一的に扱うための重要な国際規格です。その仕組みは、多くの符号化方式の基礎となっていますが、実装には様々なバリエーションが存在することに注意が必要です。

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。