ISO/IEC 6937

ISO/IEC 6937: ラテン文字の多様な表現を可能にした文字コード規格



ISO/IEC 6937:2001『情報技術—文字コミュニケーションのためのコード化された図形文字集合—ラテンアルファベット』は、標準的なASCIIISO/IEC 646)を拡張し、基本ラテンアルファベットには含まれない様々なラテン文字を表現できるように設計された文字コード規格です。元々はITU-T(当時はCCITT)によってテレマティクス用途向けに開発され、T.51勧告として発表されたのち、1983年にはISO標準となりました。

この規格の大きな特徴は、2バイト文字を用いて、基本ラテン文字にアクセント記号やその他の追加記号を付加できる点にあります。1バイト目はダイアクリティカルマーク(アクセント記号など)の種類を表し、2バイト目はそのマークが付く基本ラテン文字を表します。ただし、全ての組み合わせが許容されるわけではなく、特定の組み合わせのみが定義されています。また、ダイアクリティカルマーク単体を表現したい場合は、2バイト目にスペースを使用します。

ISO/IEC 6937は、ヒュージ・マックレガー・ロス、ピーター・フェンウィック、ベルナルド・マルティ、レーク・ゼッケンドルフといった専門家によって設計されました。ISO 6937/2では、現代ヨーロッパ言語で使用される327文字が定義されていますが、キリル文字やギリシャ文字といったラテン文字以外の文字は含まれていません。さらに、ルーマニア語のȘ(Sコンマ)など、一部のダイアクリティカルマーク付き文字も含まれていない点が特徴的です。これは、規格制定時にコンマビローとセディーユの区別が明確にされていなかったため、コンマビローの代わりにセディーユが使用されていることによるものです。

IANA(Internet Assigned Numbers Authority)では、ISO 6937/2のバージョンの違いに応じて`ISO_6937-2-25`と`ISO_6937-2-add`という2つの名称を割り当てています。しかしながら、この文字コードはインターネット上では事実上使用されておらず、歴史的な意義を持つ規格として位置づけられています。ISO/IEC 6937の右半分を指すISO/IEC 2022のエスケープシーケンスは ESC - R (十六進数 1B 2D 52)です。

1バイト文字と2バイト文字



[I]]SO 6937/21バイト文字(0x00-0x7f)は、ISO 646をベースとしていますが、国際通貨記号]がドル記号([[$)に変更されている点が異なります。残りの範囲(0x80-0xff)には、字幅のある/無い図形文字や追加記号、将来拡張のための予約領域が割り当てられています。

基本ラテン文字以外に、2バイトでコード化される文字が存在します。1バイト目は「字幅のないダイアクリティカルマーク」を表し、2バイト目にそのマークが付く基本ラテン文字が続きます。例えば、アキュートアクセント付きの小文字e (é)は、「[字幅のないアキュートアクセント] + e」という組み合わせで表現されます。ISO 6937では13種類の「字幅のないダイアクリティカルマーク」が定義されています。

符号表とUnicodeとの比較



UnicodeU+0300U+036Fの範囲にある結合文字は、ISO/IEC 6937では0xC10xCFに割り当てられ、第1バイト(リードバイト)としてのみ使用されます。この範囲のダイアクリティカルマークがついた文字は、予め組み合わせられた文字としてコード化されていません。ただし、ダイアクリティカルマークの組み合わせでは表現できない文字については、コード化されています。例外的に、「セディーユつきの小文字のg」は、アキュートアクセント(0xC2)を第1バイトとしています。これは、この文字の字形が「g」の上に逆カンマが付くためです。

[Unicode]]では大文字のĐ(ストローク付きD)とÐ(エズ)を区別していますが、ISO/IEC 6937では区別せずに0xE2を割り当てています。小文字については字形が異なるため、ストローク付きD]に[[0xF2、エズ(ð)に0xF3と別のコードを割り当てています。

ISO/IEC 6937は、その歴史的背景や設計思想から、現代の文字コード体系とは異なる特徴を持つ規格です。インターネット時代においては使用されていませんが、文字コード発展の歴史を知る上で重要な役割を果たした規格と言えるでしょう。

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。