ISO/IEC 8859-6

ISO/IEC 8859-6:1999の概要



ISO/IEC 8859-6:1999は、ISO 8859の第6部として制定された、ラテン文字アラビア文字を扱う8ビット文字コード規格です。1987年に初版が公開され、アラビア語の電子化において重要な役割を果たしました。しかし、ペルシャ語やウルドゥー語といった他のアラビア文字を使用する言語はサポートされておらず、アラビア語以外の言語の記述には適していません。

この規格は、MS-DOSで使用されていたASMO-708というコードページをベースに、アラビア語と無関係な文字を除去することで作成されました。そのため、アラビア文字特有の結合文字の処理が必要になります。文字コード表には独立した文字のみが記述されており、テキストを表示するためには、文字同士を適切に結合する処理が不可欠です。また、シャクルと呼ばれる結合文字も、正しく処理されなければなりません。数字はASCIIの数字のみが定義されています。

ISO-8859-6は、テキストの表示順序に関する仕様も定めています。規格では左から右への表示を推奨していますが、実際には論理的な順序でテキストが格納されるため、表示を行う際には双方向テキスト処理が必要になります。そのため、表示システムはテキストの表示順序を調整する必要があります。

さらに、書字方向を明示的に指定するためのバージョンも存在します。ISO-8859-6-Iは、暗黙的に左から右への書字方向を指定するバージョンであり、ISO-8859-6-Eは、制御文字を使用して書字方向を明示的に指定する必要があります。しかし、実際にはISO-8859-6-Eはほとんど使用されず、ISO-8859-6ISO-8859-6-Iと同様に扱われることが多いです。

符号表と未定義コードポイント



ISO/IEC 8859-6の符号表には、アラビア文字ラテン文字、数字、一部の制御文字などが定義されています。ただし、多くのコードポイントは文字が割り当てられておらず、未定義となっています。具体的には、0x00-0x1F0x7F0x80-0x9F0xA1-0xA30xA5-0xAB、0xB0-0xBA、0xBC-0xBE0xC00xDC-0xDF0xF3-0xFFの範囲のコードポイントには文字が割り当てられていません。一方、0xEB-0xF2の範囲には、結合文字が割り当てられています。また、0x20は通常のスペース文字、0xA0はノンブレークスペースを表します。0xADソフトハイフンを表しますが、多くのWebブラウザでは表示されません。

歴史と関連規格



ISO/IEC 8859-6は、ASMO-708という既存のコードページをベースとして開発されました。ASMO-708は、アラビア語を扱うためのコードページとしてMS-DOS環境で使用されていました。ISO/IEC 8859-6は、ASMO-708からアラビア語と無関係な文字を除去し、国際標準規格として整備されたものです。また、ISO/IEC 8859-6は、ISO-IR 127、ECMA-114など、他の関連規格とも互換性を持っています。

まとめ



ISO/IEC 8859-6:1999は、アラビア語のデジタル化において重要な役割を果たした文字コード規格です。しかし、その設計上の制約から、アラビア語以外の言語のサポートが限定的である点が課題となっています。現代においては、より包括的なUnicodeが広く利用されるようになっており、ISO/IEC 8859-6の使用は減少傾向にあります。それでも、レガシーシステムとの互換性を維持するために、理解しておく必要がある重要な規格です。

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。