KOI8-U

KOI8-Uは、キリル文字を使用するウクライナ語を対象とした8ビットの文字コードです。これは、ロシア語ブルガリア語をカバーするKOI8-Rを基盤としていますが、8つの図形文字ウクライナ語特有の大文字小文字の文字(ҐЄ、І、Ї)に置き換えることで、ウクライナ語の表現を可能にしています。KOI8は、ISO 8859-5よりも広く普及しており、キリル文字コードとしてWindows-1251と並び、広く利用されていました。しかし、将来的にはUnicodeに置き換えられると考えられています。

KOI8という名称は、ロシア語の「Kod Obmena Informatsiey, 8 bit」(Код Обмена Информацией, 8 бит)の略で、「情報交換用符号、8ビット」という意味を持ちます。

KOIシリーズの文字集合におけるロシア語キリル文字の配列は、ISO 8859-5のような自然なアルファベット順ではなく、ASCIIのラテン文字に対応する符号位置に、擬似ローマ字順で配列されているという特徴があります。さらに、大文字小文字の符号位置が逆転している点も特徴的です。これは、8ビット目が失われた際に文字化けが発生した場合でも、大文字小文字を入れ替えることで、ASCII端末上でテキストをある程度読めるようにするための工夫です。例えば、KOI8-Uで「Русский Текст」(ロシア語のテキスト)と表記された文字列は、8ビット目を落とすと「rUSSKIJ tEKST」と表示されます。しかし、この配列方法には、文字コードによるソートがキリル文字の正しい順序にならないという欠点もあります。

KOI8-Uは、KOI8-Rと比較して、0xA40xA60xA7、0xAD0xB40xB60xB7、0xBDの位置に違いがあります。これらの位置には、ロシア語には存在しないウクライナ語の文字が配置されています。

RFC 2319では、文字95U+2219(∙)であると規定されていますが、Windows-1251のビュレット文字との互換性を考慮して、U+2022(•)が使われることもあります。

また、一部の参考文献では、文字B4が誤ってU+0403であると記載されていますが、正しくはU+0404です。この誤植はRFC 2319のAppendix Aにも見られますが、RFCの本文には正しいマッピングが記載されています。

関連項目:

ウクライナ文字

外部リンク:

2319'>RFC 2319

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。