KOI8-R

KOI8-Rは、ロシア語キリル文字を扱うために設計された8ビット文字コードです。ブルガリア語もサポートしており、そこから派生したKOI8-Uには、ウクライナ語の文字が追加されています。最初のKOI-8符号は、1974年にソビエト当局によって設計されました。

KOI8は、ISO 8859-5よりも広く使われており、ISO 8859-5は普及したとは言えません。他の主要なキリル文字コードとしてはWindows-1251が挙げられます。また、キリル文字を他の非ラテン文字と共に表現する方法として、Unicodeがあります。

KOI8は、ロシア語で「Kod Obmena Informatsiey, 8 bit(Код Обмена Информацией, 8 бит)」の略であり、「情報交換用符号、8ビット」という意味です。

KOIシリーズの文字集合におけるロシア語キリル文字は、ISO 8859-5のような自然なキリル文字のアルファベット順ではなく、主に発音に対応するASCIIのラテン文字の符号位置順に並んでいるという特徴があります。さらに、大文字と小文字の符号位置が逆になっている点も特徴的です。

これは一見すると不自然に見えますが、8ビット目が欠落する文字化けに対処できるという利点があります。例えば、KOI8-Rで表現された「Русский Текст」(ラテン文字転写例: Russkij Tjekst)は、8ビット目を落とすと「rUSSKIJ tEKST」になります。この時、大文字と小文字が逆になることで文字化けが発生したことが分かり、また文字の発音も近いため、そのまま読めるか、少なくとも復元することが可能です。さらに、これは正しいKOI-7として解釈することもできます。ASCII文字列「rUSSKIJ tEKST」をKOI-7(КОИ-7 Н1)として解釈すれば「Русский Текст」となります。

しかし、文字コードでソートしても正しいキリル文字の順序にならないという欠点もあります。このため、KOI8は特定の環境下でのみ使用されることが多くなっています。

関連情報

1489'>RFC 1489
8.pp.ru/koi8r.html'>All about KOI8-R (英語)
Universal Cyrillic decoder (英語):壊れたKOI8-Rや他の文字コードで書かれたキリル文字の文章の修復を支援するオンラインツール。
キリル文字符号化の小史 (英語)

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。