EUC-JP

EUC-JP (Extended UNIX Code Packed Format for Japanese)とは



EUC-JPは、日本語の文字をコンピュータ上で扱うために用いられてきた文字コード(符号化方式)の一つです。1980年代中頃から、主にUNIX系OSで標準的な文字コードとして利用されてきました。EUC-JPは、日本語の文字を効率的に表現できることから、当時のウェブサイトでも広く使われていましたが、近年ではUTF-8の普及に伴い、その利用は減少しています。

EUC-JPの誕生



EUC-JPは、1980年代中頃にAT&Tが主導したUNIXの日本語化プロジェクトの中で生まれました。当時、AT&Tは日本のUNIXベンダーをメンバーとする日本語UNIXシステム諮問委員会を設置し、そこで日本語を扱うための文字コードについて議論が行われました。その結果、EUC(Extended Unix Code)という多言語対応の枠組みが定められ、その中で日本語を扱うものをEUC-JPと呼ぶようになりました。EUCには、他にもEUC-KR(韓国語)、EUC-CN(簡体中国語)などがあります。

EUC-JPの技術的な特徴



EUC-JPは、JIS X 0201'>[ASCII]]とJIS X 0208文字集合を基本としています。半角カナ]やJIS補助漢字([[JIS X 0212)も扱うことができます。ただし、半角カナや補助漢字を使用しない場合は、JIS X 0208で規定されている符号化方式と同一になります。

日本語文字はJIS X 0208をGR領域に表現したものを基本としており、2バイトで表現されます。1バイト目も2バイト目も0x80から0xFFの範囲内にあるため、英数字と日本語文字の区別が容易で、プログラム上での扱いも比較的簡単です。半角カナ制御文字SS2(0x8E)に続けて2バイトで表現され、補助漢字は制御文字SS3(0x8F)に続けて3バイトで表現されます。

EUC-JPの歴史



1984年、AT&Tは日本でのUNIXライセンス事業展開のため、日本語UNIXシステム諮問委員会を設立しました。委員会では、UNIXで日本語を扱うための文字コードや機能について議論が行われ、1985年に報告書が提出されました。この報告書がEUC-JPのベースとなり、1986年にAT&Tによって国際機能と各国語機能に分けて定義されました。同年、UNIXカンファレンスで日本語アプリケーション環境(JAE)が発表され、その中で文字コードの構造(EUC)と日本語機能で使用される文字セットが定められました。

その後、1990年にJIS X 0212で補助漢字が制定されたことを受けて、1991年にOpen Software Foundation (OSF) などがUNIX上の共通日本語文字コードとして日本語EUCを定義しました。

EUC-JPの衰退



EUC-JPは、UNIX系OSで標準的な文字コードとして広く使われてきましたが、2000年代に入るとUTF-8が普及し始め、EUC-JPの使用は減少しました。かつては多くのウェブサイトでEUC-JPが使われていましたが、現在ではUTF-8が主流となっています。

EUC-JPの亜種



EUC-JPにはいくつかの亜種が存在します。

eucJP-ms: オープン・グループと日本ベンダ協議会が策定した文字符号化方式です。MySQL v5.0以降などで実装されています。
CP51932: マイクロソフトがWindowsで使用しているWindows-31JのEUC-JP互換表現です。Internet Explorer4.0以降や、EmEditor秀丸エディタなどで実装されています。このコードはNECのPC-9800シリーズの漢字コードをGR表現したような形式を持っていますが、ベースとなる規格が異なります。

まとめ



EUC-JPは、日本語の文字コードとして、UNIX系OSを中心に広く使われてきました。しかし、UTF-8の普及により、その利用は減少しています。EUC-JPは、日本語の文字を効率的に扱うことができるという利点がありましたが、Unicodeなどのより包括的な文字コードが登場したことにより、その役割を終えつつあります。EUC-JPの歴史を理解することは、コンピュータにおける日本語処理の歴史を理解する上で重要です。

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。