EUC-JP (Extended UNIX Code Packed Format for Japanese)とは
EUC-JPは、日本語の文字をコンピュータ上で扱うために用いられてきた
文字コード(符号化方式)の一つです。1980年代中頃から、主に
UNIX系OSで標準的な
文字コードとして利用されてきました。EUC-JPは、日本語の文字を効率的に表現できることから、当時のウェブサイトでも広く使われていましたが、近年では
UTF-8の普及に伴い、その利用は減少しています。
EUC-JPの誕生
EUC-JPは、1980年代中頃に
AT&Tが主導した
UNIXの日本語化プロジェクトの中で生まれました。当時、
AT&Tは日本の
UNIXベンダーをメンバーとする日本語
UNIXシステム諮問委員会を設置し、そこで日本語を扱うための
文字コードについて議論が行われました。その結果、EUC(
Extended Unix Code)という
多言語対応の枠組みが定められ、その中で日本語を扱うものをEUC-JPと呼ぶようになりました。EUCには、他にもEUC-KR(韓国語)、EUC-CN(簡体中国語)などがあります。
EUC-JPの技術的な特徴
EUC-JPは、
JIS X 0201'>[ASCII]]と
JIS X 0208文字集合を基本としています。
半角カナ]やJIS補助漢字([[JIS X 0212)も扱うことができます。ただし、
半角カナや補助漢字を使用しない場合は、
JIS X 0208で規定されている符号化方式と同一になります。
日本語文字は
JIS X 0208をGR領域に表現したものを基本としており、2バイトで表現されます。1バイト目も2バイト目も0x80から0xFFの範囲内にあるため、英数字と日本語文字の区別が容易で、プログラム上での扱いも比較的簡単です。
半角カナは
制御文字SS2(0x8E)に続けて2バイトで表現され、補助漢字は
制御文字SS3(0x8F)に続けて3バイトで表現されます。
EUC-JPの歴史
1984年、
AT&Tは日本での
UNIXライセンス事業展開のため、日本語
UNIXシステム諮問委員会を設立しました。委員会では、
UNIXで日本語を扱うための
文字コードや機能について議論が行われ、1985年に報告書が提出されました。この報告書がEUC-JPのベースとなり、1986年に
AT&Tによって国際機能と各国語機能に分けて定義されました。同年、
UNIXカンファレンスで日本語アプリケーション環境(JAE)が発表され、その中で
文字コードの構造(EUC)と日本語機能で使用される文字セットが定められました。
その後、1990年に
JIS X 0212で補助漢字が制定されたことを受けて、1991年に
Open Software Foundation (OSF) などが
UNIX上の共通日本語
文字コードとして日本語EUCを定義しました。
EUC-JPの衰退
EUC-JPは、
UNIX系OSで標準的な
文字コードとして広く使われてきましたが、2000年代に入ると
UTF-8が普及し始め、EUC-JPの使用は減少しました。かつては多くのウェブサイトでEUC-JPが使われていましたが、現在では
UTF-8が主流となっています。
EUC-JPの亜種
EUC-JPにはいくつかの亜種が存在します。
eucJP-ms: オープン・グループと日本ベンダ協議会が策定した文字符号化方式です。MySQL v5.0以降などで実装されています。
CP51932:
マイクロソフトがWindowsで使用しているWindows-31JのEUC-JP互換表現です。
Internet Explorer4.0以降や、
EmEditor、
秀丸エディタなどで実装されています。このコードはNECの
PC-9800シリーズの漢字コードをGR表現したような形式を持っていますが、ベースとなる規格が異なります。
まとめ
EUC-JPは、日本語の
文字コードとして、
UNIX系OSを中心に広く使われてきました。しかし、
UTF-8の普及により、その利用は減少しています。EUC-JPは、日本語の文字を効率的に扱うことができるという利点がありましたが、
Unicodeなどのより包括的な
文字コードが登場したことにより、その役割を終えつつあります。EUC-JPの歴史を理解することは、コンピュータにおける日本語処理の歴史を理解する上で重要です。