JIS X 0221

JIS X 0221とは



JIS X 0221は、日本産業規格(JIS)が定める文字コード規格の一つであり、国際規格ISO/IEC 10646|ISO_IEC 10646と整合性を持つように定められています。ISO/IEC 10646|ISO_IEC 10646は、Unicodeをベースに策定されており、世界中の文字を統一的に扱うことを目的としています。JIS X 0221は、この国際規格に準拠しつつ、日本語環境における文字の取り扱いを具体的に定義しています。

歴史



JIS X 0221の歴史は、ISO/IEC 10646|ISO_IEC 10646の改訂と密接に関わっています。ISO/IEC 10646|ISO_IEC 10646Unicodeをベースに改正を重ねるのに合わせ、JIS X 0221も以下の通り複数回改正されています。

初版 (1995年)ISO/IEC 10646|ISO_IEC 10646の初版に対応
第2版 (2001年)ISO/IEC 10646|ISO_IEC 10646の改正に対応
第3版 (2007年)ISO/IEC 10646|ISO_IEC 10646:2003の内容に加えて、追補1と追補2の内容も反映

それぞれの版は制定時点でのISO規格の最新の内容を反映していますが、ISO規格の「TECHNICAL CORRIGENDUM」や「Supplementary Planes」などによって、JISとISOの最新版の内容が一致しなくなる場合があります。

当初、ISO/IEC 10646|ISO_IEC 10646は膨大な内容を含むため、複数の規格群で構成されることが想定されていました。実際、2001年には「ISO/IEC 10646|ISO_IEC 10646-2:2001」という追加規格も制定されましたが、JISではこれに対応する規格は制定されませんでした。その後、技術の進歩によりコードと文字の対応関係をCD-ROMなどに収録することが可能になったため、第3版以降は規格全体を一つの規格として定めることになりました。

規格の「改正」においては、規格番号の末尾に「-1」が付いたり取れたりするなど「部編成が変わる」場合、形式的には前の規格を廃止し、新たな規格を制定したとして扱うことになっています。そのため、JIS X 0221の第2版や第3版は、形式的には前の規格の改正ではなく、新たな規格制定として扱われます。しかし、規格票の解説では、内容の変遷については「改正」として説明されています。

日本文字部分レパートリ



JIS X 0221は、付属書JAにおいて、以下の6つのレパートリを規定しています。

基本日本文字集合 (BASIC JAPANESE)JIS X 0208などに含まれる基本的な文字
追加非漢字集合 (JAPANESE NON IDEOGRAPHICS SUPPLEMENT)JIS X 0212の非漢字や記号類。
追加漢字集合 (JAPANESE IDEOGRAPHICS SUPPLEMENT 1)JIS X 0212の漢字のうち使用頻度の高いもの。
補助漢字集合 (JAPANESE IDEOGRAPHICS SUPPLEMENT 2)JIS X 0212の漢字のうち追加漢字集合に含まれないもの。
その他の漢字集合 (JAPANESE IDEOGRAPHICS SUPPLEMENT 3)CJK統合漢字のうち、上記いずれにも含まれないもの。
互換用全角英数字集合 (FULLWIDTH ALPHANUMERIC):全角英数字。
互換用半角片仮名集合 (HALFWIDTH KATAKANA)半角カナ

日本文字部分レパートリの変遷



初版では附属書1で7種類を規定していましたが、第2版ではJIS X 0221がISO/IEC 10646|ISO_IEC 10646の国際一致規格であることとの整合性から、附属書1は規定から参考に格下げされました。第3版では、附属書1が附属書JAに変更され、基本日本文字集合と追加非漢字集合以外のレパートリは廃止され、代わりに以下の4つが追加されました。

JIS2004拡張漢字集合 (JIS2004 IDEOGRAPHICS EXTENSION)JIS X 0213で拡張された漢字。
補助漢字集合 (JAPANESE IDEOGRAPHICS SUPPLEMENT)JIS X 0212の漢字すべて(改正前の追加漢字集合と補助漢字集合を併合したもの)。
拡張非漢字集合 (JAPANESE NON IDEOGRAPHICS EXTENSION)JIS X 0213で拡張された非漢字。
通用日本文字集合 (COMMON JAPANESE)マイクロソフト標準キャラクタセットUnicodeによる実装を事実上追認したもの。

これらのうち、追加非漢字集合以外の5つは、ISO/IEC 10646|ISO_IEC 10646:2003の追補3で組として追加されました。ただし、JIS X 0221の第3版は、ISO/IEC 10646|ISO_IEC 10646:2003の追補2までの内容しか含まないため、依然として参考扱いとなっています。

レパートリに関する補足



BASIC JAPANESEに含まれるJIS X 0208漢字の数は、参考資料では6356文字とされていますが、JIS X 0208の漢字集合に合わせます。
COMMON JAPANESEの総文字数は、COMMON JAPANESEからBASIC JAPANESEの文字数を引いた数です。
JIS2004 IDEOGRAPHICS EXTENSIONとJAPANESE IDEOGRAPHICS SUPPLEMENTは2742文字を共有しています。
BASIC JAPANESEとCOMMON JAPANESEは、単独または他のレパートリと組み合わせて使用できます。
通用日本文字集合(COMMON JAPANESE)にのみ含まれる漢字は34文字です。
「仝」はJIS X 0208JIS X 0213では記号として扱われていますが、Unicodeでは漢字として扱われます。
JIS X 0212JIS X 0213では、UCS符号が一致しない文字があります。

概要と履歴



Unicodeでは任意の部分集合による実装が認められており、送信した文字を正しく表示できる保証はありません。一方、ISO/IEC 2022|ISO_IEC 2022では、適合を主張する実装は文字集合に対して1文字たりとも追加・削除・変更が許されないため、文字集合に含まれる文字すべてを扱えることが保証されます。この問題を補うため、ISO/IEC 10646|ISO_IEC 10646では、特定用途でよく使われる文字を集めた「組」(collection)を規定し、適合を主張する実装に対して、構成する文字すべての実装を義務づけています。

しかし、ISO/IEC 10646|ISO_IEC 10646には欧州で使われる文字を集めた組はありますが、日本語でよく使われる文字を集めた組は規定されていませんでした。そのため、JIS X 0221では「日本文字部分レパートリ」という附属書を追加し、日本語でよく使われる文字を制限部分集合として独自に定めています。

まとめ



JIS X 0221は、ISO/IEC 10646|ISO_IEC 10646に準拠しながらも、日本語環境での文字利用に特化した規格です。その複雑な構造や歴史を理解することは、情報処理における文字化けなどの問題を解決する上で非常に重要です。JIS X 0221の各版やレパートリを理解することで、より正確な文字コードの取り扱いが可能になります。

参考資料



JISC 日本産業標準調査会 - JIS本文を閲覧できます。
ISO/IEC 10646|ISO_IEC 10646
日本産業規格の一覧
日本産業規格(情報処理)の一覧
Unicode

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。