大規模文字セット

大規模文字セットとは、一般的に普及している文字コード規格よりも、はるかに多くの文字を収録した文字集合のことを指します。例えば、日本語環境においては、長らくJIS X 0208という規格が用いられてきましたが、この規格には約6000字しか含まれておらず、過去の文学作品や現代でも使われる地名、人名などの固有名詞を十分に表現することができませんでした。

大規模文字セットの必要性



JIS X 0208では表現できない文字の存在は、多くの人々にとって不便であり、特に名前や地名などの固有名詞を扱う際に深刻な問題を引き起こしました。そのため、より多くの文字を収録した大規模文字セットの開発が求められるようになりました。「多漢字文字コード」や「大文字セット」などと呼ばれることもあります。

大規模文字セットと呼べる文字数



大規模文字セットと呼ぶための明確な基準は存在しません。時代によって、普及している文字セットの文字数や、必要とされる文字数の認識によってその定義は変動します。例えば、JIS X 0208が主流であった時代には、1万字を超える文字数があれば大規模とみなされていました。また、諸橋大漢和辞典の収録文字数が約5万4千字であることから、16ビットで表現できる65536個のコードがあれば、必要な文字を全て収録できるという考え方もありました。Unicodeの初期バージョン(1.0)は、この考え方に基づいて開発されました。

その後、UnicodeをはじめとするISO/IEC 10646|ISO_IEC 10646 (JIS X 0221)やJIS X 0213など、多数の文字を収録した規格が制定されました。

主な大規模文字セット



以下に主な大規模文字セットを紹介します。なお、字数は2007年5月時点の情報に基づいています。

Unicode:約11万字(漢字約8万字、異体字約1万字)。国際的な文字コード規格として広く利用されています。
今昔文字鏡:約18万字(漢字16万字)。諸橋大漢和辞典相当の文字を収録しています。
e漢字:約24万字。中華字海の約8万6千字を含む、非常に多くの漢字を収録しています。
GT:約7万9千字。諸橋大漢和辞典と住基ネット統一文字相当の文字を収録しています。
JIS X 0213:約1万1千字。JIS規格の文字セットで、JIS X 0208の拡張版として位置づけられます。
Adobe-Japan1:約2万3千字。DTP(デスクトップパブリッシング)業界で広く使われている文字セットです。
MJ文字情報:約6万字。住基ネット統一文字と戸籍統一文字相当の文字を収録しています。
登記統一文字:約6万8千字。戸籍統一文字相当の文字を収録しています。

大規模文字セットを実装したフォント



電子書籍の普及により、現在では多くのフォントがDTP用に開発されたAdobe-Japan1-6などの文字セットを実装しています。また、人名や地名などを扱うフォントとしては、IPA(情報処理推進機構)がMJ文字情報に対応したIPAmj明朝フォントをオープンソースで提供しています。

その他にも、今昔文字鏡のindexfont、GT書体プロジェクトによるGT書体やTフォント、UnicodeのCJK統合漢字拡張A~Fに完全対応した花園フォントなどが利用されています。

まとめ



大規模文字セットは、従来の文字コード規格では表現できなかった多くの文字を扱えるようにすることで、コンピュータ上での文字表現の可能性を広げてきました。これらの文字セットの普及は、学術研究や出版、デジタルコンテンツ制作など、様々な分野で重要な役割を果たしています。今後も、より多くの文字を扱える文字コード規格やフォントの開発が期待されます。

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。