Big5

Big5(ビッグファイブ)とは



Big5は、繁体字中国語文字コードとして、台湾香港マカオといった地域で最も一般的に使用されている文字集合です。その歴史は1984年5月1日に、台湾の資訊工業策進会によって「電腦用中文字型與字碼對照表」として制定されたことに始まります。この文字コードは、当時、主要なパソコンメーカーであったエイサー、マイタック、佳佳、ゼロワン、FICの5社が共同で策定したことから「Big5」という名前が付けられました。オリジナルのBig5は、その後の拡張版と比較してBig5-1984と呼ばれることもあります。

Big5の特徴



Big5には、ローマ字アラビア数字、蘇州号碼、記号類、注音符号に加え、1万3062字の漢字が収録されています。ただし、重複している2字を除くと、実際の漢字文字数は1万3060字となります。MS-DOS時代の中国語システムをはじめ、WindowsやmacOSなどのオペレーティングシステムにも採用されたことで、デファクトスタンダードとしての地位を確立しました。2003年には、CNS 11643の附属書として追認され、公的な規格の一部となっています。

Big5は、2バイトで約1万3000字を表現します。第一バイトは0xA1〜0xC6および0xC9〜0xF9、第二バイトは0x40〜0x7Eおよび0xA1〜0xFEの範囲で構成されます。文字は、非漢字、常用漢字、次常用漢字の3つのブロックに分類され、漢字は総画数順、次いで部首順に配列されています。この配列順序は、JIS X 0208やGB 2312とは逆になっている点に注意が必要です。また、一部に重複した漢字や配列の誤りも見られます。

符号空間がシフトJISと類似しているため、第二バイトに0x5Cが含まれており、シフトJISの円記号問題と同様の問題を抱えています。しかし、シフトJISはJIS X 0208文字集合の符号化方式の一つであるのに対し、Big5は文字集合と符号化方式が一体化しており、通常、他の符号化方式で使用されることはありません。

Big5の拡張



Big5は、その後のニーズに合わせて、さまざまな拡張が行われてきました。以下に代表的なものを紹介します。

民間の独自拡張


  • - 倚天拡張
Windows 95以前に広く使われていた中国語システム、倚天中文系統による拡張が有名です。この拡張では、「碁銹恒裏墻粧嫺」の7字(倚天拡張字)や罫線素片、キリル[[文字]]、丸数字などが追加されました。また、仮名も含まれており、Big5ベースのシステムで日本語を表現する手段として活用されました。この拡張は「Big5-Eten」と呼ばれることもあり、重要な独自拡張の一つです。

  • - コードページ950
Microsoft Windowsで用いられる繁体字文字集合です。オリジナルのBig5に、倚天拡張字7字と罫線素片を取り入れています。Windows MEからは、「€(ユーロ[[記号]])」も追加されました。

台湾の公的拡張


  • - Big5+
中文數位化技術推廣基金會(CMEX)によって1997年7月に策定されたもので、ISO/IEC 10646|ISO_IEC 10646:1993(Unicode 1.1)の漢字をすべて取り入れたものです。標準字集4670字と推薦字集3250字が追加されました。ただし、従来のBig5のコード範囲を超えるため、WindowsなどのOSでは使用できず、普及はしませんでした。Unicode漢字をすべて取り込んだ点と、文字符号化手法において中国のGBKに似ています。

  • - Big-5E
Big5+の標準字集から、政府機関で常用される3954字を選び出し、Big5の外字エリアに収まるようにしたものです。

  • - Big5-2003
経済部標準検験局の委託を受けた中推会が、Big5の対照表を作成し、CNS 11643の附属書として盛り込みました。これにより、Big5は正式に公的規格の一部となりました。Big5-2003では、Big5-1984の全ての文字に加え、マイクロソフト・コードページ950のユーロ[[記号]]、倚天拡張の一部(0xA3C0-0xA3E0、0xC6A1-0xC7F2、0xF9D6-0xF9FE)が追加されました。ただし、「行列輸入法」の特殊符号やキリル[[文字]]の一部(0xC7F3-0xC875)は収録されませんでした。

香港の公的拡張


  • - 香港増補字符集(HKSCS)
香港政府によって制定されたBig5の拡張文字セットです。Big5に収録されなかった広東語方言字、固有名詞、科学技術用語、仮名、漢字の部品などを追加しています。


参考資料



Lunde, Ken 著、小松章、逆井克己 訳『CJKV : 日中韓越情報処理』オライリージャパン、2002年。ISBN 4-87311-108-0。
CMEX財團中文數位化技術推廣基金會(繁体字中国語

関連項目



GB 2312(簡体字
CNS 11643(国家規格)
香港増補字符集
JIS X 0208
KS X 1001
CJK統合[[漢字]]

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。