Big5(ビッグファイブ)とは
Big5は、
繁体字中国語の
文字コードとして、
台湾、
香港、
マカオといった地域で最も一般的に使用されている
文字集合です。その歴史は
1984年5月1日に、
台湾の資訊工業策進会によって「電腦用中
文字型與字碼對照表」として制定されたことに始まります。この
文字コードは、当時、主要なパソコンメーカーであったエイサー、マイタック、佳佳、ゼロワン、FICの5社が共同で策定したことから「Big5」という名前が付けられました。オリジナルのBig5は、その後の拡張版と比較してBig5-1984と呼ばれることもあります。
Big5の特徴
Big5には、
ローマ字、
アラビア数字、蘇州号碼、
記号類、
注音符号に加え、1万3062字の
漢字が収録されています。ただし、重複している2字を除くと、実際の
漢字の
文字数は1万3060字となります。
MS-DOS時代の
中国語システムをはじめ、WindowsやmacOSなどの
オペレーティングシステムにも採用されたことで、
デファクトスタンダードとしての地位を確立しました。2003年には、CNS 11643の附属書として追認され、公的な規格の一部となっています。
Big5は、2バイトで約1万3000字を表現します。第一バイトは0xA1〜0xC6および0xC9〜0xF9、第二バイトは0x40〜0x7Eおよび0xA1〜0xFEの範囲で構成されます。
文字は、非
漢字、常用
漢字、次常用
漢字の3つのブロックに分類され、
漢字は総画数順、次いで部首順に配列されています。この配列順序は、
JIS X 0208やGB 2312とは逆になっている点に注意が必要です。また、一部に重複した
漢字や配列の誤りも見られます。
符号空間がシフトJISと類似しているため、第二バイトに0x5Cが含まれており、シフトJISの円
記号問題と同様の問題を抱えています。しかし、シフトJISは
JIS X 0208文字集合の符号化方式の一つであるのに対し、Big5は
文字集合と符号化方式が一体化しており、通常、他の符号化方式で使用されることはありません。
Big5の拡張
Big5は、その後のニーズに合わせて、さまざまな拡張が行われてきました。以下に代表的なものを紹介します。
民間の独自拡張
Windows 95以前に広く使われていた
中国語システム、倚天中文系統による拡張が有名です。この拡張では、「碁銹恒裏墻粧嫺」の7字(倚天拡張字)や罫線素片、
キリル[[文字]]、丸数字などが追加されました。また、仮名も含まれており、Big5ベースのシステムで日本語を表現する手段として活用されました。この拡張は「Big5-Eten」と呼ばれることもあり、重要な独自拡張の一つです。
Microsoft Windowsで用いられる
繁体字文字集合です。オリジナルのBig5に、倚天拡張字7字と罫線素片を取り入れています。Windows MEからは、「€(
ユーロ[[記号]])」も追加されました。
台湾の公的拡張
中文數位化技術推廣基金會(CMEX)によって1997年7月に策定されたもので、
ISO/IEC 10646|ISO_IEC 10646:1993(
Unicode 1.1)の
漢字をすべて取り入れたものです。標準字集4670字と推薦字集3250字が追加されました。ただし、従来のBig5のコード範囲を超えるため、WindowsなどのOSでは使用できず、普及はしませんでした。
Unicodeの
漢字をすべて取り込んだ点と、
文字符号化手法において中国のGBKに似ています。
Big5+の標準字集から、政府機関で常用される3954字を選び出し、Big5の外字エリアに収まるようにしたものです。
経済部標準検験局の委託を受けた中推会が、Big5の対照表を作成し、CNS 11643の附属書として盛り込みました。これにより、Big5は正式に公的規格の一部となりました。Big5-2003では、Big5-1984の全ての
文字に加え、マイクロソフト・コードページ950の
ユーロ[[記号]]、倚天拡張の一部(0xA3C0-0xA3E0、0xC6A1-0xC7F2、0xF9D6-0xF9FE)が追加されました。ただし、「行列輸入法」の特殊符号や
キリル[[文字]]の一部(0xC7F3-0xC875)は収録されませんでした。
香港の公的拡張
香港政府によって制定されたBig5の拡張
文字セットです。Big5に収録されなかった
広東語方言字、固有名詞、科学技術用語、仮名、
漢字の部品などを追加しています。
参考資料
Lunde, Ken 著、小松章、逆井克己 訳『CJKV : 日中韓越情報処理』オライリージャパン、2002年。ISBN 4-87311-108-0。
CMEX財團中文數位化技術推廣基金會(
繁体字中国語)
関連項目
GB 2312(簡体字)
CNS 11643(国家規格)
香港増補字符集
JIS X 0208
KS X 1001
CJK統合[[漢字]]