二項分類とは
二項分類(Binary classification)とは、オブジェクトの集まりを、特定の属性を所持しているか否かに基づき、二つのカテゴリーに分ける作業です。この手法は、二値分類や2クラス分類とも呼ばれ、クラス数が2の場合の多クラス分類の一形態と見ることもできます。
一般的な利用分野
二項分類は、様々な分野で広く利用されています。具体的には、次のような例があります。
1.
医療検査: 患者が決まった病気に罹っているかどうかを判断する際の分類。
2.
工場における品質管理: 生産された製品が市場に出せる品質か、廃棄すべきかを決定する際の分類。
3.
情報検索: 特定のページや記事を検索結果に表示するかどうかの判断。
このように、二項分類は、
統計学及び計算機科学の分野で重要な役割を果たし、特に機械学習の分野では自動分類システムの研究が進められています。代表的な二項分類器としては、決定木、
ベイジアンネットワーク、
サポートベクターマシン、
ニューラルネットワークなどが挙げられます。
分類の難易度
単純な分類問題もあれば、複雑な状況もあります。例えば、青いボールと赤いボールを区別する場合、色覚が正常な人なら容易に判断できます。しかし、臨床検査などの場合は、判断が難しく、エラーを起こすリスクがあります。これは、自動化された分類システムの研究において特に価値のある課題です。
仮説検定は、二項分類の理解に関連する重要な手法です。一般的に、検定者は帰無仮説と対立仮説を設定し、実験を通じて帰無仮説を
棄却するべきか判断します。帰無仮説が真であるのに誤って
棄却することを「偽陽性」とし、逆に帰無仮説が偽であるのに
棄却しない場合を「偽陰性」と呼称します。
二項分類器の評価
十分な性能評価は、臨床検査や品質管理の場面で重要です。そのため、感度や特異度の概念がよく使われます。
- - 感度: 実際に陽性である対象のうち、正確に陽性判定された割合。
- - 特異度: 実際に陰性である対象のうち、正確に陰性判定された割合。
これらの指標を用いることで、分類器の性能や信頼性を評価することができます。竜オプとチーク特性曲線を用いることで、その評価結果を視覚的に表現することも可能です。
予測値の理解
二項分類の評価には、陽性予測値と陰性予測値も用いられます。
- - 陽性予測値: 検査結果が陽性であったときに、実際に病気に罹患している確率。
- - 陰性予測値: 検査結果が陰性だったときに、実際に健康である確率。
これらの値は、感度や特異度とは異なり、対象集団に依存します。たとえば、特定の検査において99%の感度と特異度を持つ場合、実際の患者数により予測値は大きく変動することがあります。
結論
二項分類は、多くの分野でのデータ分析において重要な手法です。医療、品質管理、情報技術など、さまざまな状況でその技術を活用し、効率的な判断を行うための基盤となっています。