単純ベイズ分類器とは？意味をやさしく解説

単純ベイズ分類器について

概要

単純ベイズ分類器は、ベイズの定理を基にした確率的な分類手法であり、独立な特徴を考慮したモデルによって構築されています。この手法は、教師あり学習のフレームワーク内で効率的に訓練できるため、特にデータセットが限られている状況でも非常に有用です。独立性という強い仮定にもかかわらず、実際には多くの応用例において良好なパフォーマンスを示すことが確認されています。

確率モデル

単純ベイズ分類器は、クラス変数 C が複数の特徴変数 F₁, F₂, ..., Fₙ に条件付けられるというモデルを使用しています。この状態で、ベイズの定理を利用して事後確率を求めます:

$$
p(C | F₁, F₂, ..., Fₙ) = \frac{p(C) p(F₁, F₂, ..., Fₙ | C)}{p(F₁, F₂, ..., Fₙ)}
$$

この式の優れた点は、分母がクラスに依存しないため、最も重要なのは分子であることです。このため、特徴群が独立であると仮定することで、各特徴の分布を積分の計算の簡素化が実現します。すなわち、次のように表せます:

$$
p(C, F₁, F₂, ..., Fₙ) = p(C) \prod_{i=1}^{n} p(F_i | C)
$$

パラメータ推定

全てのモデルパラメータ、すなわちクラス事前確率および特徴確率分布は、訓練データから相対頻度を用いて推定されます。特に、特徴のいくつかが出現しない場合には、擬似カウントを利用して確率推定を調整し、ゼロ確率の問題を回避します。

分類器の構築

単純ベイズ分類器は、モデルに基づく決定則を設定することで機能します。最も審理確率が高いクラスを選択する MAP (最大事後確率) 決定則に従います:

$$
classify(f_1, ..., f_n) = argmax_c p(C = c) \prod_{i=1}^{n} p(F_i = f_i | C = c)
$$

文書分類の例

文書分類において、単純ベイズ分類器はメールをスパムか非スパムかに分類する場合によく利用されます。ここで、文書を単語と見なして各単語の出現確率を評価します。この際、文書の長さや文脈に依存しない簡素な仮定が使用されます。

補完単純ベイズ分類器

この手法の拡張として、補完単純ベイズ分類器があり、クラスに属さないデータを使用することで、誤分類を抑え、より良い識別を可能にします。その結果として、データのばらつきを効果的に低減できます。

結論

単純ベイズ分類器は、シンプルさにもかかわらず多くの実際の問題で効果を発揮します。独立性の仮定が一般に誤解を招く可能性があるものの、驚くほどの効率性を誇るこの手法は、特に条件付き格差のない多次元データに対して強力な武器となります。

もう一度検索