判別分析について
判別分析(はんべつぶんせき、英: discriminant analysis)は、事前に収集したデータを用いて新しいデータがどのグループに属するかを判別する手法です。この手法は、特に多変量正規分布を前提としており、主に線形判別分析(LDA)、二次判別分析(QDA)、および混合判別分析(MDA)の3つの手法に分類されます。この分野における重要な発展は、1936年にロナルド・フィッシャーによって提唱された線形判別分析です。その後、1996年には、Trevor HastieとRobert Tibshiraniが混合判別分析を発表しました。
判別関数の種類
判別分析で用いられる関数は大きく分けて以下の3種類です。
- - 線形判別関数: データポイントを直線または超平面で分割する方法です。この方法はすべてのグループにおける分散が等しいという前提条件を必要とします。
- - 二次判別関数: データを二次関数の曲線(楕円など)で分割します。この手法では分散の等しさを要求しないため、異なる共分散を持つデータセットにも適用できます。
- - 非線形判別関数: より複雑なデータ構造に対応するため、曲線や超曲面を用いた判別関数です。
判別分析の前提条件
特に線形判別分析を行う上での重要な前提条件は以下の通りです。
1. 各グループが多変量正規分布に従っていること。
2. すべてのグループが同じ
共分散行列をもち、等分散性が成り立っていること。
これらの条件が守られない場合、得られる結果は信頼性が低くなり得るため注意が必要です。もし分散が異なる場合、二次判別分析を用いることで各グループに異なる
共分散行列を設定し、適切にマハラノビス距離を計算することが可能です。
判別関数の計算方法
線形判別関数の数学的表現は以下のようになります。ここでは、データ点x、
平均μ、
共分散行列Σを用います。
$$
egin{align
}
(x - rac{ ext{μ}_{ ext{first}} + ext{μ}_{ ext{second}}}{2})^T ext{Σ}^{-1} ( ext{μ}_{ ext{first}} - ext{μ}_{ ext{second}})
ext{に基づいて、判別得点が正の場合、データは第一群、負の場合は第二群に属すると判別されます。}
egin{align}
$$
この手法では、係数を求めるために、各クラスのサンプルから
共分散行列を算出し、それを基に判別関数を構築します。様々なアルゴリズムを用いて判別関数は最適化されることが一般的です。
他の判別分析手法
二次判別分析
二次判別分析では、グループの
平均に対して回転や軸方向のスケーリングを行い、
共分散行列を均一に整えた上で線形判別分析を適用します。このアプローチにより、グループ間の関係性をより正確に把握できます。
混合判別分析
混合判別分析は、単一の正規分布を使用するのではなく、複数の正規分布を混合したモデルを採用します。この手法により非常に複雑なデータ分布に対応可能で、その際も共通の
共分散行列を使用します。混合正規分布のパラメータは、EMアルゴリズムなどの手法を用いて推定されます。
終わりに
判別分析は、特に医療やバイオロジー、マーケティング等の分野で幅広く利用されており、データ分析の根底を形成する極めて重要な手法と言えます。これらの分析手法を適切に用いることで、しっかりとした根拠に基づく意思決定が可能になります。