交差エントロピーについて
交差エントロピー、またはクロスエントロピーは、
情報理論において、異なる
確率分布間の差異を測定するための指標です。この概念は、特に機械学習や統計学で広く利用されています。交差エントロピーは、
確率分布が、実際の分布ではなく、特定のモデルによって推定された分布に基づいている場合に、どれだけ情報が必要になるかを表現しています。
定義と計算方法
交差エントロピーは、同じ
確率空間における二つの分布$p$と$q$の間で次のように定義されます。
$$
H(p, q) = E_p[- ext{log } q] = H(p) + D_{KL}(p || q)
$$
ここで、$H(p)$は分布$p$のエントロピーであり、$D_{KL}(p || q)$は$p$から$q$への
カルバック・ライブラー情報量(相対エントロピー)です。
二つの分布が離散的な場合、交差エントロピーは以下の式になります:
$$
H(p, q) = - ext{sum}_{x} p(x) ext{log } q(x)
$$
一方、連続的な場合では、次のように表現されます:
$$
H(p, q) = - ext{integral}_X p(x) ext{log } q(x) dx
$$
注意すべきは、$H(p, q)$という記法が交差エントロピーだけでなく、
結合エントロピーにも使われるため、その使用文脈を理解することが重要です。
対数尤度との関係
分類問題において、複数の事象から成るデータの頻度を考えた場合、交差エントロピーは尤度関数とも関連します。特に、$n$個のサンプルからなる訓練データにおいて、事象$i$の頻度が$p_i$であり、推定した確率が$q_i$であるとき、全体の尤度は以下の式で表されます:
$$
ext{likelihood} = ext{prod}_{i} q_i^{N p_i}
$$
この対数尤度をサンプル数$N$で割ることで、最終的に以下の結果が得られます:
$$rac{1}{N} log ext{prod}_{i} q_i^{N p_i} = -H(p, q)
$$
ここから、尤度を最大化することが、交差エントロピーを最小化することと同じであることがわかります。
交差エントロピー最小化
交差エントロピーを最小化する技術は、
最適化問題や希少事象の予測等に利用されます。具体的には、混合分布の推定や、機械学習モデルの学習において、
確率分布$q$を参照分布$p$に合わせるために使われます。この際、$p = q$のときに交差エントロピーは最小となり、
カルバック・ライブラー情報量は0になります。
交差エントロピー誤差
機械学習、特に分類問題では、交差エントロピー誤差が損失関数として用いられます。例えば、
ロジスティック回帰モデルでは、入力に対する出力の確率を
シグモイド関数で表現します。
交差エントロピー誤差は、真のクラスラベルに対してモデルが出した予測確率とのズレを計測します。
ロジスティック回帰では、次のように表現されます。
$$
H(p, q) = - ext{sum}_{i}^{ ext{{0, 1}}} p_i ext{log } q_i
$$
このため、ロジスティック損失とも呼ばれる交差エントロピー損失は、モデルの性能を評価し改善するための重要な手法となります。
関連項目
交差エントロピーという概念は、データ分析や機械学習分野での成功において欠かせない要素であり、理解を深めることで、より効果的なモデルの構築と評価が可能になるでしょう。