カルバック・ライブラー情報量
カルバック・ライブラー
情報量(KLダイバージェンス)は、二つの
確率分布の違いを数値的に表現するための測度です。この概念は、ソロモン・カルバックとリチャード・ライブラーによって
1951年に提唱され、
情報理論や
確率論の分野で広く使われています。KL
情報量は、特にある
確率分布Pと別の
確率分布Qの間で情報の失われ具合を測るために使用されることが多いです。
この
情報量は、次のようなさまざまな名前で呼ばれることがあります。たとえば、情報ダイバージェンス、相対エントロピー、あるいは情報利得としても知られています。カルバック・ライブラー
情報量は、数学的な距離の概念とは異なり、距離の公理を満たさないため、厳密には「距離」と呼ぶことは正しくありませんが、2つの
確率分布間の「距離」として使われることが多いです。
定義
カルバック・ライブラー
情報量は、離散分布と連続分布の両方に対して定義されます。まず、離散な場合の定義を見てみましょう。2つの離散
確率分布PとQがあるとき、KL
情報量は次のように定義されます。
$$
D_{KL}(P \,||\, Q) = \sum_{i} P(i) \log \frac{P(i)}{Q(i)}
$$
ここで、P(i)は
確率分布Pの下で
確率変数がiである確率、Q(i)は分布Qの下で同様の確率を示します。次に、連続分布の場合の定義は次のようになります:
$$
D_{KL}(P \,||\, Q) = \int_{-\infty}^{\infty} p(x) \log \frac{p(x)}{q(x)} \,dx
$$
ここで、p(x)とq(x)はそれぞれPとQの
確率密度関数を表します。ここでの対数の底は、通常
ビット単位で情報を測定する場合は2を使用し、ナット単位の場合は
ネイピア数eを使用します。
直感的な意味
カルバック・ライブラー
情報量は、特に統計推定と関連があります。たとえば、最尤推定の場合、KL
情報量を最小化することは、与えられたデータに最も適した分布を見つけることを意味します。データIを得ることによって
確率分布が変化する場合、KL
情報量は、情報の改善がどれほどあったかを示す指標となります。
また、符号化の文脈でもKL
情報量は重要です。
情報量がHである
確率変数Xを符号化する際、平均
ビット数はHに近づきますが、誤った分布Qに基づいて符号化した場合、余分に
ビット数が増加することを反映しています。
性質
カルバック・ライブラー
情報量には、いくつかの特筆すべき性質があります。まず、常に非負の値を取ります。これはギブスの不等式として知られ、関数DKL(P||Q)がゼロとなるのはPとQが同じであるときだけです。さらに、KL
情報量は
対称性を持たず、D_{KL}(P||Q) ≠ D_{KL}(Q||P)が成り立ちます。
他の
情報理論の量との関連も重要です。例えば、自己
情報量や相互
情報量、エントロピーとの関連があり、KL
情報量はこれらの量の基礎に位置することが多いです。カルバック・ライブラー
情報量は、事象の不確かさを評価したり、データから得られる情報の量を測定する際に役立ちます。
結論
カルバック・ライブラー
情報量は、
確率分布における情報の違いを定量化する手段として、
情報理論や統計学で重要な役割を果たしています。分布間の違いを測定するための有効なツールであるため、さまざまな応用においてその利用価値が高まっています。