カルバック・ライブラー情報量とは？意味をやさしく解説

カルバック・ライブラー情報量

カルバック・ライブラー情報量（KLダイバージェンス）は、二つの確率分布の違いを数値的に表現するための測度です。この概念は、ソロモン・カルバックとリチャード・ライブラーによって1951年に提唱され、情報理論や確率論の分野で広く使われています。KL情報量は、特にある確率分布Pと別の確率分布Qの間で情報の失われ具合を測るために使用されることが多いです。

この情報量は、次のようなさまざまな名前で呼ばれることがあります。たとえば、情報ダイバージェンス、相対エントロピー、あるいは情報利得としても知られています。カルバック・ライブラー情報量は、数学的な距離の概念とは異なり、距離の公理を満たさないため、厳密には「距離」と呼ぶことは正しくありませんが、2つの確率分布間の「距離」として使われることが多いです。

定義

カルバック・ライブラー情報量は、離散分布と連続分布の両方に対して定義されます。まず、離散な場合の定義を見てみましょう。2つの離散確率分布PとQがあるとき、KL情報量は次のように定義されます。

$$
D_{KL}(P \,||\, Q) = \sum_{i} P(i) \log \frac{P(i)}{Q(i)}
$$

ここで、P(i)は確率分布Pの下で確率変数がiである確率、Q(i)は分布Qの下で同様の確率を示します。次に、連続分布の場合の定義は次のようになります：

$$
D_{KL}(P \,||\, Q) = \int_{-\infty}^{\infty} p(x) \log \frac{p(x)}{q(x)} \,dx
$$

ここで、p(x)とq(x)はそれぞれPとQの確率密度関数を表します。ここでの対数の底は、通常ビット単位で情報を測定する場合は2を使用し、ナット単位の場合はネイピア数eを使用します。

直感的な意味

カルバック・ライブラー情報量は、特に統計推定と関連があります。たとえば、最尤推定の場合、KL情報量を最小化することは、与えられたデータに最も適した分布を見つけることを意味します。データIを得ることによって確率分布が変化する場合、KL情報量は、情報の改善がどれほどあったかを示す指標となります。

また、符号化の文脈でもKL情報量は重要です。情報量がHである確率変数Xを符号化する際、平均ビット数はHに近づきますが、誤った分布Qに基づいて符号化した場合、余分にビット数が増加することを反映しています。

性質

カルバック・ライブラー情報量には、いくつかの特筆すべき性質があります。まず、常に非負の値を取ります。これはギブスの不等式として知られ、関数DKL(P||Q)がゼロとなるのはPとQが同じであるときだけです。さらに、KL情報量は対称性を持たず、D_{KL}(P||Q) ≠ D_{KL}(Q||P)が成り立ちます。

情報理論との関連

他の情報理論の量との関連も重要です。例えば、自己情報量や相互情報量、エントロピーとの関連があり、KL情報量はこれらの量の基礎に位置することが多いです。カルバック・ライブラー情報量は、事象の不確かさを評価したり、データから得られる情報の量を測定する際に役立ちます。

結論

カルバック・ライブラー情報量は、確率分布における情報の違いを定量化する手段として、情報理論や統計学で重要な役割を果たしています。分布間の違いを測定するための有効なツールであるため、さまざまな応用においてその利用価値が高まっています。

もう一度検索