微分エントロピーとは？意味をやさしく解説

微分エントロピー（Differential Entropy）

微分エントロピー（または連続エントロピー）は、情報理論において、連続的な確率分布に対する情報量の概念を拡張したものです。これは、確率変数が持つ平均的な自己情報量を測る尺度であるシャノン情報量を、連続型の確率分布に適用しようとしたクロード・シャノンの試みに端を発します。

情報量の概念を連続量に拡張するものとして、limiting density of discrete points (LDDP)がありますが、微分エントロピーはLDDPの特別な場合であり、離散的な情報量が持ついくつかの基本的な性質を失っている点に注意が必要です。

定義

確率変数 `X` が確率密度関数 `f` を持ち、その定義域が `X` であるとき、微分エントロピー `h(X)` または `h(f)` は次のように定義されます。

h(X) = h(f) = -∫f(x)log(f(x))dx

ここで積分範囲は確率変数`X`の定義域全体です。

また、明示的な確率密度関数を持たないが、明示的な分位点関数 `Q(p)` を持つ確率変数に対しては、微分エントロピー `h(Q)` を `Q(p)` の微分として定義することができます。つまり、分位点密度関数 `Q'(p)` により、

h(Q) = ∫[0,1] log(Q'(p))dp

と定義されます。

微分エントロピーの単位は、離散型の場合と同様に対数の底に依存します（通常は底を2とし、単位は[ビット]]とします）。対数の底による違いについては、[logarithmic units を参照してください。

また、結合微分エントロピーや条件付き微分エントロピー、相対微分エントロピーも同様に定義されます。

微分エントロピーの注意点

離散的な場合とは異なり、微分エントロピーの値は確率変数 `X` の計測単位に依存して変化します。例えば、ある量をミリメートルで測定したときの微分エントロピーは、同じ量をメートルで測定したときよりも `log(1000)` だけ大きな値になります。これは、無次元量の微分エントロピーが、その1/1000を計量の基本単位としたときの微分エントロピーよりも `log(1000)` だけ大きいことを意味します。

また、確率密度関数は1を超える値を取りうるため、離散的なエントロピーの性質を微分エントロピーに適用する際には注意が必要です。例えば、一様分布 `U(0, 1/2)` は負の微分エントロピーを持ちます。

相互情報量

一方、相互情報量 `I(X;Y)` は、連続量に対しても2つの情報の依存度を測る尺度として重要です。これは、離散的な `X` と `Y` にそれぞれ「分割」を施し、その分割幅を限りなく細かくしたときの極限に相当します。

相互情報量 `I(X;Y)` は、`X` と `Y` を線形または非線形な位相同型で変換しても不変です。これにより、空間的に連続的な値を許容する伝送状況下での2つの情報量の関係を表現できます。

離散的なエントロピーの性質を微分エントロピーに拡張する試みについては、limiting density of discrete points を参照してください。

微分エントロピーの性質

確率密度関数 `f` と `g` に対し、カルバック・ライブラー情報量 `D_KL(f||g)` は0以上であり、0になるのはほとんどすべての場所で `f = g` のとき、かつその時に限ります。

同様に、2つの確率変数 `X` と `Y` に対して、`I(X;Y) ≥ 0` かつ `h(X|Y) ≤ h(X)` が成り立ち、等号が成立するのは `X` と `Y` が独立な場合、かつその時に限ります。

連鎖律

離散型の場合と同様に、以下の連鎖律が成り立ちます。

h(X1, ..., Xn) = ∑[i=1,n] h(Xi|X1, ..., Xi-1) ≤ ∑[i=1,n] h(Xi)

平行移動不変性

微分エントロピーは平行移動に対して不変です。つまり、任意の定数 `c` に対して、

h(X+c) = h(X)

が成り立ちます。

変数変換

一般に、可逆な写像の下で不変ではありません。特に、定数 `a` に対しては、

h(aX) = h(X) + log|a|

が成り立ちます。

ベクトル値確率変数 `X` と可逆な正方行列 `A` に対しては、

h(AX) = h(X) + log(|det A|)

が成り立ちます。

一般に、ベクトル値確率変数から同じ次元のベクトル値確率変数への変換 `Y = m(X)` があるとき、対応するエントロピーは

h(Y) ≤ h(X) + ∫f(x)log(|∂m/∂x|)dx

を満たします。ここで、`|∂m/∂x|` は変換`m`のヤコビ行列式です。

この不等式は、変換が全単射のときに等式になります。

さらに、`m` が回転、平行移動、またはそれらの合成である場合、ヤコビ行列式の値は常に1であり、`h(Y) = h(X)` となります。

確率変数ベクトル `X ∈ R^n` の平均が0で分散共分散行列が `K` のとき、

h(X) ≤ 1/2 log(det(2πeK)) = 1/2 log((2πe)^n det K)

が成り立ち、等号が成立するのは `X` が多変量正規分布に従うとき、かつその時に限ります。

微分エントロピーの限界

しかし、微分エントロピーには以下のような欠点があります。

- 変数変換に対して不変ではないため、変量が無次元の場合に最も有用です。
- 負の値を取り得ます。

これらの欠点に対応するために、微分エントロピーを修正したものが relative information entropy であり、これは不変測度因子を含んでいます。limiting density of discrete points を参照してください。

正規分布のときに最大になること

平均 `μ`, 分散 `σ^2` が固定されたとき、微分エントロピーが最大になるのは分布が正規分布のときです。これは、カルバック・ライブラー情報量を用いることで証明できます。

例：指数分布

確率変数 `X` がパラメータ `λ` の指数分布に従うとき、その微分エントロピーは `h(X) = 1 - log(λ)` で表されます。

推定誤差との関係

微分エントロピーは、推定量の平均二乗誤差に対する下限を与えます。任意の連続型確率変数 `X` とその推定統計量 `X^` に対して、

E[(X - X^)^2] ≥ 1/(2πe) e^(2h(X))

が成り立ちます。等号が成立するのは、`X` が正規分布に従い、`X^` が `X` の平均であるとき、かつその時に限ります。

様々な分布の微分エントロピー

分布	微分エントロピー
--------	-----------------------
一様分布 U(a, b)	`log(b - a)`
正規分布 N(μ, σ^2)	`1/2 log(2πeσ^2)`
指数分布 Exp(λ)	`1 - log(λ)`
ラプラス分布 Lap(μ, b)	`1 + log(2b)`
ガンマ分布 Γ(k, θ)	`k + log(θ) + log(Γ(k)) + (1 - k)ψ(k)`
ベータ分布 Beta(α, β)	`log(B(α, β)) - (α - 1)ψ(α) - (β - 1)ψ(β) + (α + β - 2)ψ(α + β)`

ここで、`Γ(x)` はガンマ関数、`ψ(x)` はディガンマ関数、`B(p,q)` はベータ関数、`γ_E` はオイラーの定数です。

これらの多くについては、脚注を参照してください。

脚注

PlanetMath.orgでの解説も参照してください。

外部リンク

Hazewinkel, Michiel, ed. (2001), “Differential entropy”, Encyclopedia of Mathematics, Springer, ISBN 978-1-55608-010-4
Differential entropy - PlanetMath.org（英語）

もう一度検索

微分エントロピー