エントロピーレートとは？意味をやさしく解説

確率過程のエントロピーレートとは

確率過程のエントロピーレート（または情報源レート）は、確率過程が持つ情報量の時間平均を示す指標です。これは、確率過程の複雑さや予測不可能性を測る上で重要な概念となります。

エントロピーレートの定義

可算の時間添字を持つ確率過程 \( X \) のエントロピーレート \( H(X) \) は、以下の式で定義されます。

\begin{equation}
H(X) = \lim_{n \to \infty} \frac{1}{n} H(X_1, X_2, \dots, X_n)
\end{equation}

ここで、\( H(X_1, X_2, \dots, X_n) \) は、\( n \) ステップまでの確率変数の結合エントロピーを表します。
つまり、\( n \) ステップまでの情報量の平均を取り、 \( n \) を無限大に近づけた時の極限値がエントロピーレートとなります。

また、関連する量として以下のものも定義できます。

\begin{equation}
H'(X) = \lim_{n \to \infty} H(X_n | X_{n-1}, X_{n-2}, \dots, X_1)
\end{equation}

これは、過去の全ての確率変数が与えられた上での、次の確率変数の条件付きエントロピーの極限を表しています。

強定常過程とエントロピーレート

確率過程が強定常過程である場合、\( H(X) = H'(X) \) が成り立ちます。これは、強定常過程では過去の情報に依存せず、常に一定の情報量が生成されることを意味します。

エントロピーレートの応用

エントロピーレートは、確率過程の一般的な性質を捉えることができ、漸近等分割性と呼ばれる性質と深く関連しています。また、以下の様な幅広い分野で応用されています。

複雑性の推定: 確率過程の複雑さを定量的に評価することができます。
言語の特性分析: 言語の複雑さやパターンを特徴付けるために利用されます。
ブラインド信号源分離: 混合された信号から元の信号を分離する際に、エントロピーレートが活用されます。
データ圧縮: 情報源の冗長性を除去し、効率的なデータ圧縮を可能にするための基準となります。
特徴選択: 機械学習において、最適な特徴を選択するための基準としてエントロピーレート最大化基準が利用されます。

マルコフ連鎖のエントロピーレート

既約で非周期的、かつ正の再帰確率を持つマルコフ連鎖によって定義される確率過程は、極限分布を持ち、そのエントロピーレートは初期分布に依存しません。

マルコフ連鎖 \( Y_k \) が可算状態と確率行列 \( P_{ij} \) によって定義される場合、そのエントロピーレート \( H(Y) \) は以下の式で与えられます。

\begin{equation}
H(Y) = - \sum_{ij} \mu_i P_{ij} \log P_{ij}
\end{equation}

ここで、\( \mu_i \) はマルコフ連鎖の定常分布を表します。

独立同分布 確率変数列のエントロピーレート

独立同分布の確率変数列からなる確率過程のエントロピーレートは、各ステップの確率分布のエントロピーと一致します。これは、各確率変数が独立であり、情報が重複しないため、個々の情報量の平均が全体の平均となることを意味します。

まとめ

確率過程のエントロピーレートは、情報理論において重要な概念であり、確率過程の複雑さ、情報量、予測可能性を理解する上で不可欠です。その応用範囲は広く、情報科学、機械学習、信号処理など多岐にわたります。

参考文献

Cover, T. and Thomas, J. (1991) Elements of Information Theory, John Wiley and Sons, Inc.

もう一度検索