ディリクレ分布(Dirichlet distribution)
概要
ディリクレ分布は、統計学における重要な
連続型確率分布の一つです。これは、
二項分布に対応するベータ分布を、多項分布に対応するように
多次元に拡張したものです。そのため、多変量ベータ分布とも呼ばれます。
この分布は、K種類の
互いに排反な事象(例えば、サイコロの各目の出方や、文書における各単語の出現など)について、それぞれの
発生確率が従う確率分布を表現するために用いられます。
直感的には、ディリクレ分布は「K個の事象が発生する確率の組み合わせ」そのものに対して確率を与えるものです。もし、それぞれの事象が観測データとして十分に多く出現していれば、その相対頻度は真の確率に近づくでしょう。しかし、観測回数が限られている場合、実際の頻度は真の確率からずれる可能性があります。ディリクレ分布は、この「真の確率」がどのように分布しうるか、あるいは観測データが与えられた下で「真の確率」がどのような値を取りやすいか、をモデル化することができます。
定義と性質
ディリクレ分布は、パラメータとして
K次元のベクトル `α = (α₁, ..., αK)` を持ちます。ここで、各要素 `α_i` は
正の実数である必要があります (`α_i > 0`)。
この分布の
確率変数は、
K次元のベクトル `x = (x₁, ..., xK)` です。この確率変数 `x` は特別な制約を満たさなければなりません。具体的には、各要素 `x_i` は
非負であり (`x_i ≥ 0`)、かつ、それらの
合計がちょうど1になる必要があります (`∑ x_i = 1`)。
このような制約を満たすK次元のベクトル `x` が存在する空間は、幾何学的には
K-1次元単体((K-1)-simplex)と呼ばれます。ディリクレ分布の
確率密度関数は、このK-1次元単体上で定義されます。
K-1次元ディリフレ分布の
確率密度関数 P(x; α) は、以下の形で表されます。
P(x; α) ∝ ∏_{i=1}^{K} xᵢ^(αᵢ⁻¹)
ここで、`∝` は比例を表します。この式は、確率密度が各要素 `x_i` の `(α_i - 1)` 乗の積に比例することを示しています。正確な
確率密度関数を得るためには、全体を正規化定数で割る必要があります。この正規化定数は、パラメータ `α` を用いた
多変量ベータ関数 B(α) と呼ばれる特別な関数によって与えられます。
多変量ベータ関数 B(α) は、ガンマ関数 Γ を用いて以下のように定義されます。
B(α) = [∏_{i=1}^{K} Γ(αᵢ)] / Γ(∑_{i=1}^{K} αᵢ)
したがって、ディリクレ分布の
確率密度関数は正確には次のようになります。
P(x; α) = [1 / B(α)] ∏_{i=1}^{K} xᵢ^(αᵢ⁻¹)
この分布に従う確率変数 `x` の各要素 `x_i` の
期待値は、パラメータ `α` の合計 `∑ α_j` に対する `α_i` の比として与えられます。つまり、 E[xᵢ] = αᵢ / (∑_{j=1}^{K} αⱼ) です。
定義域(台)について
ディリフレ分布の
確率密度関数が
正の値を取る領域、すなわち「台(support)」は、K-1次元単体の中で、さらに
各要素 `x_i` が厳密に0より大きい領域 `(0, 1)`^K かつ `∑ x_i = 1` となります。これは、K個の事象の
発生確率ベクトルそのものが分布の対象となっていることを意味します。
特殊な場合
ディリクレ分布にはいくつかの興味深い特殊なケースがあります。
対称ディリクレ分布: パラメータベクトル `α` の全ての要素が
同じ値 `α₀` である場合、これを
対称ディリフレ分布と呼びます。このとき、全ての事象 `i` に対して `α_i = α₀` となります。
確率密度関数はパラメータが単一の値 `α₀` に依存する形になります。
一様分布: 特に、対称ディリフレ分布においてパラメータの値 `α₀` が
1である場合 (`α₀ = 1`)、ディリクレ分布はK-1次元単体上の
一様分布となります。これは、全ての確率ベクトルの組み合わせが等しい確率密度を持つことを意味します。
応用と関連
ディリクレ分布は、特にベイズ統計学において重要な役割を果たします。例えば、多項分布に従うデータのパラメータ(各カテゴリの発生確率)に対する
共役事前分布として広く利用されています。これは、多項分布による観測データが得られたときに、ディリフレ分布のパラメータを更新する(事後分布を計算する)プロセスが数学的に非常に扱いやすいためです。
また、自然言語処理におけるトピックモデル(例:LDA (Latent Dirichlet Allocation))など、様々な分野で潜在的な確率構造をモデル化するために活用されています。ディリフレ分布は、より複雑な確率過程であるディリフレ過程の基盤でもあります。
ベータ分布はK=2の場合のディリフレ分布と等価であり、二つの事象(成功・失敗など)の確率の分布を表します。
ディリフレ分布は、複数のカテゴリの相対的な比率や確率がどのようにばらつくかを表現する強力なツールであり、多様な統計モデリングに応用されています。