指数型分布族

指数型分布族とは



指数型分布族は、特定の形式で表現できる確率分布の集合です。これらの分布は、統計学において重要な役割を果たし、特にその代数的特性から、さまざまなモデル構築やデータ解析に活用されます。

歴史



指数型分布族の概念は、1930年代にE.J.G. Pitman、G. Darmois、B.O. Koopmanらによって独立に導入されました。彼らの研究により、統計学における確率分布の理解が大きく進展しました。

定義



指数型分布族に属する確率分布は、その確率密度関数(または確率質量関数)が以下の形式で表現できるものです。

math
f_{X}(x\mid \theta) = h(x) \exp \left[ \eta(\theta) \cdot T(x) - A(\theta) \right]


ここで、各要素は以下のように定義されます。

`f_X(x|θ)`: パラメータ`θ`が与えられたときの確率変数`X`の値`x`に対する確率密度(または確率質量)関数
`h(x)`: `x`のみに依存する関数
`η(θ)`: パラメータ`θ`に依存する関数
`T(x)`: `x`のみに依存する関数(多くの場合、統計量として機能)
`A(θ)`: パラメータ`θ`のみに依存する関数(対数正規化関数)

この形式は、しばしば以下の同等な形式で表現されることもあります。

math
f_{X}(x\mid \theta) = h(x) g(\theta) \exp \left[ \eta(\theta) \cdot T(x) \right]


また、以下の形式でも同等に表現できます。

math
f_{X}(x\mid \theta) = \exp \left[ \eta(\theta) \cdot T(x) - A(\theta) + B(x) \right]


パラメータ



`θ`: 指数型分布族のパラメータです。
`η(θ)`: このパラメータが `η(θ) = θ` となる場合、その指数型分布族は正準型(canonical form)であると言われます。
自然パラメータ: 変換後のパラメータ `η = η(θ)` を用いることで、指数型分布族を正準型に変換でき、この時のパラメータを自然パラメータと呼びます。


多次元パラメータへの拡張



単一の実数パラメータに基づく指数型分布族は、複数の実数パラメータ(ベクトル)に基づく指数型分布族に拡張できます。ベクトルパラメータ`θ`を以下のように定義します。

math
\boldsymbol{\theta} = (\theta_1, \theta_2, ..., \theta_s)^\intercal


このとき、確率密度関数(または確率質量関数)は以下のように表されます。

math
f_{X}(x\mid \boldsymbol{\theta}) = h(x) \exp \left( \sum_{i=1}^{s} \eta_i(\boldsymbol{\theta}) \cdot T_i(x) - A(\boldsymbol{\theta}) \right)


よりコンパクトな形で以下のように表現することもできます。

math
f_{X}(x\mid \boldsymbol{\theta}) = h(x) \exp \left( \boldsymbol{\eta}(\boldsymbol{\theta})^\intercal \boldsymbol{T}(x) - A(\boldsymbol{\theta}) \right)


また、次のように記述されることもあります。

math
f_{X}(x\mid \boldsymbol{\theta}) = h(x)g(\boldsymbol{\theta}) \exp \left( \boldsymbol{\eta}(\boldsymbol{\theta})^\intercal \boldsymbol{T}(x) \right)


ここで、正準型となるための条件は、すべての`i`に対して `ηi(θi) = θi` が成り立つことです。

多次元変数への拡張



単一の確率変数に対する指数型分布族は、複数の確率変数に対しても拡張できます。確率変数ベクトル`x`を以下のように定義します。

math
\mathbf{x} = (x_1, x_2, ..., x_k)


このとき、指数型分布族の確率分布は以下のように記述されます。

math
f_{X}(\mathbf{x} \mid \boldsymbol{\theta}) = h(\mathbf{x}) \exp \left( \sum_{i=1}^{s} \eta_i(\boldsymbol{\theta}) \cdot T_i(\mathbf{x}) - A(\boldsymbol{\theta}) \right)


または、コンパクトな形で以下のように表現されます。

math
f_{X}(\mathbf{x} \mid \boldsymbol{\theta}) = h(\mathbf{x}) \exp \left( \boldsymbol{\eta}(\boldsymbol{\theta})^\intercal \boldsymbol{T}(\mathbf{x}) - A(\boldsymbol{\theta}) \right)


さらに、以下のようにも記述されることがあります。

math
f_{X}(\mathbf{x} \mid \boldsymbol{\theta}) = h(\mathbf{x})g(\boldsymbol{\theta}) \exp \left( \boldsymbol{\eta}(\boldsymbol{\theta})^\intercal \boldsymbol{T}(\mathbf{x}) \right)


指数型分布族の性質



指数型分布族には、統計分析において非常に役立つ多くの性質があります。特に、以下の点が挙げられます。

共役事前分布を持つ:これはベイズ統計において、事後分布の計算を容易にする重要な性質です。
単一パラメータの指数型分布族は、その積に分解できる性質を持ちます。

指数型分布族の例



指数型分布族には、多くの一般的な分布が含まれます。

正規分布 (Normal Distribution)
指数分布 (Exponential Distribution)
対数正規分布 (Log-Normal Distribution)
ガンマ分布 (Gamma Distribution)
カイ二乗分布 (Chi-squared Distribution)
ベータ分布 (Beta Distribution)
ディリクレ分布 (Dirichlet Distribution)
ベルヌーイ分布 (Bernoulli Distribution)
カテゴリカル分布 (Categorical Distribution)
ポアソン分布 (Poisson Distribution)
幾何分布 (Geometric Distribution)
逆ガウス分布 (Inverse Gaussian Distribution)
フォン・ミーゼス分布 (von Mises Distribution)
フォンミーゼス-フィッシャー分布 (von Mises-Fisher Distribution)

具体例


正規分布(既知の分散、未知の平均)

確率密度関数は以下の通りです。

math
f_{\sigma}(x;\mu) = \frac{1}{\sqrt{2\pi \sigma^2}}\exp \left(-\frac{(x-\mu)^2}{2\sigma^2}\right)


この分布は、以下の設定により単一パラメータの指数型分布族であることが示されます。

math
\begin{aligned}
h_{\sigma}(x) &= \frac{1}{\sqrt{2\pi \sigma^2}}\exp \left(-\frac{x^2}{2\sigma^2}\right)\\
T_{\sigma}(x) &= \frac{x}{\sigma}\\
A_{\sigma}(\mu) &= \frac{\mu^2}{2\sigma^2}\\
\eta_{\sigma}(\mu) &= \frac{\mu}{\sigma}
\end{aligned}


分散が `σ^2 = 1` の場合、`η_σ(μ) = μ` となり、正準型となります。

正規分布(未知の平均と分散)

確率密度関数は以下の通りです。

math
f(x;\mu, \sigma) = \frac{1}{\sqrt{2\pi \sigma^2}}\exp \left(-\frac{(x-\mu)^2}{2\sigma^2}\right)


この分布は、以下の設定により指数型分布族であることが示されます。

math
\begin{aligned}
\boldsymbol{\eta} &= \left(\frac{\mu}{\sigma^2}, -\frac{1}{2\sigma^2}\right)^{\rm T}\\
h(x) &= \frac{1}{\sqrt{2\pi}}\\
T(x) &= \left(x, x^2\right)^{\rm T}\\
A(\boldsymbol{\eta}) &= \frac{\mu^2}{2\sigma^2} + \log|\sigma| = -\frac{\eta_1^2}{4\eta_2} + \frac{1}{2}\log \left|\frac{1}{2\eta_2}\right|
\end{aligned}


二項分布(既知の試行回数)

確率質量関数は以下の通りです。

math
f(x) = {n \choose x}p^x(1-p)^{n-x}, \quad x\in\{0,1,2,...,n\}


これは以下のように書き換えることができます。

math
f(x) = {n \choose x}\exp \left(x\log \left(\frac{p}{1-p}\right) + n\log(1-p)\right), \quad x\in\{0,1,2,...,n\}


自然パラメータ `η` は以下のようになります。

math
\eta = \log\frac{p}{1-p}


分布表



以下の表は、主要な分布を指数型分布族の形で表現したものです。

スカラー変数とスカラーパラメータの場合

math
f_{X}(x\mid \theta) = h(x)\exp\left( \eta(\theta)T(x) - A(\eta) \right)


スカラー変数とベクトルパラメータの場合

math
f_{X}(x\mid \boldsymbol{\theta}) = h(x)\exp\left( \boldsymbol{\eta}(\boldsymbol{\theta})^\intercal \boldsymbol{T}(x) - A(\eta) \right)


または

math
f_{X}(x\mid \boldsymbol{\theta}) = h(x)g(\boldsymbol{\theta})\exp\left( \boldsymbol{\eta}(\boldsymbol{\theta})^\intercal \boldsymbol{T}(x) \right)


ベクトル変数とベクトルパラメータの場合

math
f_{X}(\mathbf{x} \mid \boldsymbol{\theta}) = h(\mathbf{x})\exp\left( \boldsymbol{\eta}(\boldsymbol{\theta})^\intercal \boldsymbol{T}(\boldsymbol{x}) - A(\eta) \right)


統計における役割



指数型分布族は、一般化線形モデル(GLM)で用いられる分布関数の基盤を形成しています。GLMは、統計において広く用いられる回帰モデルの多くを包含しており、指数型分布族の概念は、これらのモデルの理論的基盤を理解する上で非常に重要です。

まとめ



指数型分布族は、統計学において中心的な概念の一つであり、多くの一般的な確率分布を統一的に扱うための枠組みを提供します。その代数的特性は、統計モデルの構築や解析を容易にし、ベイズ統計や一般化線形モデルなど、幅広い分野で活用されています。

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。