指数型分布族とは
指数型分布族は、特定の形式で表現できる
確率分布の集合です。これらの分布は、統計学において重要な役割を果たし、特にその代数的特性から、さまざまなモデル構築やデータ解析に活用されます。
歴史
指数型分布族の概念は、1930年代にE.J.G. Pitman、G. Darmois、B.O. Koopmanらによって独立に導入されました。彼らの研究により、統計学における
確率分布の理解が大きく進展しました。
定義
指数型分布族に属する
確率分布は、その
確率密度関数(または
確率質量関数)が以下の形式で表現できるものです。
math
f_{X}(x\mid \theta) = h(x) \exp \left[ \eta(\theta) \cdot T(x) - A(\theta) \right]
ここで、各要素は以下のように定義されます。
`f_X(x|θ)`: パラメータ`θ`が与えられたときの確率変数`X`の値`x`に対する確率密度(または確率質量)関数
`h(x)`: `x`のみに依存する関数
`η(θ)`: パラメータ`θ`に依存する関数
`T(x)`: `x`のみに依存する関数(多くの場合、統計量として機能)
`A(θ)`: パラメータ`θ`のみに依存する関数(対数正規化関数)
この形式は、しばしば以下の同等な形式で表現されることもあります。
math
f_{X}(x\mid \theta) = h(x) g(\theta) \exp \left[ \eta(\theta) \cdot T(x) \right]
また、以下の形式でも同等に表現できます。
math
f_{X}(x\mid \theta) = \exp \left[ \eta(\theta) \cdot T(x) - A(\theta) + B(x) \right]
パラメータ
`θ`: 指数型分布族のパラメータです。
`η(θ)`: このパラメータが `η(θ) = θ` となる場合、その指数型分布族は正準型(canonical form)であると言われます。
自然パラメータ: 変換後のパラメータ `η = η(θ)` を用いることで、指数型分布族を正準型に変換でき、この時のパラメータを自然パラメータと呼びます。
多次元パラメータへの拡張
単一の実数パラメータに基づく指数型分布族は、複数の実数パラメータ(ベクトル)に基づく指数型分布族に拡張できます。ベクトルパラメータ`θ`を以下のように定義します。
math
\boldsymbol{\theta} = (\theta_1, \theta_2, ..., \theta_s)^\intercal
このとき、
確率密度関数(または
確率質量関数)は以下のように表されます。
math
f_{X}(x\mid \boldsymbol{\theta}) = h(x) \exp \left( \sum_{i=1}^{s} \eta_i(\boldsymbol{\theta}) \cdot T_i(x) - A(\boldsymbol{\theta}) \right)
よりコンパクトな形で以下のように表現することもできます。
math
f_{X}(x\mid \boldsymbol{\theta}) = h(x) \exp \left( \boldsymbol{\eta}(\boldsymbol{\theta})^\intercal \boldsymbol{T}(x) - A(\boldsymbol{\theta}) \right)
また、次のように記述されることもあります。
math
f_{X}(x\mid \boldsymbol{\theta}) = h(x)g(\boldsymbol{\theta}) \exp \left( \boldsymbol{\eta}(\boldsymbol{\theta})^\intercal \boldsymbol{T}(x) \right)
ここで、正準型となるための条件は、すべての`i`に対して `ηi(θi) = θi` が成り立つことです。
多次元変数への拡張
単一の確率変数に対する指数型分布族は、複数の確率変数に対しても拡張できます。確率変数ベクトル`x`を以下のように定義します。
math
\mathbf{x} = (x_1, x_2, ..., x_k)
このとき、指数型分布族の
確率分布は以下のように記述されます。
math
f_{X}(\mathbf{x} \mid \boldsymbol{\theta}) = h(\mathbf{x}) \exp \left( \sum_{i=1}^{s} \eta_i(\boldsymbol{\theta}) \cdot T_i(\mathbf{x}) - A(\boldsymbol{\theta}) \right)
または、コンパクトな形で以下のように表現されます。
math
f_{X}(\mathbf{x} \mid \boldsymbol{\theta}) = h(\mathbf{x}) \exp \left( \boldsymbol{\eta}(\boldsymbol{\theta})^\intercal \boldsymbol{T}(\mathbf{x}) - A(\boldsymbol{\theta}) \right)
さらに、以下のようにも記述されることがあります。
math
f_{X}(\mathbf{x} \mid \boldsymbol{\theta}) = h(\mathbf{x})g(\boldsymbol{\theta}) \exp \left( \boldsymbol{\eta}(\boldsymbol{\theta})^\intercal \boldsymbol{T}(\mathbf{x}) \right)
指数型分布族の性質
指数型分布族には、統計分析において非常に役立つ多くの性質があります。特に、以下の点が挙げられます。
共役事前分布を持つ:これはベイズ統計において、事後分布の計算を容易にする重要な性質です。
単一パラメータの指数型分布族は、その積に分解できる性質を持ちます。
指数型分布族の例
指数型分布族には、多くの一般的な分布が含まれます。
正規分布 (Normal Distribution)
指数分布 (Exponential Distribution)
対数
正規分布 (Log-Normal Distribution)
ガンマ分布 (Gamma Distribution)
カイ二乗分布 (Chi-squared Distribution)
ベータ分布 (Beta Distribution)
ディリクレ分布 (Dirichlet Distribution)
ベルヌーイ分布 (Bernoulli Distribution)
カテゴリカル分布 (Categorical Distribution)
ポアソン分布 (Poisson Distribution)
幾何分布 (Geometric Distribution)
逆ガウス分布 (Inverse Gaussian Distribution)
フォン・ミーゼス分布 (von Mises Distribution)
フォンミーゼス-フィッシャー分布 (von Mises-Fisher Distribution)
具体例
正規分布(既知の分散、未知の平均)
確率密度関数は以下の通りです。
math
f_{\sigma}(x;\mu) = \frac{1}{\sqrt{2\pi \sigma^2}}\exp \left(-\frac{(x-\mu)^2}{2\sigma^2}\right)
この分布は、以下の設定により単一パラメータの指数型分布族であることが示されます。
math
\begin{aligned}
h_{\sigma}(x) &= \frac{1}{\sqrt{2\pi \sigma^2}}\exp \left(-\frac{x^2}{2\sigma^2}\right)\\
T_{\sigma}(x) &= \frac{x}{\sigma}\\
A_{\sigma}(\mu) &= \frac{\mu^2}{2\sigma^2}\\
\eta_{\sigma}(\mu) &= \frac{\mu}{\sigma}
\end{aligned}
分散が `σ^2 = 1` の場合、`η_σ(μ) = μ` となり、正準型となります。
正規分布(未知の平均と分散)
確率密度関数は以下の通りです。
math
f(x;\mu, \sigma) = \frac{1}{\sqrt{2\pi \sigma^2}}\exp \left(-\frac{(x-\mu)^2}{2\sigma^2}\right)
この分布は、以下の設定により指数型分布族であることが示されます。
math
\begin{aligned}
\boldsymbol{\eta} &= \left(\frac{\mu}{\sigma^2}, -\frac{1}{2\sigma^2}\right)^{\rm T}\\
h(x) &= \frac{1}{\sqrt{2\pi}}\\
T(x) &= \left(x, x^2\right)^{\rm T}\\
A(\boldsymbol{\eta}) &= \frac{\mu^2}{2\sigma^2} + \log|\sigma| = -\frac{\eta_1^2}{4\eta_2} + \frac{1}{2}\log \left|\frac{1}{2\eta_2}\right|
\end{aligned}
二項分布(既知の試行回数)
確率質量関数は以下の通りです。
math
f(x) = {n \choose x}p^x(1-p)^{n-x}, \quad x\in\{0,1,2,...,n\}
これは以下のように書き換えることができます。
math
f(x) = {n \choose x}\exp \left(x\log \left(\frac{p}{1-p}\right) + n\log(1-p)\right), \quad x\in\{0,1,2,...,n\}
自然パラメータ `η` は以下のようになります。
math
\eta = \log\frac{p}{1-p}
分布表
以下の表は、主要な分布を指数型分布族の形で表現したものです。
スカラー変数とスカラーパラメータの場合
math
f_{X}(x\mid \theta) = h(x)\exp\left( \eta(\theta)T(x) - A(\eta) \right)
スカラー変数とベクトルパラメータの場合
math
f_{X}(x\mid \boldsymbol{\theta}) = h(x)\exp\left( \boldsymbol{\eta}(\boldsymbol{\theta})^\intercal \boldsymbol{T}(x) - A(\eta) \right)
または
math
f_{X}(x\mid \boldsymbol{\theta}) = h(x)g(\boldsymbol{\theta})\exp\left( \boldsymbol{\eta}(\boldsymbol{\theta})^\intercal \boldsymbol{T}(x) \right)
ベクトル変数とベクトルパラメータの場合
math
f_{X}(\mathbf{x} \mid \boldsymbol{\theta}) = h(\mathbf{x})\exp\left( \boldsymbol{\eta}(\boldsymbol{\theta})^\intercal \boldsymbol{T}(\boldsymbol{x}) - A(\eta) \right)
統計における役割
指数型分布族は、
一般化線形モデル(GLM)で用いられる分布関数の基盤を形成しています。GLMは、統計において広く用いられる回帰モデルの多くを包含しており、指数型分布族の概念は、これらのモデルの理論的基盤を理解する上で非常に重要です。
まとめ
指数型分布族は、統計学において中心的な概念の一つであり、多くの一般的な
確率分布を統一的に扱うための枠組みを提供します。その代数的特性は、統計モデルの構築や解析を容易にし、ベイズ統計や
一般化線形モデルなど、幅広い分野で活用されています。