多項分布(たこうぶんぷ)
概要
多項分布は、
確率論および統計学における重要な離散
確率分布の一つです。これは、基本的な
確率分布である
二項分布を一般化したものと位置づけられます。
二項分布が「成功」と「失敗」という二種類の結果のみを扱うのに対し、多項分布は
三つ以上の有限個のカテゴリ(k種類)の結果を扱います。
具体的には、一回の試行で $k$ 個の互いに排他的な結果 $E_1, E_2, \dots, E_k$ のいずれかが得られる確率が、それぞれ $p_1, p_2, \dots, p_k$ として固定されている状況を考えます。これらの確率はすべて非負であり、合計すると必ず1になります($\sum_{i=1}^k p_i = 1, p_i \geq 0$)。このような独立した試行を全部で $n$ 回繰り返すとき、それぞれの結果 $E_i$ が何回ずつ出現するか、すなわち各カテゴリの出現回数の組み合わせ $(x_1, x_2, \dots, x_k)$ が従う
確率分布が多項分布です。ここで $x_i$ はカテゴリ $E_i$ の出現回数を表し、これらの合計は試行回数 $n$ と等しくなります($\sum_{i=1}^k x_i = n$)。確率変数ベクトル $X = (X_1, \dots, X_k)$ は、パラメータ $n$ および確率ベクトル $p = (p_1, \dots, p_k)$ を持つ多項分布に従うといいます。
多項分布において、特定の回数の組み合わせ $(x_1, x_2, \dots, x_k)$(ただし $x_i$ は非負
整数で $\sum_{i=1}^k x_i = n$)が得られる確率は、
確率質量関数によって与えられます。
$$
P(X_1=x_1, \dots, X_k=x_k) = \dfrac{n!}{x_{1}!\cdots x_{k}!}p_{1}^{x_{1}}\cdots p_{k}^{x_{k}}
$$
この式は、特定の回数の組み合わせが起こる全ての可能な順序の数(多項係数 $\dfrac{n!}{x_{1}!\cdots x_{k}!}$)と、特定の順序でその組み合わせが起こる確率($p_{1}^{x_{1}}\cdots p_{k}^{x_{k}}$)の積として解釈できます。合計回数がnにならない組み合わせの確率はゼロです。
属性
多項分布に従う確率変数ベクトル $X=(X_1, \dots, X_k)$ の主な統計的性質は以下の通りです。
期待値: 各カテゴリ $E_i$ の出現回数 $X_i$ の平均値は、試行回数 $n$ とそのカテゴリの出現確率 $p_i$ の積で与えられます。
$$ \operatorname{E}[X_i] = np_i $$
分散: 各カテゴリ $E_i$ の出現回数 $X_i$ のばらつきの度合いは以下の式で計算されます。
$$ \operatorname{var}[X_i] = np_i(1-p_i) $$
これは、パラメータ $n$ と $p_i$ を持つ
二項分布の分散の式と同じ形です。
共分散: 異なるカテゴリ $E_i$ と $E_j$ ($i
eq j$) の出現回数 $X_i$ と $X_j$ の間の関連性を示す
共分散は負の値をとります。
$$ \operatorname{cov}[X_i, X_j] = -np_i p_j $$
これは、合計回数が $n$ で固定されているため、あるカテゴリの出現回数が増えると、他のカテゴリの出現回数が全体として減る傾向があることを意味します。
相関:
共分散に関連する相関係数は以下の通りです。
$$ \rho [X_i, X_j] = -{\sqrt {\frac {p_{i}p_{j}}{(1-p_{i})(1-p_{j})}}} $$
この式には試行回数 $n$ は含まれません。
重要な性質として、多項分布に従う確率変数ベクトル $(X_1, \dots, X_k)$ の
個々の要素 $X_i$ は、試行回数 $n$ と確率 $p_i$ をパラメータとする二項分布に従います。これは、カテゴリ $E_i$ を「成功」、それ以外の全てを「失敗」と見なせば、全体として二項試行の繰り返しになることから理解できます。
サポート
多項分布において、確率がゼロでない回数の組み合わせ $(x_1, \dots, x_k)$ の集合(サポート)は、以下のようになります。
$$ \{(x_1, \dots, x_k) \mid x_i \in \{0, 1, 2, \dots\} \text{ for all } i, \text{ and } \sum_{i=1}^k x_i = n \} $$
この集合に含まれる要素の総数は、 $n$ 個の要素を $k$ 個のカテゴリに分ける場合の数、すなわち重複組合せの考え方を用いて $\binom{n+k-1}{k-1}$ と表されます。
関連する分布と応用
多項分布は、カテゴリ数 $k=2$ の場合に
二項分布となります。
二項分布は多項分布の特別なケースです。
また、ベイズ統計学において、多項分布のパラメータである確率ベクトル $(p_1, \dots, p_k)$ に対する
共役事前分布は
ディリクレ分布です。これにより、ベイズ推論における事後確率の計算が扱いやすくなります。
多項分布は、サイコロ投げの各目の頻度、投票結果の各候補者の得票数、顧客アンケートにおける複数選択肢への回答分布など、様々な離散的なカテゴリに分類される事象の回数分布をモデル化するために広く利用されています。