負の
二項分布(ふのにこうぶんぷ、英: negative binomial distribution)は、確率論や統計学において重要な役割を果たす離散的な
確率分布です。これは、独立して行われる一連の試行それぞれが、一定の確率 p で「成功」または確率 1-p で「失敗」という二つの結果のみをもたらす「
ベルヌーイ試行」に関連しています。
この分布は、特定の成功回数 r を達成するまで試行を繰り返す場合に、その過程で発生する失敗の回数 k がどのような確率で起こるかを表すものです。しばしば混同される
二項分布が「試行回数が固定されている中で成功が何回起こるか」を記述するのに対し、負の
二項分布は「成功回数が固定されている中で試行が何回(または失敗が何回)必要か」という問いに答える分布と言えます。
例えば、コイントスで考えてみましょう。コインを5回投げたときに表が出る回数は
二項分布に従いますが、表が5回出るまでコインを投げ続けたときに裏が出る回数は、負の
二項分布に従う例です。
複数の意味
負の
二項分布という用語は、文脈によっていくつかの異なる定義を指すことがあります。主なものは以下の通りです。
- - 統計的に独立なベルヌーイ試行を繰り返し行う中で、r回目の成功を得るまでに生じた失敗の回数 k の分布。
- - r回目の成功を得るまでに要した総試行回数(成功と失敗の合計、すなわち k + r)の分布。
- - さらに数学的な拡張として、成功回数 r を必ずしも正の整数に限定せず、正の実数とした場合の定義。
本記事では、最も一般的に用いられる最初の定義、すなわち「r回目の成功までに失敗した試行回数」に焦点を当てて解説します。
パラメータ
この分布は、2つの重要なパラメータによって特徴づけられます。
- - r: 目的とする成功の回数を表す定数です。通常は正の整数(1, 2, 3, ...)を取りますが、より広範な数学的文脈では正の実数値をとる場合もあります。
- - p: 各独立な試行における成功確率です。0から1までの実数(0 < p < 1)です。
特に r = 1 の場合、これは幾何分布として知られる分布と一致します。幾何分布は「初めて成功するまでに必要な失敗回数」または「初めて成功するまでに必要な総試行回数」の分布を表します。
性質
ここでは、「r回目の成功までに失敗した試行回数 k」の分布としての負の
二項分布の性質について述べます。
r回目の成功までにちょうど k回の失敗が発生する確率は、
確率質量関数 $f(k; r, p)$ によって与えられます。ここで $k$ は非負の整数 ($0, 1, 2, ...$) です。
$$
f(k; r, p) = \binom{k+r-1}{k} p^r (1-p)^k
$$
この式は、最初の $k+r-1$ 回の試行で $r-1$ 回成功し、$k$ 回失敗し、かつ $(k+r)$ 回目の試行で $r$ 回目の成功が起こる確率を計算したものです。$\binom{k+r-1}{k}$ は、最初の $k+r-1$ 回の試行の中で $k$ 回の失敗(または $r-1$ 回の成功)が起こる組み合わせの数を表します。
r回目の成功までに発生する失敗の回数が k回以下である確率は、
累積分布関数 $F(k; r, p)$ によって計算されます。これは、総試行回数が $k+r$ 回以下である中で、成功回数が少なくとも r回である確率と等価であり、
二項分布の
累積分布関数を用いて表現することも可能です。
$$
F(k; r, p) = I_p(r, k+1)
$$
ここで $I_p(a, b)$ は正規化された不完全ベータ関数です。これは、
二項分布 $B(n, p)$ の
累積分布関数 $P(X \leq k)$ が $I_{1-p}(n-k, k+1)$ または $I_p(k+1, n-k)$ と関連することを利用しています。
この分布の平均値(
期待値)$E[X]$ は、以下の式で与えられます。
$$
E[X] = \frac{r(1-p)}{p}
$$
これは、成功確率 p の試行で r 回成功するために、平均していくらの失敗が予想されるかを示します。
分散
この分布のばらつき(分散)$Var[X]$ は、以下の式で与えられます。
$$
Var[X] = \frac{r(1-p)}{p^2}
$$
期待値と同様に、成功回数 r が増えるか、または成功確率 p が小さくなるにつれて、失敗回数のばらつきも大きくなる傾向があります。
関連項目