二項分布は、確率論および統計学において用いられる基本的な離散
確率分布の一つです。これは、各試行の結果が「成功」または「失敗」の二者択一であり、かつ各試行が互いに独立であるようなn回の繰り返し試行(これをベルヌーイ試行と呼びます)を行った際に、成功となる回数が従う
確率分布を記述します。具体的には、1回の試行で成功する確率が一定値 p であるとき、合計n回の試行で成功がちょうど k 回(ただし、kは0以上n以下の整数)発生する確率を示します。二項分布は、試行回数 n(自然数)と成功確率 p(0 ≤ p ≤ 1 の実数)という二つのパラメータによって完全に特徴づけられます。
二項分布がどのように応用されるかの具体例として、ある感染症の全住民における罹患率が5%であるとします。このとき、全住民の中から無作為に500人を抽出した際に、その集団に含まれる罹患者の数の分布は二項分布によって考えることができます。ここでは、一人一人が感染しているかどうかがベルヌーイ試行に相当し、感染確率 p=0.05、試行回数 n=500となります。このとき、「抽出した500人の中に罹患者が30人以上含まれる確率はどれくらいか?」といった問いは、二項分布を用いて計算することが可能です。直感的には、母集団の罹患率に近い人数、すなわち500人の5%である25人前後の罹患者が含まれる確率が最も高いと考えられますが、特定の人数(例えば30人)が含まれる厳密な確率や、特定の範囲(例えば30人以上)に含まれる累積確率を求めるには、二項分布の理論が必要となります。
二項分布に従う
確率変数 X が k という値をとる確率、すなわち
確率質量関数 $P(X=k)$ は、以下の数式で定義されます。
$$P(X=k) = {\binom{n}{k}} p^k (1-p)^{n-k}$$
この式において、$k$ は成功した回数を表し、$0 \le k \le n$ の整数値をとります。${\binom{n}{k}}$ は
二項係数と呼ばれ、$n$個の中から重複なく$k$個を選ぶ組み合わせの数を示し、$\frac{n!}{k!(n-k)!}$ と計算されます。$p^k$ は k 回成功する確率、$(1-p)^{n-k}$ は n-k 回失敗する確率を表します。したがって、上記の式は「k回成功し、n-k回失敗する特定の順序での確率」に「そのような順序が可能な全てのパターン数(組み合わせの数)」を掛け合わせることで、合計n回の試行でちょうどk回成功する確率を求めていると解釈できます。この式に含まれる
二項係数が「二項分布」という名前の由来となっています。
確率質量関数の値は、kが0からnまでの全ての整数値に対して合計すると1になります。
特に、試行回数 n が 1 の場合、すなわち1回のベルヌーイ試行における成功回数の分布は、
ベルヌーイ分布と呼ばれます。
ベルヌーイ分布は、パラメータ n=1 の二項分布 B(1, p) と見なすことができます。
二項分布 B(n, p) に従う
確率変数 X の代表的な統計量として、
期待値(
平均)と分散があります。
期待値 $E[X]$ は、試行回数と成功確率の積として単純に得られます。
$$E[X] = np$$
これは、n回の試行で
平均していくつの成功が見込まれるかを示します。
分散 $V[X]$ は、npに失敗する確率 $(1-p)$ を掛けた値となります。
$$V[X] = np(1-p)$$
分散は、成功回数が
平均値からどれだけばらつくかの度合いを示します。
また、二項分布は「再生性」という性質を持っています。これは、同じ成功確率 p を持つ独立な二項分布に従う二つの
確率変数 X(B(n, p))と Y(B(m, p))があるとき、それらの和 X+Y もまた二項分布に従い、そのパラメータが B(n+m, p) となるという性質です。
特定の条件下では、二項分布の計算をより扱いやすい他の
確率分布で
近似することが行われます。
- - 正規分布による近似: 試行回数 n が十分に大きく、かつ期待値 $np$ および分散 $np(1-p)$ の値も比較的大きい場合(目安として5以上)、二項分布は平均 $np$、分散 $np(1-p)$ の正規分布 $N(np, np(1-p))$ によって良い近似が得られます。この重要な結果は、数学者アブラーム・ド・モアブルによって発見され、ド・モアブル=ラプラスの極限定理として知られています。これは中心極限定理の特別な場合に相当します。この近似は、特に大規模な標本調査における割合に関する統計的推測で広く利用され、正規分布表などを用いることで確率の計算を効率的に行うことが可能になります。
- - ポアソン分布による近似: 試行回数 n が非常に大きい一方で、成功確率 p が非常に小さい場合、二項分布 B(n, p) は、期待値 $\lambda = np$ をパラメータとするポアソン分布によって近似することができます。この近似はポアソンの極限定理と呼ばれ、稀にしか発生しない事象の発生回数(例えば、ある期間に特定の種類の事故が発生する回数など)をモデル化する際に利用されます。
二項分布は、統計的仮説検定においても重要な役割を果たします。特に、ある観察された結果が、特定の成功確率を持つ二項分布から生じる可能性が統計的に見てどれだけ低いかを評価する手法は、
二項検定として知られています。