超幾何分布

超幾何分布（ちょうきかぶんぷ、英: hypergeometric distribution）は、統計学における重要な離散確率分布の一つです。有限個の要素からなる母集団から、要素を一つずつ取り出し、それを元の母集団に戻さない「非復元抽出」を行った場合に、特定の性質を持つ要素がいくつ含まれるかの確率を記述するために用いられます。この分布は、性別や合格・不合格のように、二つの排他的な属性に分類できる有限の集団からの抽出に適しています。

超幾何分布は、抽出した要素を毎回元に戻す「復元抽出」、あるいは無限に近い大きな母集団からの抽出を扱う二項分布と対照的な性質を持ちます。

定義

超幾何分布は、以下のパラメータによって定義されます。

N: 母集団全体の要素数
K: 母集団の中で特定の性質（成功状態）を持つ要素の総数
n: 母集団から非復元抽出する要素の数
k: 抽出された n個の中に含まれる特定の性質を持つ要素の数

このとき、抽出された n個の要素のうち、特定の性質を持つ要素がちょうど k個となる確率 P(X=k) は、以下の確率質量関数によって与えられます。

$$
P(X=k) = f_{X}(k;N,K,n) = \frac{\binom{K}{k} \binom{N-K}{n-k}}{\binom{N}{n}}
$$

ここで、$\binom{a}{b}$ は組み合わせの数を表します。この確率がゼロより大きい値をとるのは、取り出した特定属性の個数kが $ \max\{0, n + K - N\} \le k \le \min\{K, n\} $ の範囲にある場合に限られます。

母集団サイズNが十分に大きい場合、超幾何分布は二項分布に近似します。また、特定属性の割合K/Nが小さく、抽出数nが大きい場合には、ポアソン分布に近似することもあります。

主な性質

超幾何分布に従う確率変数Xの期待値、分散、最頻値は以下の式で与えられます。

期待値（平均）:
$$E(X) = n \cdot \frac{K}{N}$$
これは母集団における特定属性の割合 $ K/N $ に抽出数 n を掛けた値です。

分散:
$$\operatorname{Var}(X) = n \cdot \frac{K}{N} \cdot \frac{N-K}{N} \cdot \frac{N-n}{N-1}$$
非復元抽出による分散は、復元抽出（二項分布）の場合の分散に比べて小さくなります。

最頻値（モード）:
$$ \left\lfloor \frac{(n+1)(K+1)}{N+2} \right\rfloor $$
ここで $ \lfloor x \rfloor $ は床関数を表します。

確率質量関数にはいくつかの対称性も存在します。

$$ f_{X}(k;N,K,n) = f_{X}(k;N,n,K) = f_{X}(n-k;N,N-K,n) = f_{X}(K-k;N,K,N-n) $$

具体的な計算例

例として、赤い玉10個と白い玉20個、合計30個の玉が入った袋から、ランダムに5個の玉を非復元で取り出す状況を考えます。このとき、取り出した5個の中に赤い玉がちょうど1つ含まれている確率を求めてみましょう。N=30, K=10, n=5, k=1 として計算します。

$$
P(X=1) = \frac{\binom{10}{1} \binom{30-10}{5-1}}{\binom{30}{5}} = \frac{10 \times \binom{20}{4}}{\binom{30}{5}} \approx 0.34
$$

赤い玉の個数の期待値は、

$$ E(X) = 5 \times \frac{10}{30} \approx 1.67 $$
となります。

統計的検定への応用：フィッシャーの正確確率検定

超幾何分布は、特にサンプルサイズが小さい場合の二つのカテゴリカル変数の関連性を検定する際に、フィッシャーの正確確率検定に利用されます。この検定は、クロス集計表（四分割表）の周辺度数が固定されているという条件下で、観察された結果やそれよりも極端な結果が得られる正確な確率を計算します。非復元抽出の性質から各試行の確率が一定でないため、二項分布ではなく超幾何分布が用いられます。例えば、ある条件下で特定の事象が4回または5回起こる確率などを、超幾何分布を用いて厳密に計算し、偶然起こる確率が低いかを評価します。

多変量超幾何分布

超幾何分布は、母集団の属性が三つ以上ある場合に多変量超幾何分布として拡張されます。これは、母集団がc個の属性を持ち、属性 i の要素が $ K_i $ 個ある状況で、n個の要素を非復元抽出したときに、各属性の要素が指定された数だけ含まれる同時確率を記述します。これは二項分布と多項分布の関係に似ています。

多変量超幾何分布に従う確率変数 $ (X_1, \dots, X_c) $ の確率質量関数、期待値、分散、共分散は以下の式で与えられます。

確率質量関数:
$$ P(X_1=k_1, \dots, X_c=k_c) = \frac{\prod_{i=1}^{c} \binom{K_i}{k_i}}{\binom{N}{n}} $$

期待値:
$$ E[X_i] = \frac{nK_i}{N} $$

分散:
$$ \operatorname{Var}[X_i] = \frac{(N-n)n(N-K_i)K_i}{(N-1)N^2} $$

* 共分散 (i ≠ j):
$$ \operatorname{Cov}[X_i, X_j] = -\frac{(N-n)nK_iK_j}{(N-1)N^2} $$
異なる属性間の共分散は負になります。

例として、黒5個、白10個、赤15個の合計30個の玉から6個を取り出すとき、各色2個ずつ含まれる確率は多変量超幾何分布で計算でき、約0.0796となります。

幾何分布との名称

超幾何分布と幾何分布は名称が似ていますが、確率分布としては全く異なるものです。名称の類似性は、それぞれの確率関数が生成する数列が、数学的に「超幾何数列」および「幾何数列」と呼ばれることに由来します。

もう一度検索