フィッシャーの正確確率検定
フィッシャーの正確
確率検定は、標本が小さい際における2つのカテゴリーデータの関係を分析するための重要な
統計手法です。この検定法は、特に2×2
分割表において、データの分布が無作為でないかを判断するために使用されます。1770年代に
ロナルド・フィッシャーによって考案され、彼の名前が付けられています。
検定の概要
この検定は、2つのカテゴリー(例えば、
ダイエットしているかしていないか)と2つの集団(例えば、男性と女性)の間に実際に関連があるかどうかを検定する際に利用されます。特に、サンプルサイズが小さく、各セルの
期待値が10未満の場合には、
カイ二乗検定ではなくフィッシャーの検定が適します。これにより、不正確な判断を避けることができます。
2×2分割表の具体例
例えば、男性と女性の集団を「現在
ダイエット中」と「
ダイエット中でない」に分けて、その割合の違いを評価します。以下のような
分割表でデータを整理します:
| ダイエット中 | ダイエット中でない | 合計 |
---|
---- | ---- | --- | ---- |
男性 | a | b | a+b |
女性 | c | d | c+d |
合計 | a+c | b+d | n |
この場合、各セルの値(a, b, c, d)によって検定を行ないます。フィッシャーの正確
確率検定は、特定の数値の組み合わせが得られる
確率を示すために、超幾何分布を用います。
フィッシャーの検定では、次の式を用いて
確率pを計算します:
$$
p = \frac{(a+b)!(c+d)!(a+c)!(b+d)!}{n!a!b!c!d!}
$$
ここで、「!」は
階乗を示します。この式は、
母集団における男と女それぞれの
ダイエット中・非
ダイエット人数の割合が等しいという
帰無仮説のもとで
確率を与えます。
しかし、実際の検定では単一の観測データから得られる数値だけでなく、観測データよりも極端なすべてのケースを考慮する必要があります。具体的には、元のデータを基に異なるケースを考え、その
確率を合計してp値を求めます。前述の例では、p値が0.0014であると仮定します。
検定のタイプ
フィッシャーの検定は、片側検定と両側検定の両方を行うことが可能です。片側検定では、特定の方向に偏ったデータのみを考慮します。一方、両側検定では、両方の方向への
偏りを考慮して検定を行います。しかし、両側検定で得られるp値が片側検定の2倍になるとは限りません。
計算とツール
正確
確率検定の計算は非常に手間がかかる場合が多く、特にサンプルサイズが大きくなると計算が複雑になります。近年では、専用のソフトウェアや
統計パッケージを利用することで、計算の負担を軽減することが可能です。一部のツールでは、1×2および2×2の直接
確率検定も実行できる機能が搭載されています。これにより、時間を節約しつつも、信頼性の高い結果を得ることができます。
フィッシャーの正確
確率検定は、非常に強力かつ実用的なツールであり、特にデータの分布が小さく、
カイ二乗検定が適用できない場合にその効果を発揮します。