カイ二乗検定とは？意味をやさしく解説

カイ二乗検定の概要

カイ二乗検定（Chi-squared test）は、観測データが期待される分布に従っているかを判断するための統計的手法です。特に、帰無仮説が正しいと仮定した場合、検定統計量が漸近的にカイ二乗分布に従うことを利用します。主に次のような種類があります。

- ピアソンのカイ二乗検定：最も広く用いられ、観察されたデータの頻度が指定された頻度分布に従うかを検定。
- 一部の尤度比検定：標本サイズが大きい場合、カイ二乗検定として近似。
- イェイツのカイ二乗検定やマンテル・ヘンツェルのカイ二乗検定など。

検定統計量の計算

カイ二乗検定では、以下の式で計算されるカイ二乗統計量「χ²」を用います。

$$
χ² = rac{(O - E)²}{E}
$$

ここで、Oは観測値、Eは期待値（理論的な頻度）を指します。この検定統計量を基に、帰無仮説の検定を行います。日本工業規格では、カイ二乗検定を「検定統計量が帰無仮説の下でχ²分布に従うことを仮定する統計的検定」と定義しています。

ピアソンのカイ二乗検定

適合度検定

この検定は、観測された度数分布が理論分布に適合するかを確認するために使用されます。たとえば、100人の標本において、性別が均等であるという仮説を評価する場合、実際に観測された男女の人数を期待人数と比較します。

独立性検定

2つのカテゴリ変数が独立しているかを検定します。たとえば、異なる地域の住民が特定の候補者を支持する頻度が異なるかを調査する場面で利用されます。この際、独立性を確かめるために、2×2の分割表を用いることが一般的です。

自由度と有意性

カイ二乗検定では、自由度が重要な要素です。自由度は一般的に、観察値の数と期待値の数の差に基づいて計算されます。カイ二乗分布の特性を利用し、得られたカイ二乗統計量を用いて、帰無仮説を棄却するかどうかを判断します。使用する有意水準（α）に応じて、検定結果が異なるため、注意が必要です。

サンプルサイズの影響

カイ二乗検定が適切に機能するためには、期待度数が条件「np ≥ 10」を満たすことが要求されます。この条件が満たされない場合、カイ二乗分布を計算するのが難しいため、代わりに別の検定手法を使用することが推奨されます。たとえば、サンプルサイズが小さい場合は、尤度比検定やフィッシャーの正確確率検定を使うほうが適切です。

まとめ

カイ二乗検定は、観察データが期待された分布にどの程度適合するか、また2つの変数が独立しているかを検証するための強力なツールです。これにより、様々な科学的研究やデータ分析の場面で有用なインサイトを得ることができます。

もう一度検索