コルモゴロフ–スミルノフ検定について
コルモゴロフ–スミルノフ検定(KS検定)は、
統計学において広く利用されている
仮説検定の方法です。この手法は、2つの異なる
母集団の
確率分布が異なるかどうか、または特定の
帰無仮説に基づいて示された分布と実際のデータの間に差があるかを評価するために使用されます。
検定の種類
KS検定には主に1
標本と2
標本の2種類があります。
- - 1標本KS検定:これは、得られた経験分布を帰無仮説に基づいて提案された累積分布関数と比較します。主に正規分布と一様分布の適合度を検証するために使われます。正規分布に関連する検定では、リリフォースによる改良が提案されていますが、一般的にはシャピロ-ウィルク検定やアンダーソン-ダーリング検定の方が強力とされています。
- - 2標本KS検定:2組の標本を比較するための手法で、これはノンパラメトリックなアプローチとして非常に有効です。KS検定は、データの経験分布に基づき、標本の位置や形状に依存して結果を導き出します。
n個の
標本が与えられた場合、その経験分布Fnは次のように定義されます。
$$F_n(x) = \frac{\#\{1 \leq i \leq n \mid y_i \leq x\}}{n}$$
ここで、F(x)は
帰無仮説で示される分布または他の経験分布を示します。KS検定で求める片側
統計量は以下の通りです。
- - $$D_n^{+} = sup_x (F_n(x) - F(x))$$
- - $$D_n^{-} = sup_x (F(x) - F_n(x))$$
帰無仮説が
棄却されない場合、この
統計量は連続分布に基づく形状に依存しない特性を持ちます。多くの研究者は、これらの2つの
統計量から得られる最大値として以下の
統計量を使用することもあります。
- - $$D_n = sup_x |F_n(x) - F(x)| = max(D_n^{+}, D_n^{-})$$
この
統計量の取り扱いは難易度が高い場合がありますが、それでも多くの分析で用いられています。
1
標本KS検定では、
標本サイズnが大きいときに、経験分布Fn(x)が
帰無仮説にしたがうと仮定し、検定量の分布を次の式で示します。
$$Prob(\sqrt{n}D_n \leq x) = 1 - 2 \sum_{i=1}^{\infty} (-1)^{i-1} e^{-2i^2 x^2}$$
有意水準をαとした場合、もし$$\sqrt{n}D_n > K_{\alpha}$$となると、
帰無仮説が
棄却され、実際の分布が
帰無仮説の示す分布とは異なることが示唆されます。このK_{\alpha}は
有意確率を表し、様々な検定における判断基準となります。
その他の検定
周期性を持つデータにおいては、コルモゴロフ-スミルノフ検定よりも
カイパー検定が適切とされる場合があります。特に、データ分析において裾の部分に依存する特性についても留意が必要です。コルモゴロフ-スミルノフ検定は中央値付近に強く依存するため、他の検定と比較した際には注意が必要です。アンダーソン-ダーリング検定は、裾や中央値付近において同じ感度を持つため、選択肢の一つとして考えられます。
参考文献
- - William H. Press他『ニューメリカルレシピ・イン・シー日本語版―C言語による数値計算のレシピ』(技術評論社)
- - Durbin, J. 『Distribution theory for tests based on the sample distribution function』(1973)
KS検定は、データ解析において重要なツールであり、
母集団の特性を理解するために使用される基本的な手法の一つです。