コルモゴロフ–スミルノフ検定とは？意味をやさしく解説

コルモゴロフ–スミルノフ検定について

コルモゴロフ–スミルノフ検定（KS検定）は、統計学において広く利用されている仮説検定の方法です。この手法は、2つの異なる母集団の確率分布が異なるかどうか、または特定の帰無仮説に基づいて示された分布と実際のデータの間に差があるかを評価するために使用されます。

検定の種類

KS検定には主に1標本と2標本の2種類があります。

- 1標本KS検定：これは、得られた経験分布を帰無仮説に基づいて提案された累積分布関数と比較します。主に正規分布と一様分布の適合度を検証するために使われます。正規分布に関連する検定では、リリフォースによる改良が提案されていますが、一般的にはシャピロ-ウィルク検定やアンダーソン-ダーリング検定の方が強力とされています。

- 2標本KS検定：2組の標本を比較するための手法で、これはノンパラメトリックなアプローチとして非常に有効です。KS検定は、データの経験分布に基づき、標本の位置や形状に依存して結果を導き出します。

検定統計量

n個の標本が与えられた場合、その経験分布Fnは次のように定義されます。

$$F_n(x) = \frac{\#\{1 \leq i \leq n \mid y_i \leq x\}}{n}$$

ここで、F(x)は帰無仮説で示される分布または他の経験分布を示します。KS検定で求める片側統計量は以下の通りです。

- $$D_n^{+} = sup_x (F_n(x) - F(x))$$
- $$D_n^{-} = sup_x (F(x) - F_n(x))$$

帰無仮説が棄却されない場合、この統計量は連続分布に基づく形状に依存しない特性を持ちます。多くの研究者は、これらの2つの統計量から得られる最大値として以下の統計量を使用することもあります。

- $$D_n = sup_x |F_n(x) - F(x)| = max(D_n^{+}, D_n^{-})$$

この統計量の取り扱いは難易度が高い場合がありますが、それでも多くの分析で用いられています。

有意確率

1標本KS検定では、標本サイズnが大きいときに、経験分布Fn(x)が帰無仮説にしたがうと仮定し、検定量の分布を次の式で示します。

$$Prob(\sqrt{n}D_n \leq x) = 1 - 2 \sum_{i=1}^{\infty} (-1)^{i-1} e^{-2i^2 x^2}$$

有意水準をαとした場合、もし$$\sqrt{n}D_n > K_{\alpha}$$となると、帰無仮説が棄却され、実際の分布が帰無仮説の示す分布とは異なることが示唆されます。このK_{\alpha}は有意確率を表し、様々な検定における判断基準となります。

その他の検定

周期性を持つデータにおいては、コルモゴロフ-スミルノフ検定よりもカイパー検定が適切とされる場合があります。特に、データ分析において裾の部分に依存する特性についても留意が必要です。コルモゴロフ-スミルノフ検定は中央値付近に強く依存するため、他の検定と比較した際には注意が必要です。アンダーソン-ダーリング検定は、裾や中央値付近において同じ感度を持つため、選択肢の一つとして考えられます。

参考文献

- William H. Press他『ニューメリカルレシピ・イン・シー日本語版―C言語による数値計算のレシピ』（技術評論社）
- Durbin, J. 『Distribution theory for tests based on the sample distribution function』（1973）

KS検定は、データ解析において重要なツールであり、母集団の特性を理解するために使用される基本的な手法の一つです。

もう一度検索