カイ二乗分布とは
カイ二乗分布(χ²分布)は、
推計統計学で非常に重要な役割を果たす
確率分布の一つです。この分布は、標準
正規分布に従う複数の
確率変数の二乗和によって定義されます。具体的には、k個の独立な標準
正規分布に従う
確率変数X₁, X₂, ..., Xₖがあるとき、これらの二乗和
math
Z = \sum_{i=1}^{k} X_i^2
が従う分布を、
自由度kのカイ二乗分布と呼びます。
カイ二乗分布の表記
一般的に、
自由度kのカイ二乗分布は以下のように表記されます。
math
Z \sim \chi_k^2
ここで、kは正の
整数であり、
確率変数の
自由度に相当します。場合によっては、非
整数の
自由度を持つカイ二乗分布も用いられます。
カイ二乗分布とガンマ分布
カイ二乗分布は、ガンマ分布の特殊なケースと見なすことができます。この関係性は、カイ二乗分布の理解を深める上で重要です。
カイ二乗分布の応用
カイ二乗分布は、
カイ二乗検定をはじめとする多くの統計的検定で利用されます。これらの検定は、データの適合度や独立性を評価するために用いられます。例えば、フリードマン検定でもカイ二乗分布が活用されています。
カイ二乗分布の性質
カイ二乗分布の
確率密度関数は、x ≥ 0 の範囲で以下のように定義されます。
math
f(x;k) = \frac{1}{2^{k/2}\Gamma(k/2)}x^{k/2-1}e^{-x/2}
ここで、Γはガンマ関数を表します。x ≤ 0 の範囲では、f(x;k) = 0 となります。
分布関数
カイ二乗分布の分布関数は、以下のように定義されます。
math
F(x;k) = \frac{\gamma(k/2,x/2)}{\Gamma(k/2)}
ここで、γ(k, z)は不完全ガンマ関数を表します。
F分布との関係
カイ二乗分布に従う独立な
確率変数X₁とX₂に対して、
math
Y = \frac{X_1/
u_1}{X_2/
u_2}
で定義される
確率変数Yは、F分布に従います。ここで、ν₁とν₂はそれぞれのカイ二乗分布の
自由度を表します。
指数分布との関係
自由度が2のカイ二乗分布は、
期待値が2の指数分布と等しくなります。
自由度kのカイ二乗分布に従う
確率変数の
期待値はk、分散は2kです。
中央値
カイ二乗分布の中央値は、以下の近似式で求められます。
math
k - \frac{2}{3} + \frac{4}{27k} - \frac{8}{729k^2}
再生性
カイ二乗分布は再生性を持ちます。つまり、Xが
自由度mのカイ二乗分布に、Yが
自由度nのカイ二乗分布に従う場合、X+Yは
自由度m+nのカイ二乗分布に従います。
カイ二乗分布は、
自由度が大きくなるにつれて
正規分布に近づきます。しかし、その収束は比較的遅いため、以下の近似方法がよく用いられます。
フィッシャーの近似
math
\sqrt{2X}
は、近似的に平均√2k - 1、分散1の
正規分布に従います。
ウィルソンとヒルファティの近似
math
\sqrt[3]{\frac{X}{k}}
は、近似的に平均1 - 2/9k、分散2/9kの
正規分布に従います。
これらの近似法は、カイ二乗分布の計算や理解を助ける上で重要です。
まとめ
カイ二乗分布は、統計学において非常に重要な
確率分布であり、多くの検定や分析で用いられます。その性質や他の分布との関係、
正規分布による近似などを理解することで、統計学的な推論をより正確に行うことができるようになります。この分布は、データ分析や研究において、欠かせないツールの一つと言えるでしょう。