分散(Variance)
分散とは、
統計学においてデータの散らばり具合を示す
指標の一つです。特に、分散は
母集団の特性を表すための重要な概念であり、データが
平均からどれほど広がっているかを定量的に示します。分散は標準
偏差の二乗であるため、分散と標準
偏差は密接な関係にあります。計算上は分散の方が単純であるため、実務での利用が多いです。
データセットを x1, x2, …, xn とし、その
平均値を x̄ とした場合、分散 s² は次のように
定義されます。
\[ s^{2} = \frac{1}{n} \sum_{i=1}^{n}(x_{i} - \overline{x})^{2} \]
この式からも見えるように、分散はデータの各値と
平均値との差の二乗の
平均であることがわかります。すなわち、分散が 0 であれば、全てのデータが同じ値であることを示しています。
確率変数 X の分散 V[X] はその
期待値 E[X] を用いて次のように表現されます。
\[ V[X] = E[(X - E[X])^{2}] \]
これにより、
確率変数の散らばり具合を定量的に理解することが可能です。また、分散は
確率変数の 2 次の中心化モーメントとも
定義されます。
使い方
統計学においては、記述
統計学で用いる標本分散や
推計統計学で利用する不偏分散といった形で、分散はデータ分析の中で広く用いられています。特に、標本分散は以下のように
定義されます。
\[ s^{2} = \frac{1}{n-1} \sum_{i=1}^{n}(x_{i} - \overline{x})^{2} \]
これは、不偏分散(母分散の推定値)と呼ばれ、標本の
平均が
母集団の
平均に一致する際の
誤差を低減するための調整がされています。
性質
分散にはいくつかの重要な性質があります。これらの性質は、データ分析を行う際に役立つ
指標となります。以下に主な性質をまとめます。
1.
非負性: V[X] ≥ 0 であり、分散は常にゼロ以上です。
2.
不変性: V[X + b] = V[X] です。これは、データの位置を移動しても散らばり具合は変わらないことを示します。
3.
斉次性: V[aX] = a²V[X] となります。スケールを変更した際に分散がどう変化するかを示しています。
4.
加法性: 独立した
確率変数の和の分散は、その分散の合計に等しいです。
統計における分散の重要性
分散は、さまざまな
確率分布において微細な分析を行う際に重要です。例えば、
一様分布や
正規分布、二項分布、
ポアソン分布などに対する分散の計算は、データの性質を理解する手助けになります。各分布における分散の式は以下の通りです。
- - 一様分布 U(a, b): V[X] = (b - a)² / 12
- - 正規分布 N(μ, σ²): V[X] = σ²
- - 二項分布 B(n, p): V[X] = np(1 - p)
- - ポアソン分布 Po(λ): V[X] = λ
結論
分散はデータの散らばりを示す強力な
指標です。様々な分布において分散を用いた分析を行うことで、データの特性を深く理解することが可能になります。また、分散を利用することで、
期待値との関係性も視覚化でき、データの理解をより明確にします。これにより、
統計的なInferenceや推測を行う際に役立つ情報を提供します。