分散 (確率論)

分散(Variance)



分散とは、統計学においてデータの散らばり具合を示す指標の一つです。特に、分散は母集団の特性を表すための重要な概念であり、データが平均からどれほど広がっているかを定量的に示します。分散は標準偏差の二乗であるため、分散と標準偏差は密接な関係にあります。計算上は分散の方が単純であるため、実務での利用が多いです。

分散の定義



データセットを x1, x2, …, xn とし、その平均値を x̄ とした場合、分散 s² は次のように定義されます。

\[ s^{2} = \frac{1}{n} \sum_{i=1}^{n}(x_{i} - \overline{x})^{2} \]

この式からも見えるように、分散はデータの各値と平均値との差の二乗の平均であることがわかります。すなわち、分散が 0 であれば、全てのデータが同じ値であることを示しています。

確率変数の分散



確率変数 X の分散 V[X] はその期待値 E[X] を用いて次のように表現されます。

\[ V[X] = E[(X - E[X])^{2}] \]

これにより、確率変数の散らばり具合を定量的に理解することが可能です。また、分散は確率変数の 2 次の中心化モーメントとも定義されます。

使い方



統計学においては、記述統計学で用いる標本分散や推計統計学で利用する不偏分散といった形で、分散はデータ分析の中で広く用いられています。特に、標本分散は以下のように定義されます。

\[ s^{2} = \frac{1}{n-1} \sum_{i=1}^{n}(x_{i} - \overline{x})^{2} \]

これは、不偏分散(母分散の推定値)と呼ばれ、標本の平均母集団平均に一致する際の誤差を低減するための調整がされています。

性質



分散にはいくつかの重要な性質があります。これらの性質は、データ分析を行う際に役立つ指標となります。以下に主な性質をまとめます。
1. 非負性: V[X] ≥ 0 であり、分散は常にゼロ以上です。
2. 不変性: V[X + b] = V[X] です。これは、データの位置を移動しても散らばり具合は変わらないことを示します。
3. 斉次性: V[aX] = a²V[X] となります。スケールを変更した際に分散がどう変化するかを示しています。
4. 加法性: 独立した確率変数の和の分散は、その分散の合計に等しいです。

統計における分散の重要性



分散は、さまざまな確率分布において微細な分析を行う際に重要です。例えば、一様分布正規分布、二項分布、ポアソン分布などに対する分散の計算は、データの性質を理解する手助けになります。各分布における分散の式は以下の通りです。

結論



分散はデータの散らばりを示す強力な指標です。様々な分布において分散を用いた分析を行うことで、データの特性を深く理解することが可能になります。また、分散を利用することで、期待値との関係性も視覚化でき、データの理解をより明確にします。これにより、統計的なInferenceや推測を行う際に役立つ情報を提供します。

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。