共分散の概要
共分散(きょうぶんさん、英: covariance)とは、同じサイズの2つのデータセット間で、
平均からの
偏差の積を算出した
平均値です。この指標は、2つの確率変数 X と Y の間における関係性を明らかにします。
定義
共分散は次のように定義されます。数学的には、以下のような
期待値(E)を用いた式で表されます。
1.
第一の定義
$$Cov[X, Y] = E[(X - E[X])(Y - E[Y])]$$
2.
第二の定義
$$Cov[X, Y] = E[XY] - E[X]E[Y]$$
ここで、$Cov[X, Y]$ は X と Y の共分散を表し、$E[X]$ および $E[Y]$ はそれぞれ X と Y の
期待値を表しています。共分散は時として $ ext{σ}_{XY}$ または $ ext{σ}(X, Y)$ としても知られています。
具体例
たとえば、中学生の数学と国語のテストの点数を考えた場合、個別の生徒についてその
偏差の積の
平均を計算することで、2科目間の共分散を求めることができます。もし数学の
平均点が高い生徒が国語も高得点を取っていれば、その共分散は大きくなるでしょう。一方、逆の関係が成立する場合は共分 covarianceが負の値となります。共分散が 0 の場合、2つの変数間には特別な関連性はないと考えられます。この関連性は、一般に直線的な関係(1次関数)を前提としています。
共分散の解釈
共分散は、元のデータのスケールによってその値が決まるため、異なる単位の変数同士を比較する際には注意が必要です。たとえば、ある町の人口とラーメン店の売上の共分散を計算しても、その結果が意味するものがわかりにくいことがあります。そこで、関連性を評価する際には、一般的に
ピアソンの積率相関係数が用いられます。これは、共分散の値を各数値の標準
偏差の積で割ることで得られ、-1 から 1 の範囲で表されます。
因果関係との区別
共分散や相関係数が因果関係を示すものではありません。共分散自体はあくまで、2つの測定値がどの程度連動しているかを示す指標に過ぎません。因果関係を知るためには、より複雑な分析や関連する時間の要素を考慮する必要があります。
統計の解釈には注意が必要であり、「
統計のウソ」と呼ばれる現象も存在します。数理経済学者の佐和隆光は、データを理解するためには十分な知識が不可欠であると述べています。
参考文献
- - 西岡康夫『数学チュートリアル やさしく語る 確率統計』オーム社、2013年。
- - 佐和隆光『初等統計解析 改訂版』新曜社、1985年。
関連項目