相関係数について
相関係数(そうかんけいすう)は、2つ以上のデータや
確率変数の関係の強さを測るための指標です。通常、
相関係数といえば
ピアソンの積率[[相関係数]]を指し、これは
確率変数が正規分布に従うことを前提としている方法です。しかし、
偏差の正規分布を仮定しない方法として、
スピアマンの順位[[相関係数]]や
ケンドールの順位[[相関係数]]といったノンパラメトリックな手法も一般的に使用されています。
日本産業規格(JIS)では、
相関を「二つの
確率変数の分布法則の関係」と定義しており、多くの場合、線形な関係の程度を指します。
相関係数の一覧
相関係数には、さまざまな種類が存在します。以下はその一部です:
相関と因果の混同
相関係数についての重要なポイントは、
相関と因果関係を混同しないことです。例として、
ピアソンの積率[[相関係数]]は、あくまで線形な関係の有無を示すだけであり、因果関係を明らかにするものではありません。
相関係数は順序尺度であり、その値が大きいからといって直接的に因果関係が存在するわけではありません。
相関関係が見られる場合、以下の3つの可能性が考えられます:
1. AがBを引き起こす
2. BがAを引き起こす
3. 第三の変数CがAとBを同時に引き起こす(これを
擬似[[相関]]と呼ぶ)
因果関係の推定については、
相関を見るだけでは判断できません。ジューディア・パールやドナルド・ルービンなどによって提唱されている
統計的因果推論の手法を用いて、より深い解析が必要です。
回帰係数との違い
相関分析は、二つの変数の間に実際に線形の関係が存在するか、その強さを検討しますが、
回帰分析は因果関係の構造を分析し、ある変数が別の変数を予測するためのモデルを構築することを目的としています。初学者が間違いやすい点として、
相関係数と回帰係数が混同されることがあります。回帰式を作成することはあくまで予測モデルの構築に過ぎないため、因果関係の直接的な推測には至らないことを理解することが重要です。
HARKingの問題点
多数のデータを比較した際に偶然
相関係数が高く出た結果を基に、事前の仮説を変更して論文を執筆する行為をHARKing(Hypothesizing After the Results are Known)と呼びます。このような行為は、探索的研究としてではなくあたかも仮説検証型の研究であるかのように発表するため、結果が偶然であった場合に誤認されるリスクが高く、研究の信頼性に重大な問題を引き起こします。根拠のない結論や誤った inference につながる可能性があるため、研究手続きとして回避すべきです。
参考文献
相関係数に関する詳細な理解を得るためには、さまざまな文献や資料を参考にすることが推奨されます。特に、
統計学やデータ分析に関する教科書や専門書に多数の事例が記載されています。