MallowsのCpとは
MallowsのCpは、最小二乗法によって推定された回帰モデルの適合度を評価するための重要な指標です。この指標は、コリン・リングウッド・マローズに由来しています。主にはモデル選択に使用され、複数の説明変数から最も適切なモデルを特定することが目的です。Cpの値が小さいほど、モデルの予測精度が高いことを示します。
Cpの定義と特性
MallowsのCpは、
過剰適合の問題に対処するために開発されました。通常、モデルに変数を追加すると、残差平方和などの適合度指標が小さくなる傾向にあります。このことから、残差平方和を最小化するモデルを選択すると、全ての変数を含むモデルが選ばれる可能性が高くなります。そのため、Cpはデータサンプルに基づき、平均二乗予測誤差(MSPE)を推定することによって、新たな指標を提供します。
Cpは、次のように定義されます:
$$
C_p = \frac{SSE_p}{S^2} - N + 2P
$$
ここで、SSE_pはP個の説明変数を用いたモデルの残差平方和、S^2は全てのK個の変数による
回帰分析の残差平均平方、Nはサンプルサイズを示します。一般的な線形モデルの形は次のようになります:
$$
Y = \beta_0 + \beta_1X_1 + \cdots + \beta_pX_p + \varepsilon
$$
このモデルにおいて、βはそれぞれの説明変数の係数で、εは誤差を表します。
Cpの計算方法
MallowsのCpは、以下のように計算できます:
$$
C_p = \frac{1}{n}(RSS + 2d\hat{\sigma}^2)
$$
ここで、RSSは残差平方和、dは説明変数の数、\hat{\sigma}^2はモデルにおける誤差の分散の推定値です。Cpの計算によって、最適なモデルの選定が可能です。
Cpの利点と制約
MallowsのCpは、大規模なサンプルサイズがある場合に有効です。しかし、モデルの複雑性や変数選択に関しては、限界があります。Cpの値が最小となるモデルを選ぶことが重要で、それによって
過剰適合を防ぎ、より精度の高い予測を可能にします。
実用例
回帰分析において、Cpはモデル選択のための有益なツールです。特に、経済学や生物統計学などの分野では、実際のデータに対して適切なモデルを導くために繰り返し使用されています。これにより、データから最も説得力のある知見を引き出す手助けとなります。
参考文献
- - Chow, G. C. (1983). Econometrics. New York: McGraw-Hill.
- - Hocking, R. R. (1976). “The analysis and selection of variables in linear regression”. Biometrics 32 (1): 1–50.
- - Judge, G. G.; et al. (1980). The Theory and Practice of Econometrics. New York: Wiley.