マローズのCp

MallowsのCpとは



MallowsのCpは、最小二乗法によって推定された回帰モデルの適合度を評価するための重要な指標です。この指標は、コリン・リングウッド・マローズに由来しています。主にはモデル選択に使用され、複数の説明変数から最も適切なモデルを特定することが目的です。Cpの値が小さいほど、モデルの予測精度が高いことを示します。

Cpの定義と特性



MallowsのCpは、過剰適合の問題に対処するために開発されました。通常、モデルに変数を追加すると、残差平方和などの適合度指標が小さくなる傾向にあります。このことから、残差平方和を最小化するモデルを選択すると、全ての変数を含むモデルが選ばれる可能性が高くなります。そのため、Cpはデータサンプルに基づき、平均二乗予測誤差(MSPE)を推定することによって、新たな指標を提供します。

Cpは、次のように定義されます:

$$
C_p = \frac{SSE_p}{S^2} - N + 2P
$$

ここで、SSE_pはP個の説明変数を用いたモデルの残差平方和、S^2は全てのK個の変数による回帰分析の残差平均平方、Nはサンプルサイズを示します。一般的な線形モデルの形は次のようになります:

$$
Y = \beta_0 + \beta_1X_1 + \cdots + \beta_pX_p + \varepsilon
$$

このモデルにおいて、βはそれぞれの説明変数の係数で、εは誤差を表します。

Cpの計算方法



MallowsのCpは、以下のように計算できます:

$$
C_p = \frac{1}{n}(RSS + 2d\hat{\sigma}^2)
$$

ここで、RSSは残差平方和、dは説明変数の数、\hat{\sigma}^2はモデルにおける誤差の分散の推定値です。Cpの計算によって、最適なモデルの選定が可能です。

Cpの利点と制約



MallowsのCpは、大規模なサンプルサイズがある場合に有効です。しかし、モデルの複雑性や変数選択に関しては、限界があります。Cpの値が最小となるモデルを選ぶことが重要で、それによって過剰適合を防ぎ、より精度の高い予測を可能にします。

実用例



回帰分析において、Cpはモデル選択のための有益なツールです。特に、経済学や生物統計学などの分野では、実際のデータに対して適切なモデルを導くために繰り返し使用されています。これにより、データから最も説得力のある知見を引き出す手助けとなります。

参考文献


  • - Chow, G. C. (1983). Econometrics. New York: McGraw-Hill.
  • - Hocking, R. R. (1976). “The analysis and selection of variables in linear regression”. Biometrics 32 (1): 1–50.
  • - Judge, G. G.; et al. (1980). The Theory and Practice of Econometrics. New York: Wiley.

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。