決定係数(R²)
決定係数、またはR²は、
統計学の分野で重要な指標となっており、独立変数が従属変数に与える影響を定量化するためのものです。この指標は、
回帰分析におけるモデルの適合度を評価する上で頻繁に使用されます。R²の値が高いほど、独立変数が従属変数の変動をより多く説明できていることを示します。
R²の定義と計算方法
決定係数の定義については、特に合意された形は存在しませんが、一般的な計算方法は以下の通りです。これにより、実際の観測値と回帰モデルによる推定値の関係が明確になります。
基本的な定義
以下に示す式がR²を表す一般的な定義です。
$$
R² ≡ 1 - \frac{\sum_{i=1}^{N}(y_i - f_i)^2}{\sum_{j=1}^{N}(y_j - \bar{y})^2}
$$
ここで、$y_i$は観測値、$f_i$は予測値、$ar{y}$は観測値の
平均です。この式では、残差(二乗誤差)の合計と観測値の分散を用いて、R²を算出します。R²の値は1以下で、1に近いほど独立変数が従属変数の変動をよく説明していることを意味します。
回帰モデルの精度を評価する際、特に
最小二乗法を用いるとき、R²は重要な役割を果たします。
最小二乗法は、残差の二乗和を最小化するようにパラメータを調整する手法であり、この際に得られる回帰方程式のR²は、モデルの適合度を測る基準となります。単回帰の場合、R²は
ピアソンの積率相関係数の二乗に等しくなります。
他の定義との関係
R²には他にも、さまざまな定義が存在しますが、一般的な線形
回帰分析の場合、次のような関係が成り立ちます。推定値の分散を標本値の分散で割ったり、標本値と推定値との相関の二乗で表現することもあります。
「自由度調整済み決定係数」と呼ばれる手法もあります。この手法は、説明変数の数が増えることでR²の値が不当に向上することを防ぐために使用されます。自由度調整済み決定係数は以下の式で表示されます。
$$
R'^{2} ≡ 1 - \frac{\frac{1}{N - p - 1} \sum_{i=1}^{N}(y_i - f_i)^2}{\frac{1}{N - 1} \sum_{j=1}^{N}(y_j - \bar{y})^2}
$$
ここで、$p$は説明変数の数、$N$はサンプルサイズです。この調整により、モデルの適合度がより正確に評価されます。
決定係数の使用時の注意点
R²を使用する際にはいくつかの点に注意が必要です。特に、回帰モデルが線形でない場合や、原点を通ることを求める場合には、R²の解釈が変わることがあります。また、説明変数が増すとR²が常に45分高くなるため、さらなる分析が求められます。
関連するトピック
決定係数は
回帰分析や重
回帰分析において頻繁に使用されます。また、モデル選択や評価のための他の指標と組み合わせて利用されることが多いです。このように、R²は非常に多用途な指標であり、データ解析や予測において重要な役割を果たします。