スチューデント化残差とは
スチューデント化残差(Studentized Residual)は、
統計学、特に
回帰分析の分野で用いられる重要な概念です。これは、モデルから得られた「残差」を、それぞれの残差が持つ固有のばらつきを示す推定値で割って補正した値です。この補正を行うことで、異なるデータ点における残差を公平に比較することが可能になります。
この手法は、データの中に含まれる「外れ値」やモデルへの影響が大きい点を特定する際に非常に有効です。その名称は、著名な
統計学者ウィリアム・ゴセットが論文発表時に用いた筆名「スチューデント」に由来しています。
誤差と残差:根本的な違い
統計モデルを扱う上で、「
誤差(error)」と「残差(residual)」という二つの似た言葉がありますが、これらは明確に異なる概念です。モデル、例えば単純な
線形回帰モデル `y = α0 + α1x + ε` を考えたとき、`ε` は「
誤差」を表します。これは、観測できない真の値とモデルとの間の理想的なずれであり、多くの場合、互いに独立で同じばらつき(分散)を持つと仮定されます。
一方、「残差」は、実際に観測されたデータを用いてモデルを推定した結果(例えば
最小二乗法で求めた回帰直線)から計算される、観測値とモデルの予測値との間のずれです。つまり、残差は観測可能なデータに基づいて計算される「
誤差の推定値」と言えます。
誤差と異なり、
回帰分析における残差は通常、互いに独立ではありません。また、すべての残差が同じばらつきを持つわけでもありません。特に
回帰分析では、説明変数(x値)がその平均値から遠く離れたデータ点ほど、対応する残差のばらつきが小さくなる傾向があります。これは、回帰直線の推定が、説明変数の分布の端にあるデータ点によってより強く影響を受けることと関連しています。真の
誤差のばらつきが一定であると仮定されていても、計算される残差のばらつきがデータ点によって異なるというこの性質が、スチューデント化が必要となる主要な理由なのです。
なぜスチューデント化が必要なのか
残差のばらつきがデータ点ごとに異なるということは、単純に残差の絶対値の大小だけでは、そのずれが本当にモデルにとって異常なものなのか、それともその点での残差がたまたま小さくなりやすい(あるいは大きくなりにくい)だけなのかを判断するのが難しいことを意味します。スチューデント化は、このデータ点ごとのばらつきの違いを補正し、すべての残差を共通の尺度に乗せることを目的としています。
具体的には、各残差を、その残差が持つばらつき(
標準偏差の推定値)で割ることで基準化します。これにより、例えば大きな残差が得られたとしても、それが単にその点でのばらつきが大きいことによるのか、あるいは相対的に見て本当に異常なずれなのかを区別できるようになります。
内部スチューデント化と外部スチューデント化
スチューデント化を行う際には、残差のばらつきを推定するために、いくつかの方法があります。特に重要なのは、「内部スチューデント化」と「外部スチューデント化」の区別です。
これは、分散を推定する際に、現在注目しているデータ点を含めるか、それとも除外するかという違いに基づいています。
内部スチューデント化残差: 残差のばらつきを推定する際に、分析対象としているデータ点を含めたすべてのデータを用いて計算します。これは一般的な残差の標準化と言えます。
外部スチューデント化残差(削除後スチューデント残差): 残差のばらつきを推定する際に、現在注目しているデータ点をデータセットから一時的に除外して計算します。特定のデータ点が外れ値である可能性を診断する場合、その点自身が全体の分散推定に影響を与えてしまう可能性があります。そのため、診断対象の点を除外して分散を推定する外部スチューデント化残差の方が、外れ値検出にはより適していると考えられています。
もし
誤差が独立で
正規分布に従うという仮定が満たされる場合、外部スチューデント化残差は、特定の
自由度を持つスチューデントのt分布に従うことが知られています。この性質を利用して、外部スチューデント化残差がある閾値を超えるかどうかを検定することで、統計的に外れ値を判断することが可能になります。
まとめ
スチューデント化残差は、
回帰分析における残差が持つ不等分散性という性質を補正し、データ点ごとの残差を公平に比較するための強力なツールです。
誤差と残差の違いを理解し、特に外部スチューデント化残差を用いることで、モデルの診断、影響力の大きいデータ点の特定、そして信頼性の高い外れ値検出を行うことが可能となり、より適切な統計分析に繋がります。