外れ値とは
統計学において、外れ値(outlier)とは、データセットの中で他の値から大きく外れている値のことです。外れ値は、測定ミスや記録ミスなどのエラーによって生じる異常値とは概念的に異なりますが、実用上は両者を区別することが難しい場合があります。特に、データの分析やモデルの構築において、外れ値は結果に大きな影響を与える可能性があるため、その存在を認識し、適切に対処することが重要です。
ロバスト
統計では、外れ値の影響を受けにくい
統計手法を用いることで、データの信頼性を確保します。ロバスト
統計は、外れ値の存在を前提とした分析を行うため、データに外れ値が含まれる可能性が高い場合に有効な手法です。
外れ値の検定
外れ値かどうかを判断するための検定方法として、以下のものがあります。
偏差による検定
最も簡単な方法としては、検定したい標本の
偏差を不偏標準
偏差で割った値を求め、その値が一定の閾値(例えば2または3)を超えているかどうかを判定する方法があります。具体的には、以下の式で計算される値を閾値と比較します。
math
\tau_1 = \frac{x_1 - \mu}{\sigma}
ここで、\(x_1\) は標本値、\(\mu\) は
平均、\(\sigma\) は標準
偏差を表します。両側検定を行う場合は、この値の
絶対値を使います。一般的には、\(\mu \pm 2\sigma\) または \(\mu \pm 3\sigma\) の範囲外の値を外れ値とみなします。
スミルノフ・グラブス検定
より精密な検定方法としては、
正規分布を仮定した上で、スミルノフ・グラブス(Smirnov-Grubbs)検定を用いる方法があります。この検定では、以下の式で計算される値を閾値として使用します。
math
\tau = \frac{(n-1)t}{\sqrt{n(n-2) + nt^2}}
ここで、\(n\) はサンプルサイズ、\(t\) は
自由度 \(n-2\) のt分布における
有意水準 \(\frac{\alpha}{n} \times 100\) パーセンタイルを表します。スミルノフ・グラブス検定では、
平均値から最も外れているデータから順に検定を行い、外れ値と判定されたデータを除外した上で、再び検定を行います。この操作を、外れ値が検出されなくなるまで繰り返します。
トンプソン検定
トンプソン(Thompson)検定も、外れ値の検定に用いられる方法の一つです。トンプソン検定では、以下の式を使用します。
math
t = \frac{\tau \sqrt{n-2}}{\sqrt{n-1 - \tau^2}}
スミルノフ・グラブス検定とは異なり、標本値の検定
統計量 \(\tau_1\) から \(t_1\) を経て
有意水準 \(\alpha_1\) を求めることが一般的です。サンプルサイズ \(n\) が十分に大きい場合、スミルノフ・グラブス検定とほぼ同じ結果が得られます。
外れ値への対処
外れ値を検出した後、どのように対処するかは、データの性質や分析の目的に依存します。外れ値がデータのエラーによるものである場合は、データの修正や削除を検討します。しかし、外れ値が重要な情報を含んでいる可能性もあるため、安易な削除は避けるべきです。外れ値の影響を緩和するために、ロバスト
統計などの手法を適用することも有効です。
まとめ
外れ値は、
統計分析において無視できない存在です。外れ値の適切な検出と対処は、分析結果の信頼性を高めるために非常に重要です。外れ値の検定方法や、それに対する対処法を理解し、データ分析に役立ててください。
関連項目
Huber損失
外部リンク
スミルノフ・グラブス検定の有意点