外れ値

外れ値とは



統計学において、外れ値(outlier)とは、データセットの中で他の値から大きく外れている値のことです。外れ値は、測定ミスや記録ミスなどのエラーによって生じる異常値とは概念的に異なりますが、実用上は両者を区別することが難しい場合があります。特に、データの分析やモデルの構築において、外れ値は結果に大きな影響を与える可能性があるため、その存在を認識し、適切に対処することが重要です。

ロバスト統計では、外れ値の影響を受けにくい統計手法を用いることで、データの信頼性を確保します。ロバスト統計は、外れ値の存在を前提とした分析を行うため、データに外れ値が含まれる可能性が高い場合に有効な手法です。


外れ値の検定



外れ値かどうかを判断するための検定方法として、以下のものがあります。

偏差による検定



最も簡単な方法としては、検定したい標本の偏差を不偏標準偏差で割った値を求め、その値が一定の閾値(例えば2または3)を超えているかどうかを判定する方法があります。具体的には、以下の式で計算される値を閾値と比較します。

math
\tau_1 = \frac{x_1 - \mu}{\sigma}


ここで、\(x_1\) は標本値、\(\mu\) は平均、\(\sigma\) は標準偏差を表します。両側検定を行う場合は、この値の絶対値を使います。一般的には、\(\mu \pm 2\sigma\) または \(\mu \pm 3\sigma\) の範囲外の値を外れ値とみなします。

スミルノフ・グラブス検定



より精密な検定方法としては、正規分布を仮定した上で、スミルノフ・グラブス(Smirnov-Grubbs)検定を用いる方法があります。この検定では、以下の式で計算される値を閾値として使用します。

math
\tau = \frac{(n-1)t}{\sqrt{n(n-2) + nt^2}}


ここで、\(n\) はサンプルサイズ、\(t\) は自由度 \(n-2\) のt分布における有意水準 \(\frac{\alpha}{n} \times 100\) パーセンタイルを表します。スミルノフ・グラブス検定では、平均値から最も外れているデータから順に検定を行い、外れ値と判定されたデータを除外した上で、再び検定を行います。この操作を、外れ値が検出されなくなるまで繰り返します。

トンプソン検定



トンプソン(Thompson)検定も、外れ値の検定に用いられる方法の一つです。トンプソン検定では、以下の式を使用します。

math
t = \frac{\tau \sqrt{n-2}}{\sqrt{n-1 - \tau^2}}


スミルノフ・グラブス検定とは異なり、標本値の検定統計量 \(\tau_1\) から \(t_1\) を経て有意水準 \(\alpha_1\) を求めることが一般的です。サンプルサイズ \(n\) が十分に大きい場合、スミルノフ・グラブス検定とほぼ同じ結果が得られます。


外れ値への対処



外れ値を検出した後、どのように対処するかは、データの性質や分析の目的に依存します。外れ値がデータのエラーによるものである場合は、データの修正や削除を検討します。しかし、外れ値が重要な情報を含んでいる可能性もあるため、安易な削除は避けるべきです。外れ値の影響を緩和するために、ロバスト統計などの手法を適用することも有効です。


まとめ



外れ値は、統計分析において無視できない存在です。外れ値の適切な検出と対処は、分析結果の信頼性を高めるために非常に重要です。外れ値の検定方法や、それに対する対処法を理解し、データ分析に役立ててください。


関連項目


Huber損失

外部リンク


スミルノフ・グラブス検定の有意

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。