68–95–99.7則とは
統計学における68–95–99.7則は、
正規分布において、
平均値(μ)を中心とした
標準偏差(σ)の1倍、2倍、3倍の範囲内に含まれるデータの
割合を簡略的に表したものです。この法則は、経験則として知られる「3シグマのルール」や「千三つの法則」としても認識されています。
正規分布の特性を理解し、データのばらつきを把握する上で非常に重要な概念です。
具体的には、以下のようになります。
平均値±1σの範囲に、約68.27%のデータが含まれます。
平均値±2σの範囲に、約95.45%のデータが含まれます。
平均値±3σの範囲に、約99.73%のデータが含まれます。
これらの
割合は、
正規分布の累積分布関数から導き出されます。数学的には、
確率変数Xが
平均μ、
標準偏差σの
正規分布に従うとき、以下の式で表されます。
math
{\begin{aligned}\Pr(\mu -\;\,\sigma \leq X\leq \mu +\;\,\sigma )&\approx 0.6827\\\Pr(\mu -2\sigma \leq X\leq \mu +2\sigma )&\approx 0.9545\\\Pr(\mu -3\sigma \leq X\leq \mu +3\sigma )&\approx 0.9973\end{aligned}}
68-95-99.7則の応用
この法則は、データ分析や品質管理など、様々な分野で活用されています。
品質管理: 製造業では、製品の品質を管理するために、この法則が用いられます。製品の寸法や性能が規格から大きく外れていないかをチェックし、不良品の発生を抑制します。
データ分析: データの分布が
正規分布に従う場合、この法則を用いることで、データのばらつき具合を把握することができます。例えば、
外れ値の検出や、データの信頼区間の設定に役立ちます。
科学研究: 多くの自然現象や社会現象は
正規分布に近い分布を示すため、この法則は、実験データや観測データの解析に広く応用されています。
68–95–99.7則は、データが
正規分布に従っていることを前提としています。しかし、実際には、データが完全に
正規分布に従うことは稀です。そのため、この法則を適用する際には、データの分布を十分に確認する必要があります。
また、
平均から3σ以上離れた値は、
外れ値として扱われることがあります。特に社会科学の分野では、
平均から2σ以上離れた値が「
有意」とみなされ、
素粒子物理学では、5σ以上の逸脱が「発見」に必要な基準とされています。ただし、この法則は
正規分布に従わないデータにも適用でき、
チェビシェフの不等式によれば、どんな分布でも、少なくとも88.8%のデータは
平均±3σの範囲に収まります。
累積分布関数との関係
68%, 95%, 99.7%という
割合は、標準
正規分布の累積分布関数に由来しています。任意の偏差値zに対する期待幅は、(1-(1-Φ(z))×2)で計算できます。
例えば、2σの範囲は、Φ(2) ≈ 0.9772であり、Pr(X ≤ μ + 2σ) ≈ 0.9772に対応します。したがって、観測値がμ±2σの範囲に含まれる確率は、Φ(2)-Φ(-2) ≈ 0.9545となります。これは、95%信頼区間に関連しています。
正規性検定
68–95–99.7則は、標本データから母集団が
正規分布に従うかどうかを簡易的に評価するために使用されます。具体的には、標本の残差(
平均からの偏差)を
標準偏差で割り、偏差値を求めます。この偏差値と、
正規分布におけるデータ
割合の期待値を比較することで、
外れ値の検出や正規性の検定を行います。
3σ以上の残差を持つデータは
外れ値とみなされることが多く、このようなデータが多い場合は、母集団が
正規分布に従わない可能性が高いと考えられます。特に、4σ以上離れたデータは、
正規分布から大きく外れている可能性を示唆します。
より正確な評価には、
ポアソン分布を用いたり、正規性の検定を行う必要があります。特に、6σ以上の極端なデータは、現実では非常にまれな出来事であり、そのようなデータが出現した場合は、データが
正規分布に従うという前提自体を疑う必要があります。
まとめ
68–95–99.7則は、
正規分布におけるデータの分布範囲を把握するための強力なツールです。データの特性を理解し、品質管理やデータ分析に役立てることができます。ただし、この法則を適用する際には、データの分布が
正規分布に従うか確認することが重要です。また、
外れ値の検出や正規性検定には、より厳密な統計的アプローチが必要となる場合もあります。
この法則は、
平均、
標準偏差、そして
正規分布という
統計学の基本的な概念に基づいており、これらの理解を深めることは、データに基づいた意思決定をする上で非常に重要です。