箱ひげ図について
箱ひげ図は、データのばらつきを理解しやすく表現するための
統計図であり、特に多様な水準からなる分布を視覚的に要約する際に利用されます。この図は主にジョン・テューキーによって1970年代に提唱され、今では品質管理をはじめとするさまざまな領域で広く活用されています。
箱ひげ図の構成
箱ひげ図は、データの五数要約と呼ばれる
統計情報を表現します。具体的には、以下の五つの要素が含まれます。
- - 最小値(Minimum): データの中で最も小さい値。
- - 第1四分位点(Q1): データを小さい順に並べたとき、全体の25%以下に位置する値。
- - 中央値(Median, Q2): データの中央の値で、全体の50%以下に位置します。
- - 第3四分位点(Q3): データの75%以下に位置する値。
- - 最大値(Maximum): データの中で最も大きい値。
これらの要素を基に、箱(Box)と呼ばれる長方形を描き、その両側にはひげ(Whisker)が伸びます。箱の高さは第1四分位点から第3四分位点までの範囲を示し、中央値は箱内で明確に分かる仕切りとして描かれます。このように箱ひげ図は、直観的にデータの分布を把握するのに役立ちます。
外れ値の処理
箱ひげ図では、外れ値にも配慮しています。外れ値とは、データの一般的な分布から大きく外れている値を指します。
外れ値の範囲は、まず四分位範囲(IQR)を求め、そこから以下の式を使用して求められます。
```text
外れ値の範囲: [Q1 - 1.5
IQR, Q3 + 1.5 IQR]
```
ここで、IQRは第3四分位点と第1四分位点との間の差です。もしデータの中でこの範囲から外れる値があれば、それは外れ値として図示されます。これにより、データの特異性を視覚化することができます。
具体例
具体的な箱ひげ図の例を見てみましょう。あるデータセットでは、以下のような結果が得られるとします。
- - 最小値: 0.5
- - 第1四分位点: 7
- - 中央値: 8.5
- - 第3四分位点: 9
- - 最大値: 10
- - 四分位範囲(IQR): 2
この場合、3.5は「軽度の外れ値」と見なされ、0.5は「極端な外れ値」とされます。外れ値以外の最小値は5であり、データは左に歪んでいることがわかります。また、同図からデータの
平均値は読み取ることができません。
バリエーション
箱ひげ図は、さまざまな
統計ソフトウェアで異なるスタイルで表示されることがあります。一部の方法では、ひげの端を中央値の近くではなく、例えばデータの5%点や95%点にすることがあります。このようなアプローチは、元々のテューキーの方法とは異なり、外れ値の扱いやデータサイズの感度に影響を及ぼすことがあります。
箱ひげ図は、視覚的にデータの特性を把握するための強力なツールであり、多くの分析者によって重宝されています。