尺度水準:データの性質を分類する基準
データ分析において、データを正しく理解し、適切な
統計手法を選択するためには、データの尺度水準を理解することが不可欠です。尺度水準とは、データが持つ
情報の性質に基づいて、データを
数学的・
統計的に分類する基準のことです。
1946年にスタンレー・スティーヴンズが提案した分類が広く用いられており、主に以下の4つの尺度水準に分類されます。
1. 名義尺度(Nominal Scale)
名義尺度は、データに数字を割り当てるものの、その数字は単なるラベルであり、大小関係や演算は意味を持ちません。例えば、性別(1:男性、2:女性)や血液型などが名義尺度の例です。同じ数字が割り当てられていれば、同じ
カテゴリーに属することを示すだけです。名義尺度では、
最頻値(最も多く出現する値)のみが代表値として用いることができます。
例: 電話番号、背番号、色の分類
使える統計手法: 最頻値、モード、クロス集計表、カイ二乗検定など
2. 順序尺度(Ordinal Scale)
順序尺度は、データの順序関係を表す尺度です。数字の大小に意味があり、順位付けが可能ですが、数値間の差に意味はありません。例えば、満足度調査(1:非常に不満、2:不満、3:普通、4:満足、5:非常に満足)や、学力テストの順位などが順序尺度の例です。数値の差は等間隔ではないため、平均値などの算術演算は適切ではありません。
例: 順位、満足度、好意度
使える統計手法: 中央値、四分位範囲、順位相関係数、ノンパラメトリック検定など
3. 間隔尺度(Interval Scale)
間隔尺度は、データの順序関係に加え、数値間の差にも意味があります。数値の差が等間隔であるため、加減算は可能ですが、乗除算や比には意味がありません。ゼロ点が任意に設定されるため、比による比較はできません。代表的な例として、摂氏や
華氏温度が挙げられます。30℃と20℃の差は10℃ですが、30℃は20℃の1.5倍という表現は意味をなさないのです。
例: 摂氏温度、華氏温度、カレンダーの日付
使える統計手法: 平均値、
標準偏差、分散、t検定、分散分析など
4. 比率尺度(Ratio Scale)
比率尺度は、間隔尺度の全ての性質に加え、絶対的なゼロ点を持ち、乗除算や比にも意味があります。ゼロが真のゼロを表すため、比による比較が可能です。例えば、身長、体重、
年齢、
収入などが比率尺度の例です。200cmの人は100cmの人より2倍高い、と言えます。
例: 身長、体重、年齢、収入、絶対温度
使える統計手法: 平均値、
標準偏差、分散、
幾何平均、比率、割合など
尺度水準と統計手法
使用する
統計手法は、データの尺度水準に依存します。名義尺度では
最頻値、順序尺度では中央値、間隔尺度と比率尺度では平均値などが代表値として適切です。また、使える
統計検定法も尺度水準によって異なります。例えば、t検定や分散分析は間隔尺度または比率尺度で
測定されたデータに対してのみ適用できます。
尺度水準の選択の重要性
適切な尺度水準を選択することは、データ分析の精度と信頼性を高めるために非常に重要です。間違った尺度水準を用いると、誤った結論を導きかねません。そのため、データの性質をよく理解し、適切な尺度水準を選択することが重要です。
スティーヴンズの分類に関する議論
スティーヴンズの分類は広く用いられていますが、常に適切とは限りません。特に順序尺度の平均値の使用については、
数学的には問題がありますが、実際には使用されるケースもあります。これは、順序尺度の差がほぼ等間隔であると仮定できる場合があるためです。データの性質を十分に理解した上で、適切な
統計手法を選択することが重要です。
参考文献
石井 進『生物統計学入門. 具体例による解説と演習』(初)培風館、1975年。ISBN 4563037346。
片谷教孝・松藤敏彦『環境
統計学入門 環境データの見方・まとめ方』(第1版第15版)オーム社、2019年10月30日 第1版第15版