予測区間とは
予測区間(よそくくかん)は、
統計学における重要な概念で、将来的に観察される予定の標本値がどの範囲に収まるのかを示す指標です。これは、母集団の特性を前提とし、現時点で測定が不可能な値についての推測を行うものです。当然、母集団の
平均値や標準偏差も不明な場合が多く、これらの値は既存の標本を用いて推定されます。
一方、信頼区間は母集団のパラメータ、すなわち母集団の
平均や分散などがどの範囲に存在するのかを示します。これら二つの概念は似たような目的を持っていますが、予測区間が未来の観測値に焦点を当てているのに対し、信頼区間は現存するデータに基づいて母集団のパラメータ推定を行うため、混同しないことが重要です。
予測区間の具体例
たとえば、正規分布に従う母集団から標本を抽出する場合を考えてみましょう。母集団の
平均と標準偏差が不明な時、サンプルサイズを n、母集団の
平均を μ、標準偏差を σ、観測値を X1, ..., Xn と表すことができます。今、次に観察される値 Xn+1 を予測したいとします。この時、現在までの標本の
平均
$$ar{X}_n = rac{X_1 + X_2 + ... + X_n}{n}$$
と、分散
$$S_n^2 = rac{1}{n-1} imes ext{ extstyleoldmath{$igg( ig( X_1 - ar{X}_n ig)^2 + (X_2 - ar{X}_n)^2 + ... + (X_n - ar{X}_n)^2 igg) $}}$$
を用いて、次の観測値の分布を考察します。ここで、
統計量 T に基づいて次のような関係が得られます。
$$T_{n-1} ext{ は } rac{X_{n+1} - ar{X}_n}{ ext{s}_n imes ext{ extstyleoldmath{$igg( 1 + rac{1}{n} igg)^{1/2} $}}} ext{ に従う}$$
この結果から、n-1 自由度のスチューデントの t 分布に従うことが示されます。
次に、これを基にして95%の予測区間を求める式が得られます。具体的には、
$$ar{X}_n ext{ ± } T_a S_n ext{ √ }igg( 1 + rac{1}{n} igg)$$
という形で、Xn+1 に対する 100p% 予測区間の上限と下限が導かれるのです。ここで T_a は自由度 n-1 の t 分布における 100((1 + p)/2) パーセント点を示します。
たとえば、p を 0.95 とすると、95%予測区間を得ることができます。つまり、将来の標本値がこの範囲内に収まる可能性が95%であると解釈することができます。
このように、予測区間は将来的なデータの取り扱いや意思決定において非常に重要な役割を果たしており、特に作成過程で母集団の特性を考慮する必要があるため、適切に理解することが必要です。理解した上で、実データの分析や予測を行うことが、より信頼性の高い結果を生むことに繋がるでしょう。