ブートストラップ法の概要
ブートストラップ法は、母集団の性質を推定するための
統計的な手法であり、特に再標本化によって行われるモンテカルロ法の一種です。この手法は、元のデータからの標本を元に近似分布を作成し、その分布に従って推定を行います。この手法の特徴は、母集団の分布に対する仮定が不明または複雑な場合でも使用できる点にあります。具体的には、ブートストラップ法は、観測値から得られる経験分布を基にして標本を再抽出し、さまざまなパラメータの性質を推定します。
ブートストラップ法の利点と欠点
この手法の最大の利点は、複雑なパラメータの推定を簡単に行えることです。例えば、信頼区間や標準誤差を計算する際、単純にブートストラップ標本を利用するだけで済みます。しかし、欠点としては、特に有限の標本数に依存する場合に、楽観的な結果を引き出す傾向があるため、結果には注意が必要です。
フィッシャーのアヤメデータの例
この手法の具体的な適用例として、フィッシャーによるアヤメの計測値を使用したモデルが挙げられます。ここでは、バージニアアヤメとヘンショクアヤメの二種類を判別するためのロジスティック回帰モデルを構築します。がく片の長さだけを説明変数として利用した場合、以下の条件によってアヤメの分類が行われます。
- 2.01 × がく片長 - 12.57 ≧ 0 のとき → バージニアアヤメ
- 2.01 × がく片長 - 12.57 < 0 のとき → ヘンショクアヤメ
このモデルでは、50個の標本中37個がバージニアアヤメ、36個がヘンショクアヤメとして正しく分類されました。最尤法を用いて得られた推定値は、漸近的には正規分布に従うことが知られています。
ブートストラップ法による推定値の分布確認
モデルの推定値がどの程度正規分布に近いかを評価するため、以下のような手順でブートストラップ法を適用します。
1. 元データから n 個の標本を復元抽出する。
2. その標本に対して最尤法を適用し、ロジスティック回帰モデルを設計する。
3. この過程を何度も繰り返すことで、推定量の標本分布を生成します。
このようにして得られたパラメータの分布は正規分布ではなく、これは標本数が限られているためです。しかし、ブートストラップ法を用いることで、正規分布の仮定無しで信頼区間の推定が可能になります。
ブートストラップの信頼区間計算
推定量の信頼区間を求める一手法として、ブートストラップパーセンタイル区間があります。この例での95%ブートストラップパーセンタイル区間では、切片とがく片長の係数はそれぞれ (−20.02, −7.08) と (1.26, 3.20)です。また、正規分布を前提とした信頼区間は (−18.26, −6.87) と (1.10, 2.93) となります。
多様なブートストラップ法
ブートストラップ法には、さまざまなバリエーションがあります。1変量解析では、通常は復元抽出が行われますが、データの特性によってパラメトリックなアプローチや平滑化ブートストラップ法の適用が求められることもあります。特に平滑化ブートストラップ法は、データのノイズを加えることで推定の精度を向上させることが可能です。
応用と実際の利用例
ブートストラップ法は媒介変因の検定や中央値の信頼区間の推定など、多岐にわたる分野でその効果を発揮します。データの近似分布を利用することで、より正確な推定が行えるため、学術研究や様々な実務において重要な役割を担っています。今後もブートストラップ法が果たす役割は大きく、分析手法の一つとして広く利用され続けるでしょう。