Horvitz–Thompson推定量とは？意味をやさしく解説

Horvitz-Thompson推定量について

Horvitz-Thompson推定量とは、層化抽出法における統計的推定手法の一つです。この手法は、Daniel G. HorvitzとDonovan J. Thompsonの名にちなんで名付けられ、調査データ分析の際に非常に重要な役割を果たします。特に、欠測データの取り扱いや集計値の推定に適用されることが多いです。

基本概念

Horvitz-Thompson推定量は、通常のデータサンプリングにおいて、特定の層から無作為に選ばれた標本が持つ特性を反映することを目指しています。層化抽出は、対象となる母集団を複数の層に分割し、それぞれの層から独立した標本を選別して分析する手法です。この方法により、各層の特徴を適切に考慮した合計や平均が得られます。

具体的な手法

層化抽出に基づき、合計および平均は次の数学式で計算されます。まず、

- 標本数を$n$、層の数を$N$とします。
- 各層$i$に対する確率を$ heta_i$、各層から得られる観測値を$Y_i$とします。

これに基づき、Horvitz-Thompson推定量は次のように表されます。

$$
egin{aligned}
ext{合計の推定量} & : \
ext{ } ext{ } ext{} \
ilde{Y}_{HT} = rac{1}{n} ext{合計}rac{Y_i}{ heta_i}
ext{ } ext{ } ext{}\
ext{平均の推定量} & : \
ext{ } ext{ } ext{} \
ilde{
u}_{HT} = rac{ ilde{Y}_{HT}}{N}\
ext{ } ext{ } ext{}\
ext{ この式により、特殊癖のある層の平均が適切に反映されます。}
ext{ } ext{ } ext{}\
ext{ベイズ的観点からは、} \
heta_i ext{は対象母集団中の層の占有率を表すと解釈できます。}
ext{ } ext{ } ext{このように、解釈が広がることによって、他の推定手法と連携して使用されることもあります。}
$$

ここで著しい点は、Horvitz-Thompson推定量が平均の重み付きブートストラップ法や多重代入法といった他の推定方法と接続する基盤を持つことです。これにより、柔軟にさまざまなデータセットに基づく解析が可能です。

不偏性の証明

Horvitz-Thompson推定量が不偏であることは、期待値を使用して確認できます。つまり、全ての標本が母集団を適切に表現できている場合、推定量は真の母集団平均に一致すると示すことができます。

この不偏性は次のように証明できます。期待値の計算を経て、次の式が成立します。

$$
egin{aligned}
Eigg(rac{1}{N}igg) igg( ext{合計}rac{Y_i}{ heta_i}igg)&= ext{他の定義を使って再構成される نتيجة
\ ext{よって、Horvitz-Thompson推定量は合理的な基準に基づいて不偏な推定量であることが示されます。}
ext{ } ext{ } ext{また、Horvitz-Thompson手法は、調査データの解析における重要なツールとして機能します。これにより、より信頼性のあるデータ分析が可能となります。}
$$

注意点と応用

Horvitz-Thompson推定量の利用時は、層化が適切に行われない場合や標本数が不十分な場合には、結果に影響を及ぼす可能性があるため、適切な抽出と分析が必要です。また、この手法はRのsurveyパッケージでも広く使用されており、さまざまな統計解析においてその効果を発揮しています。要するに、Horvitz-Thompson推定量は、複雑な調査サンプルの分析を行う上で、確固たる基盤を提供するものです。

もう一度検索