除外変数バイアスとは？意味をやさしく解説

除外変数バイアスとは

除外変数バイアス（Omitted Variable Bias、OVB）は、統計分析において、関連する変数がモデルから除外されることで生じるバイアスを指します。このバイアスにより、モデルに含まれる変数の効果が誤って解釈されることがあります。特に回帰分析において重要な概念です。この文章では、除外変数バイアスがどのように発生するか、そしてその影響について具体例を通じて解説します。

除外変数バイアスの基本概念

除外変数バイアスが発生する主な原因は、回帰モデルにおいて、数理的に関連する変数が省略され、その結果、推定される係数に誤差が生じることです。具体的には、ある従属変数を説明するために使用される独立変数と相関する従属変数の決定要因がモデルに含まれていない場合、回帰の結果は真の関係を反映しなくなります。これにより、仮の回帰モデルが設定される際に誤った結論が導かれる可能性があります。

除外変数バイアスの例

例えば、以下の線形回帰の式を考えます。

$$
y = a + b x + c z + u
$$

ここで、$y$は従属変数、$x$と$z$は独立変数、$a$、$b$、$c$はそれぞれのパラメータを示します。このとき、$z$をモデルから除外した場合、$x$に対する推定された影響は次のように変わります。

$$
y = (a + cd) + (b + cf)x + (u + ce)
$$

すなわち、除外した変数$z$の影響を考慮せずに推定された$b$は、実際には$b + cf$となります。これは、$x$が$z$に与える効果と$z$が$y$に与える効果の積の影響を受けているためです。結果的に、$x$に対する真の影響を知ることは難しくなります。

詳細な分析

除外変数バイアスの影響を数学的に評価するために、次のようなモデルを考えます。

$$
y_i = x_i^{ op} eta + z_i heta + u_i,
$$

この場合、$x_i$は観測された独立変数のベクトル、$eta$はそのパラメータ、$z_i$は別の独立変数、$ heta$はその応答係数、$u_i$は誤差項です。もし$z$を省略すると、推定された$eta$は次のようになります。

$$
eta^ = (X^{ op}X)^{-1}X^{ op}(Xeta + z heta + u).
$$

興味深いのは、この式の右辺において、期待値を取ると、%$eta^$の推定はバイアスを含むことになります。

また、ガウス-マルコフの定理とバイアス

ガウス-マルコフの定理によると、古典的な回帰モデルの仮定が満たされている場合、通常の最小二乗法は最も効率的で無偏な推定量を提供します。しかし、除外変数バイアスが存在する場合、これにより誤差項がモデルの独立変数と無相関でない状況が生じ、推定結果にバイアスが生まれます。バイアスの方向は、除外した変数と回帰変数の関係によって異なります。

結論

除外変数バイアスは、統計モデルの構築において重要な問題であり、特に回帰分析での解釈に影響を与えます。モデルに含める変数の選択は慎重に行うべきであり、潜在的なバイアスを理解することが、正確な結論を導く鍵です。

もう一度検索