一般化線形モデル(GLM)について
一般化線形モデル(Generalized Linear Model、略してGLM)は、様々な分布を扱うことができる柔軟な回帰分析手法です。GLMは、通常の線形モデルの概念を拡張し、残差の分布を任意に設定できます。これにより、線形回帰、ポアソン回帰、
ロジスティック回帰といった多様なモデルを構築することが可能です。
1972年に、
統計学者のネルダーとウェダーバーンによって提唱されました。
GLMの基本構成
一般化線形モデルは、以下の3つの要素から構成されています。
1.
指数型分布族の確率分布
2.
線形予測子(linear predictor):$
oldsymbol{η} = oldsymbol{x}^{T} oldsymbol{β}$
3.
リンク関数(link function):$
g(θ) = η$
ここで、$oldsymbol{Y}$ は従属変数、$oldsymbol{x}$ は説明変数、$oldsymbol{β}$ はモデルのパラメーターです。リンク関数は、モデルの出力を線形予測子に結びつける役割を果たします。これによって、モデル化したいデータの
確率分布に合わせた適切な形式で解析することができます。
指数分布族の性質
GLMでは、
確率変数が指数型分布族に従うことに注目します。尤度関数を考えることで、
確率変数の
平均や分散を推定することが可能です。たとえば、正規分布や
ベルヌーイ分布、ポアソン分布など、多くの
確率分布が指数型分布族に属します。
例:正規分布に従うモデル
例えば、正規分布に従うモデルでは以下のように表現できます。
$$
f(y; θ) = \frac{1}{\sqrt{2\pi}σ} \exp{\left(-\frac{(y-θ)^{2}}{2σ^{2}}\right)}
$$
この場合、
平均は $θ$、分散は $σ^{2}$ となります。リンク関数を $g(θ) = θ$ とすると、これは通常の線形回帰モデルに相当します。
次に、
ベルヌーイ分布に従うモデルについて考えます。このモデルでは、生起確率 $p$ を以下のように設定します。
$$
p = \frac{e^{θ}}{1 + e^{θ}}
$$
この場合、確率関数は次のようになります。
$$
f(y; θ) = p^{y}(1 - p)^{1 - y}
$$
リンク関数として $g(θ) = θ$ を用いると、
ロジスティック回帰モデルに到達します。
パラメータ推定
GLMのパラメータは、ニュートン法や最尤法を用いて推定できます。最尤法は、多くの
統計的推定方法の基盤となる手法であり、データから最も妥当なパラメータを導き出すのに非常に効果的です。
結論
一般化線形モデルは、データ解析において非常に有用な手法であり、リンク関数を用いることで柔軟に様々なモデルを構築できるのが魅力です。実際のデータ解析において、特に異なる
確率分布が関与する場合には、この手法を活用することでより良い洞察が得られるでしょう。