クラメール・ラオの限界
クラメール・ラオの限界(Cramér–Rao bound, CRB)は、統計的推定の分野において非常に重要な概念です。これは、特定の確率分布に従うデータから、その分布の未知の特性値(母数)を推定しようとする際に、
推定量の精度(分散)がどれだけ高められるかを示す理論的な下限を定めたものです。
この限界は、1940年代に
統計学者のハラルド・クラメールやカリャンプディ・ラダクリシュナ・ラオ、そしてそれ以前に
モーリス・ルネ・フレシェやジョルジュ・ダルモアによって、それぞれ独立に発見あるいは関連する成果が得られたことにちなんで名付けられました。クラメール・ラオの下限、クラメール・ラオの不等式、情報不等式など、いくつかの別称があります。
この原理の最も基本的な主張は、
いかなる不偏推定量(推定量の期待値が真の母数と一致する推定量)の分散も、その対象となる確率分布の「フィッシャー情報量」の逆数以上になるというものです。フィッシャー情報量は、そのデータが母数についてどれだけの情報を含んでいるかを示す尺度と考えることができます。
ある不偏
推定量の分散がこの理論的な下限にちょうど一致する場合、その
推定量は「
有効推定量」と呼ばれます。
有効推定量は、すべての不偏
推定量の中で最も分散が小さく、結果として
推定量の「ばらつき」が最小となります。このような
推定量は、最小分散不偏
推定量(MVU
推定量)でもあります。
ただし、常に
有効推定量が存在するとは限りません。場合によっては、どんな不偏
推定量を用いても、その分散がクラメール・ラオの下限に到達できないこともあります。
クラメール・ラオの限界は、推定値に偏り(バイアス)がある
推定量についても拡張されています。不偏であるという制約を取り払うと、
推定量の分散や平均二乗誤差(推定値と真の値との差の平方の期待値)が、不偏
推定量に対するクラメール・ラオの下限よりも小さくなるケースも存在します。これは、偏りを許容することで分散を大きく減少させることができるためです。
限界の形式
単一母数・不偏推定の場合:
確率変数 $X$ が
確率密度関数 $f(x; \theta)$ に従い、未知母数 $\theta$ を推定することを考えます。$\\hat{\\theta}}$ が $\theta$ の不偏
推定量であるとき、その分散に対して以下の不等式が成り立ちます。
$$ \operatorname{Var}(\\hat{\\theta}}) \ge \frac{1}{I(\theta)} $$
ここで $I(\theta)$ はフィッシャー情報量です。フィッシャー情報量は、
尤度関数 $L(x; \theta) = f(x; \theta)$ の
自然対数 $\\ell(x; \theta) = \ln L(x; \theta)$ の $\theta$ に関する偏微分(スコア関数と呼ばれます)の分散、あるいは2階偏微分の期待値のマイナスとして定義されます。
$$ I(\theta) = \operatorname{E}\left[\left({\frac{\\partial \\ell(X; \theta)}{\\partial \\theta}}\right)^2\right] = -\operatorname{E}\left[{\frac{\\partial^2 \\ell(X; \theta)}{\\partial \\theta^2}}\right] $$
不偏
推定量の「
有効度」は、この下限値に対する実際の分散の比率で測られ、定義から1を超えることはありません。
単一母数・母数の関数の推定の場合:
母数 $\theta$ の関数 $\\psi(\theta)$ を推定する不偏
推定量 $T(X)$ の分散に対する下限は、次のようになります。
$$ \operatorname{Var}(T) \ge \frac{[\\psi'(\theta)]^2}{I(\theta)} $$
ここで $\\psi'(\theta)$ は $\\psi(\theta)$ の $\theta$ による微分です。
単一母数・不偏でない推定の場合:
推定量 $\\hat{\\theta}}$ に偏り $b(\theta) = \operatorname{E}[\\hat{\\theta}}] - \theta$ がある場合、その分散に対する下限はより複雑になり、偏りの微分の影響を受けます。
$$ \operatorname{Var}(\\hat{\\theta}}) \ge \frac{[1+b'(\theta)]^2}{I(\theta)} $$
平均二乗誤差(MSE)に対する下限は、分散と偏りの二乗の和として表されます。
$$ \operatorname{E}[(\\hat{\\theta}} - \theta)^2] \ge \frac{[1+b'(\theta)]^2}{I(\theta)} + b(\theta)^2 $$
この式から、特定の条件下では、不偏の場合($b(\theta)=0$)の下限を下回るMSEを持つ
推定量が存在することがわかります。
複数母数(ベクトル値)の場合:
母数が複数ある場合、クラメール・ラオの限界は分散
共分散行列に対する不等式として拡張されます。母数ベクトル $\\boldsymbol{\\theta}}$ に対する
推定量ベクトル $\\boldsymbol{T}(X)$ の分散
共分散行列 $\\operatorname{Cov}(\\boldsymbol{T}(X))$ は、フィッシャー情報行列 $I(\\boldsymbol{\\theta}})$ を用いて以下のような関係を満たします。
$$ \operatorname{Cov}(\\boldsymbol{T}(X)) \ge I(\\boldsymbol{\\theta}})^{-1} $$
ここで不等式は、行列の差が非負定値であることを意味します。これは、
推定量の各成分の分散が、フィッシャー情報行列の逆行列の対応する対角成分以上であることなどを保証します。
限界が成り立つための条件
クラメール・ラオの不等式が成立するためには、
確率密度関数や
推定量が特定の「正規性」の条件を満たす必要があります。主な条件として、フィッシャー情報量がきちんと定義され有限であること、そして
推定量の期待値を母数で微分する操作と、データに関して積分する操作の順序が交換可能であることが挙げられます。この積分と微分の交換可能性は、多くの場合、
確率密度関数が母数によらない固定された範囲(台)を持つか、あるいは適切な可積分関数でその微分を抑えられる場合に保証されます。
複数観測データの場合
統計的推定では、複数の観測データ(標本)を用いるのが一般的です。$n$ 個の
独立同分布(i.i.d.)な標本 $X_1, \ldots, X_n$ を用いる場合、これらのデータ全体から得られるフィッシャー情報量は、単一の観測から得られるフィッシャー情報量の $n$ 倍になります。したがって、このような独立な観測を $n$ 回行うことで、
推定量の分散のクラメール・ラオの下限は単一観測の場合の $1/n$ に縮小され、推定精度が向上することが理論的に裏付けられます。
例えば、平均 $\\mu$ は既知で分散 $\\sigma^2$ が未知の
正規分布から得られた $n$ 個の独立標本 $X_1, \ldots, X_n$ を考えます。この分散 $\\sigma^2$ の不偏
推定量として、$T = \frac{1}{n} \sum_{i=1}^n (X_i - \mu)^2$ があります。
この
推定量の分散は $\\operatorname{Var}(T) = \frac{2(\sigma^2)^2}{n}$ と計算できます。
一方、分散 $\\sigma^2$ に関するフィッシャー情報量を計算すると、 $n$ 個の標本全体では $I_n(\sigma^2) = \frac{n}{2(\sigma^2)^2}$ となります。クラメール・ラオの下限は $1/I_n(\sigma^2) = \frac{2(\sigma^2)^2}{n}$ です。
この例では、
推定量の分散 $\\operatorname{Var}(T)$ がクラメール・ラオの下限に完全に一致しています。これは、
推定量 $T$ が分散 $\\sigma^2$ の
有効推定量であることを示しています。
しかし、分散が既知の
正規分布の平均推定のように、
有効推定量の存在は保証されません。また、前述のように不偏でない
推定量(例えば、上記の例で分母を $n+2$ に変更した
推定量)を用いることで、不偏
推定量の持つクラメール・ラオの下限よりも小さな分散や平均二乗誤差を達成できることもあります。これは推定における「不偏性」と「分散」のトレードオフの一例を示しています。
クラメール・ラオの限界は、
推定量の性能を評価し比較する上での基本的な基準点を提供し、統計理論と応用において広く用いられています。