赤池情報量規準(AIC)
赤池情報量規準(あかいけじょうほうりょうきじゅん)、一般にAIC(Akaike's Information Criterion)という名称で知られるこの
指標は、
統計モデルの性能を評価するために用いられる重要な基準です。1971年に日本の
統計学者である赤池弘次によって考案され、1973年に発表されました。AICは、モデルの複雑さとデータへの適合度との最適なバランスを取るための方法として、特に
統計学の領域で広く利用されています。
AICの基本的な考え方
AICの基本的な目的は、与えられたデータを用いて最も適合する
統計モデルを選択することにあります。データに対するモデルの適合度は、通常、
パラメータの数が多いほど良くなる傾向がありますが、過度なモデルの複雑さは過適合という問題を引き起こします。過適合とは、モデルがデータのノイズや偶然の変動に過剰にフィットしてしまい、他のデータセットに対しての一般化能力が低下する現象です。
この問題に対処するため、AICは「モデルの適切な複雑さ」を測る
指標を提供します。具体的には、AICの値を最小化するモデルを選択することで、良好なモデルを導き出すことができるとされています。
AICの数式と変形
AICは主に次の公式で表現されます。
$$
AIC = 2k - 2 ext{ln}(L)
$$
ここで、$L$はモデルの最大尤度、$k$はモデルの自由
パラメータの数を示します。この数式は、モデルの複雑さ(
パラメータ数)とデータへの適合度のトレードオフを表現しています。
さらに、AICは他の形式でも表現されることがあります。例えば、
パラメータとして局外変数(誤差の大きさを表す
パラメータ)を考慮しない場合や、各標本の誤差項が独立で
正規分布に従う場合には、AICは異なる形で表されます。これによりさまざまなモデルに適用可能な柔軟性を持つのです。
AICの有限修正
AICの導出には漸近理論が用いられており、それによって標本サイズが無限であるという前提が成立しています。しかし、標本サイズが小さい場合においては、モデルの
パラメータ数を過大に見積もってしまう傾向がありました。このような課題を克服するために、有限修正AIC(c-AIC)が提案され、小さなサンプルサイズにおいてより正確なモデル選択が行えるようになりました。
その他のモデル選択基準
ただし、AICを最小化することで常に最良のモデルが選ばれるとは限りません。そのため、AICの他にも、
ベイズ情報量規準(BIC)、
最小記述長(MDL)など、さまざまなモデル選択基準が提案されています。特に、BICやMDLは広く認識される基準であり、それぞれ異なるアプローチでモデルの評価を行います。
さらに、赤池
ベイズ情報量規準(ABIC)も1980年に提案され、ベイズモデルの予測力を評価するために利用されています。これらの基準は、AICと同様に重要な
統計的手法として位置づけられています。
結論
赤池情報量規準(AIC)は、
統計モデルの評価における有力な手段であり、モデルの選択においてデータに対する適合度と複雑さを適切に考慮するための基準を提供します。
統計学におけるAICの有用性は、他の基準と組み合わせることでさらに強化され、様々な場面でのモデル評価において不可欠な存在となっています。