回帰(かいき、英: regression)は、
統計学における手法の一つで、従属変数(目的変数)Yと独立変数(説明変数)Xとの関係を数式で表すことを目的とします。Yが連続的な数値で表される場合にモデル化され、独立変数が1つの場合を単
回帰、複数の場合を重
回帰と呼びます。また、Yが離散的な場合には分類の手法が適用されます。
回帰分析(かいきぶんせき、英: regression analysis)は、その
回帰の手続きを含む
分析方法です。
歴史的背景
「
回帰」という用語は、19世紀に生物学者
フランシス・ゴルトンによって生み出されました。ゴルトンは、身長が高い祖先を持つ個体の子孫が、その
平均身長に戻る傾向があることを示したことから、「
平均への
回帰」という考え方に至りました。この現象をモデル化するために、彼は線形
回帰の概念を確立しました。現在では、
回帰という言葉は
統計学全般に広がりを持つようになっています。
回帰分析では、独立変数と従属変数の関係を数式によってモデル化し、それを実データに当てはめていきます。例えば、国民所得(X)とその国における
消費(Y)の関係を考えた際、Yを従属変数、Xを独立変数とするモデルが以下のように表されます。
$$Y = aX + b$$
ここで、aやbはモデルのパラメータであり、これらの値を推定することが
回帰分析の重要な部分です。最も一般的に使用される方法は線形
回帰ですが、非線形な
相関が存在する場合には非線形
回帰を用いることもあります。
モデルの種類
回帰にはいくつかの種類があり、主に次のようなモデルが存在します:
1.
線形回帰 - 最も基本的なモデル。
2.
リッジ回帰、ラッソ回帰、エラスティックネット -
正則化項を含むモデル。
3.
非線形回帰 - k近傍法、
回帰木、
ニューラルネットワークなど。
パラメータ推定の手法としては
最小二乗法が一般的です。この手法では、実際のデータ点とモデルから予測される点との差の二乗の和を最小化する形でパラメータを推定します。
注意点と問題
重
回帰分析においては、説明変数同士の強い
相関、いわゆる多重共線性に注意が必要です。例えば、理科のテスト点数を従属変数とし、算数と国語の点数を説明変数にした場合、算数と国語の間で高い
相関があれば解析結果が誤った解釈を生む可能性があります。このような場合、変数の加工や適切なモデルの選択が求められます。例えば、算数と国語の得点の差を使うことで、
相関を低減し、解釈を容易にすることができます。
結論
回帰分析は、さまざまな分野に応用可能であり、
経済学や科学研究などで多く利用されています。適切なモデル選択と解釈により、データに潜む関係性を明らかにする力を持っています。例えば、
R言語などの解析ソフトウェアを用いることで、簡単にモデルのフィッティングや
可視化が可能です。
回帰分析はこのように、データ科学の基本的な手法の一つとして広く活用されています。