多項式回帰

統計学における多項式回帰（polynomial regression）とは、ある目的となる変数（これを「従属変数」と呼びます）と、それを説明するための変数（「独立変数」）との関係を、多項式の形で表現しようとする回帰分析の手法の一つです。

基本的な考え方

一般的な単回帰分析では、従属変数 `y` と独立変数 `x` の間に直線的な関係、すなわち `y = β0 + β1x + ε` のようなモデルを仮定します。しかし、現実の世界では、変数間の関係が常に直線であるとは限りません。例えば、ある化学反応の収率が温度の上昇とともに加速度的に増加する場合など、非線形な関係が見られることがしばしばあります。

このような場合に対応するため、多項式回帰では独立変数 `x` のべき乗（`x^2`, `x^3`, ...）をモデルに含めます。例えば、2次式のモデルは `y = β0 + β1x + β2x^2 + ε` のように表されます。ここで `ε` はランダムな誤差を表します。

このモデルにおいて、独立変数 `x` が1単位変化したときの従属変数 `y` の変化量は、`x` の値に依存します。これは、直線モデル（単回帰）のように変化量が一定ではないことから、非線形な関係を捉えていることがわかります。

より一般的には、独立変数 `x` の `n` 次多項式を用いて、次のようなモデルを設定します。

`y = β0 + β1x + β2x^2 + β3x^3 + ... + βn*x^n + ε`

この `x` のべき乗によって追加される項は「高次項」と呼ばれます。これらの高次項は、統計的な分類問題においても考慮されることがあります。

なぜ線形問題とみなされるのか

多項式回帰では、モデルの形は独立変数 `x` に関して非線形ですが、推定される係数（`β0`, `β1`, ..., `βn`）に関しては線形です。これは、未知のパラメータ（係数）がモデルの中で一次の形で結合されているためです。この意味において、多項式回帰は、複数の説明変数（`x`, `x^2`, ..., `x^n` をそれぞれ独立した説明変数とみなす）を持つ重回帰分析の特別なケースと考えることができます。

歴史

多項式回帰のモデルにおける係数は、通常、最小二乗法を用いて推定されます。この最小二乗法は、1805年にルジャンドル、1809年にはガウスによって独立に発表された手法です。最小二乗法によって得られる係数は、誤差の分散が最小となるような不偏推定量（偏りがなく、分散が最小である推定量）となります。多項式回帰を用いた実験計画の初期の例は、1815年のジェルゴンヌの研究に見られます。20世紀に入り、回帰分析が発展し、実験計画や推定理論が重視される中で、多項式回帰は重要な役割を果たしてきました。

モデルの当てはめと推定

複数の観測データがある場合、多項式モデルは行列の形で表現することができます。これにより、最小二乗法の一般論に基づき、回帰係数の推定量を行列演算によって一意的に求めることが可能です。十分な数の異なる独立変数の値に対応するデータがあれば、係数は安定して推定できます。

推定されたモデルの解釈

多項式回帰は重回帰の一種ですが、その解釈には注意が必要です。独立変数 `x` とそのべき乗 `x^2`, `x^3`, ... の間には強い相関があることが多いため、それぞれの項に対応する回帰係数（`β1`, `β2`, ...）を個別に解釈することは難しい場合があります。例えば、`x` の値が特定の範囲にある場合、`x` と `x^2` の相関係数は非常に高くなることがあります。この問題を軽減するために、直交多項式を利用する手法もあります。

しかし、それよりも、推定された多項式関数全体として、従属変数 `y` が独立変数 `x` に対してどのように変化するかを捉える方が、より示唆に富む解釈が得られることが多いです。特定の値における予測値の信頼区間や、関数全体の同時信頼区間を見ることで、モデルの不確かさを評価することができます。

代替するアプローチ

多項式回帰は、独立変数と従属変数の関係を特定の「基底関数」（ここでは独立変数のべき乗）の線形結合として表現する回帰手法の一つです。多項式回帰の課題としては、基底関数であるべき乗項の性質上、ある点の予測値が独立変数の範囲全体にわたるサンプルデータの影響を強く受けてしまう点が挙げられます。

非線形な関係をモデル化する代替手法としては、スプライン関数、放射基底関数、ウェーブレットなどの異なる基底関数を用いた回帰手法があります。これらの関数族は、より柔軟に多様なデータに適合できる場合があります。

また、独立変数と従属変数の間の非線形関係を捉えようとするノンパラメトリック回帰手法も、多項式回帰の強力な代替手段となり得ます。これらの手法には、データの局所的な情報を用いて滑らかな関数を推定する平滑化の手法などが含まれます。ただし、ノンパラメトリック回帰の中には、局所的な多項式回帰を利用するものもあります。

従来型の多項式回帰の利点は、その推定が最小二乗法に基づいており、統計的な推測（例えば、係数の有意性の検定や信頼区間の計算）のためのフレームワークが確立されている点です。これは、スプラインなどの他の基底関数を用いる場合にも同様に活用できる利点です。

さらに、カーネル法を用いた手法（例えば、多項式カーネルを用いたサポートベクターマシンによる回帰）も、非線形回帰の代替手段として考えられます。

Microsoft Excelなど、一部のソフトウェアでは、散布図に対して多項式曲線を当てはめる機能が提供されています。

多項式回帰