重回帰分析

回帰分析(じゅうかいきぶんせき)



概要



回帰分析は、複数の説明変数(独立変数)を用いて、一つの目的変数(従属変数)の値や変動を予測したり説明したりするための統計的手法です。これは、説明変数が一つのみである単回帰分析を拡張した手法であり、多変量解析の一種に位置づけられます。

一般的に広く利用されている最小二乗法一般化線形モデルに基づく重回帰分析は、数学的には線形分析の範疇に含まれ、分散分析など他の線形モデルと多くの共通点を持っています。適切な説明変数を複数選択することで、データに基づき計算が容易で、かつ誤差が比較的少ない予測モデルを構築できる点が特徴です。

モデルと係数



重回帰モデルは通常、目的変数をy、説明変数をx1, x2, ..., xk、定数項をa、各説明変数に対応する係数をb1, b2, ..., bkとした場合、次のような線形結合の形式で表されます(最小二乗法の場合)。

`y = a + b1x1 + b2x2 + ... + bkxk + ε`

ここで、εは誤差項です。

この式の各説明変数(xk)に対応する係数(bk)は「偏回帰係数」と呼ばれます。偏回帰係数は、他のすべての説明変数の値を固定したまま、その説明変数が1単位増加したときに目的変数がどれだけ変化するかを示します。しかし、説明変数それぞれの目的変数に対する影響度の大きさを直接比較するには適していません。説明変数の単位が異なる場合があるためです。影響度を比較したい場合は、データを標準化してから得られる「標準化偏回帰係数」を用います。標準化偏回帰係数は、説明変数が1標準偏差変化したときの目的変数の標準偏差の変化量を示唆します。

偏回帰係数(PRC)と標準化偏回帰係数(SPRC)の間には、説明変数(SDRV)と目的変数(SDEV)の標準偏差を用いて、おおよそ以下のような関係が知られています。

`{\displaystyle SPRC=PRC\times {\frac {SDEV}{SDRV}}}`

解釈と注意点



例えば、中学生を対象とした調査で、学年(小学時代の勉強時間 t_SJ、中学時代の勉強時間 t_C)から語彙数(n)を予測する重回帰式が以下のように得られたとします。

`{\displaystyle t_{C}\times 3+t_{SJ}\times 5+20=n}`

この式に基づくと、ある生徒が中学で100時間、小学生時代に20時間勉強していた場合の語彙数は、`100 × 3 + 20 × 5 + 20 = 300 + 100 + 20 = 420`語と計算されます。

また、この式の「中学時代の勉強時間 × 3」という部分は、「他の条件(ここでは小学生時代の勉強時間)が一定であれば、中学時代の勉強時間が1時間増えるごとに、平均して3単語多く覚える」という解釈ができます。

ただし、ここで算出される係数(例:中学時代の勉強時間の「3」や小学生時代の勉強時間の「5」)は、データ全体の傾向を最もよく説明できるように計算された「平均的な値」です。したがって、個々の生徒にこの式を当てはめた結果が、その生徒の実際の語彙数と完全に一致するわけではありません。例えば、計算上は420語でも、実際の語彙数は450語かもしれません。係数は、データ全体で見たときに最もフィットする値として導出されています。

また、重回帰分析で使用する説明変数は、分析者が「これが目的変数に影響を与えるだろう」と仮定して選択するものです。上記の例では「勉強時間が語彙数を決める」と仮定していますが、これは絶対的な真実ではありません。この仮定の下で分析を行い、予測式を作成することは可能ですが、得られた関係が直接的な原因と結果を示す因果関係であることは、重回帰分析単独では保証されません。

カテゴリ変数の扱い(ダミー変数)



性別や地域、商品の種類など、数値として意味を持たないカテゴリデータ(名義尺度)を説明変数として回帰分析に組み込みたい場合は、「ダミー変数」を導入します。これは日本でいう数量化I類と実質的に同じ考え方に基づいています。

ダミー変数は、特定のカテゴリに属するかどうかを示すために、通常「0」と「1」の値をとる変数として設定されます。例えば、性別であれば、男性を示すダミー変数(男性なら1、女性なら0)のように定義します。複数のカテゴリがある場合(例:信号の色が「赤」「黄」「青」)、カテゴリの数よりも一つ少ない数のダミー変数を作成します(例:「青」ダミー変数、「黄」ダミー変数)。一つを除外するのは、すべてのカテゴリのダミー変数を含めると完全に線形従属な関係が生じ、分析が不可能になる多重共線性の問題を避けるためです。

例として、信号の色による車の平均通過速度を予測する式が以下のように得られたとします。

`{\displaystyle {\overline {v}}=50\times \delta _{B}+15\times \delta _{Y}+0}`

ここで、δBは青信号の場合に1、それ以外(黄または赤)で0をとるダミー変数、δYは黄信号の場合に1、それ以外(青または赤)で0をとるダミー変数です。この場合、どちらのダミー変数も0となる条件は赤信号です。式に代入すると、赤信号のときの平均速度は0となります。青信号の場合はδB=1, δY=0となり、平均速度は50と推定されます。黄信号の場合はδB=0, δY=1となり、平均速度は15と推定されます。

別の例として、性別から体重を予測する式が以下のように得られたとします。

`{\displaystyle w=12\times \delta _{m}+50}`

ここで、wは体重、δmは男性の場合に1、女性の場合に0をとるダミー変数です。この式は、δm=0の場合(女性)の平均体重が50kgであることを示し、δm=1の場合(男性)の平均体重は50+12=62kgであることを示しています。この結果は、元のデータを性別ごとに単純平均した場合の平均体重と一致します。

性別と学年など、複数のカテゴリ変数を組み合わせて分析することも可能です。例えば、`w = α × δm + β × G + γ × (δm × G)` のように、カテゴリ変数と量的変数の組み合わせや、カテゴリ変数同士の交互作用をモデルに含めることもできます(Gは学年、δm×Gは男性かつ該当学年の場合に値を持つ交互作用項)。

さらに、特定のカテゴリの組み合わせ(例:「男性で1年生」なら1、それ以外なら0)ごとに細かくダミー変数を作成し、多くのダミー変数をモデルに投入することも理論上は可能ですが、実際には推奨されません。説明変数の数が大幅に増加すると、ダミー変数間で高い相関(多重共線性)が生じやすくなるほか、信頼できる結果を得るために非常に大きなサンプルサイズが必要となるため、実用性は乏しいと言えます。

多重共線性の問題と対策



回帰分析、特にマーケティングやアンケートデータで用いられる一般的な手法では、選択された説明変数どうしの間に強い相関がない、という暗黙の仮定が置かれています。この仮定が満たされない、すなわち説明変数どうしが強く関連している状態を「多重共線性」と呼びます。

多重共線性が発生すると、回帰係数の値が不安定になり、推定された係数が直感に反するような値になったり、符号が想定と逆になったりすることがあります。例えば、小学校の理科のテストの点数(目的変数)を、数学と国語の点数(説明変数)で予測しようとした場合を考えます。一般的に、数学と国語の成績には強い正の相関があります(学習習慣や知能などが共通して影響するため)。このような状況で分析を行うと、「数学の点数が高いほど理科の点数が増える」という結果と同時に、「国語の点数が高いほど理科の点数が減る」といった不自然な係数が算出されることがあります。これは、数学と国語の点数が互いに強く関連しているために、個別の影響度を正確に分離して推定するのが難しくなるために起こります。

実務における多重共線性の対応策としては、いくつかの方法があります。

一方の説明変数を除外する: 強く相関する説明変数のうち、一方をモデルから取り除くのが最も簡単で手軽な方法です。
変数変換: 強く相関する説明変数(例:数学と国語の点数)を、その和と差(例:合計点、点数の差)に変換してモデルに投入する方法です。和と差の変数間には相関が低いことが多く、また「合計点が高いほど理科の点数が高い」「数学の方が国語より得意な生徒ほど理科の点数が高い」のように解釈も比較的容易です。ただし、元の変数間の差得点は、元の変数よりも信頼性が低下する傾向があるため、サンプルサイズを十分に確保するなどの注意が必要です。
主成分分析などの次元削減手法: 説明変数群を、互いに無相関ないくつかの合成変数に変換してから回帰分析を行う方法です。

モデル評価の注意点



予測モデルの当てはまりの良さを示す指標として[決定係数]がありますが、予測に実質的な貢献をしない説明変数をモデルに加えても、R²は上昇する傾向があります。そのため、単にR²の値だけでモデルの良し悪しを判断するのは適切ではありません。モデル選択においては、説明変数の数によって調整された「修正[決定係数]」を参照したり、統計的な規準であるAIC(赤池情報量規準)やBIC(ベイズ情報量規準)を用いたりすることが推奨されます。

また、どの説明変数を選択するかを機械的に決定するステップワイズ法などの手法もありますが、これらは必ずしも最適なモデルを導くとは限らず、解釈が難しくなる場合もあるため、変数選択は理論的な背景や実務的な知見に基づいて慎重に行うことが重要です。

ソフトウェア



回帰分析は非常に一般的な手法であるため、ほぼ全ての統計解析ソフトウェアで実行可能です。

Microsoft Excel (分析ツール)
SAS
Stata
SPSS
R言語 (lm関数など)
Python (Statsmodels, scikit-learnなど)
その他の多くの統計パッケージ、多変量解析ソフトウェア

特にR言語統計解析に特化したフリーウェアであり、豊富な統計関数が標準で利用できるほか、CRANという仕組みを通じて世界中のユーザーが開発したパッケージ(拡張機能)を無償で利用できます。データの読み込みや加工、結果の可視化機能も優れています。

関連する分析手法



回帰分析 (単回帰分析を含むより広い概念)
分散分析 (数学的に重回帰分析と関連が深く、モデル全体の有意性検定に用いられる)
数量化I類 (ダミー変数を用いた回帰分析に類似)
ロジスティック回帰分析 (目的変数がカテゴリ変数である場合に使用される)
プロビット分析 (目的変数がカテゴリ変数である場合に使用される)
正準相関分析 (一方の変数群が単一変数であれば重回帰分析と関連が深い)
パス解析 (複数の回帰モデルを連鎖させた分析)
* 共分散構造分析 / 構造方程式モデリング (複数の回帰モデルや潜在変数を含む複雑なモデルを扱う)

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。