部分的最小二乗回帰 (PLS回帰)
部分的最小二乗回帰(Partial Least Squares Regression、略称: PLS回帰)は、統計解析における多変量解析手法の一つです。偏最小二乗回帰、または単に部分最小二乗回帰とも呼ばれます。この手法は、説明変数(予測因子)の
行列と応答変数(観測可能な変数)の
行列の間に存在する根本的な関連性や
共分散構造を明らかにするために用いられます。
主成分回帰との関連性
PLS回帰は、主成分回帰といくつかの共通点を持つ統計手法ですが、そのアプローチには違いがあります。主成分回帰が説明変数空間における最大分散の方向を探すのに対し、PLS回帰は予測変数と応答変数の両方を新たな空間に
射影し、それらの間の
共分散を最大化するような方向を探します。この性質から、PLSに基づく手法群は「双線形因子モデル」とも分類されます。また、応答変数が質的な分類データである場合には、派生手法である部分的最小二乗判別分析(PLS-DA)が適用されます。
特徴と利点
PLS回帰の主な目的は、予測変数(X)の空間が応答変数(Y)の空間における多次元的な分散方向をいかに説明するかを探ることです。この手法は、予測因子の数が観測データの数を大きく上回る場合や、予測因子間に強い相関関係(多重共線性)が存在する場合に特に強力なツールとなります。このような状況下では、標準的な
線形回帰手法(特に正則化を伴わない場合)は不安定になったり、適切な解が得られなかったりすることがありますが、PLS回帰はこうした問題を克服する能力を持っています。
歴史と応用分野
部分的
最小二乗法の概念は、スウェーデンの
統計学者ヘルマン・ウォルドによって提唱されました。その後、彼の息子であるスヴァンテ・ウォルドと共に発展を遂げました。スヴァンテ・ウォルドは、「projection to latent structures(潜在構造への
射影)」という名称がより正確であると述べましたが、広く「部分的
最小二乗法」という用語が使われています。PLS回帰の初期の応用は社会科学分野で見られましたが、現在では特に
計量化学(ケモメトリクス)とその関連分野で非常に広く利用されています。その他にも、
バイオインフォマティクス、感覚計量学、神経科学、人類学など、多岐にわたる分野で活用されています。
基本モデルの考え方
多変量PLSの基本的な考え方は、予測変数
行列 X と応答変数
行列 Y を、それぞれ潜在変数スコア
行列 T および U、ローディング
行列 P および Q、そして
誤差項 E および F に分解することに基づいています。この分解は、T と U の間の
共分散を最大化するように行われます。これにより、X と Y の複雑な関係性を、より低次元の潜在変数空間で捉えることが可能となります。
アルゴリズムの概要
PLSの具体的な計算方法にはいくつかのバリエーションが存在します。これらのアルゴリズムは、潜在変数スコア
行列やローディング
行列を推定し、最終的に X から Y を予測するための
線形回帰モデルの係数を求めます。例えば、PLS1と呼ばれるアルゴリズムは、応答変数が単一のベクトルである場合に広く用いられ、計算過程でデータのセンタリングが暗黙的に行われる特徴を持ちます。潜在因子の数を適切に選択することで、モデルの複雑さを調整できます。
拡張手法
PLS法は様々な方向に拡張されています。例えば、2002年に発表された「潜在構造に対する直交
射影(OPLS: Orthogonal Projections to Latent Structures)」は、説明変数データを予測に寄与する部分と無相関の部分に分離することで、モデルの解釈性を向上させます。OPLS-DA(Discriminant Analysis)は、分類問題に応用される手法です。また、L-PLS法は3つのデータブロックを扱うPLS回帰への拡張です。さらに、特定の条件下では three-pass regression filter (3PRF) と呼ばれる手法との関連性も示されており、大規模データにおける漸近正規性などが研究されています。
ソフトウェア実装
PLS回帰は多くの主要な統計解析ソフトウェアパッケージで利用可能です。これにより、様々な分野の研究者や実務家がこの強力なツールを容易に利用できるようになっています。
利用することができます。
計量化学、
バイオインフォマティクス、マーケティング、経済学など、多量のデータから変数間の関係性を明らかにし、予測モデルを構築する必要がある様々な応用で広く採用されています。特に、高次元データや変数間に強い相関があるデータセットに対して、安定した信頼性のあるモデルを提供できる点が評価されています。
PLS回帰は、単なる予測にとどまらず、潜在構造を通じて変数間の複雑な関係性を理解するためにも有用です。ローディングやスコアを分析することで、どの説明変数が応答変数に影響を与えているか、あるいはデータの中にどのようなグループやパターンが存在するかといった洞察を得ることができます。これにより、科学的な発見やビジネス上の意思決定を支援するツールとしても機能します。
総じて、部分的最小二乗回帰は、現代のデータ駆動型研究や分析において不可欠な統計的手法の一つであり、その理論と応用は今後もさらに発展していくことが期待されます。