非加重結合法(Unweighted Pair Group Method with Arithmetic mean、略称UPGMA)は、分子データや形態データなどを用いて生物間の系統関係を推定する際に用いられる手法の一つです。特に、対象間の「
距離」を示す数値(例えば、塩基配列の相違率や形態的特徴の類似度を数値化したもの)を入力データとして利用する
距離行列法に分類されます。
UPGMAは、系統樹を根元から先端へと構築していくボトムアップ型の手法です。この手法の大きな特徴は、系統樹上の各枝の長さが進化の速度を示すと解釈できる場合に、進化速度がすべての系統において一定である(いわゆる「
分子時計仮説」が成り立つ)という重要な仮定を置く点にあります。この仮定のもとで、対象間の
距離に基づいた有根系統樹、つまり共通の祖先から分岐した様子が分かる系統樹を作成します。
原理とアルゴリズム
UPGMAは、複数のクラスタ(集団)を段階的に統合していくことで系統関係を推定します。その基本的な考え方は、最小進化原理に基づいています。この原理は、観測されたデータをもっともよく説明する系統樹は、そのすべての枝の長さを合計した「総枝長」が最小になる樹形である、というものです。
具体的なアルゴリズムは以下の手順で進行します。
1.
初期設定: 解析対象となる各生物(またはデータ)を、それぞれが独立した一つのクラスタとみなします。対象間の
距離を示す
距離行列を用意します。
2.
最近接クラスタの探索: 現在の
距離行列の中から、最も
距離が近い(値が最小の)二つのクラスタを探し出します。
3.
クラスタ間距離の計算: 選択された二つのクラスタAとBの間の
距離を計算します。UPGMAでは、Aに属する任意の要素とBに属する任意の要素との間の
距離をすべて求め、その算術平均をもってクラスタAとBの間の
距離と定義します。これが「非加重」の名前の由来の一つであり、各要素が等しく扱われることを意味します。
4.
クラスタの統合: 最も
距離が近いとされた二つのクラスタ(例:AとB)を、一つの新しいクラスタ(AB)として統合します。この際、系統樹上でAとBが分岐するノードの位置を決定します。
5.
距離行列の更新: 新しくできたクラスタ(AB)と、それ以外の既存のすべてのクラスタとの間の
距離を再計算し、
距離行列を更新します。
6.
繰り返し: 全ての対象が一つのクラスタに統合されるまで、手順2から5を繰り返します。最終的に、すべての対象の間の系統関係と分岐点からの枝の長さが決定され、有根系統樹が完成します。
特徴と評価
UPGMAの大きな利点は、そのアルゴリズムが比較的単純であり、計算効率が非常に高いことです。特に、同じ
距離行列法である
最小二乗法や最小進化法のように、考えられる多くの系統樹の総枝長を計算して比較する必要がないため、大規模なデータに対しても高速に解析を行うことが可能です。
また、解析対象間で実際に進化速度がほぼ均一である場合には、UPGMAは比較的正確な系統樹を再構築できることが知られています。
しかしながら、自然界において多くの生物群で進化速度が常に一定であるという仮定は、しばしば成り立ちません。異なる系統で進化速度にばらつきがある場合、UPGMAはこの速度差を
距離の差として認識し、実際には遠縁ではない系統を遠縁と判断したり、分岐順序を誤ったりする可能性が高くなります。この進化速度一定の仮定に起因する系統推定の誤差は、UPGMAの最大の欠点とされています。
同じく
距離行列法でありながら、この進化速度一定の仮定を置かない
近隣結合法(Neighbor-Joining method、NJ法)に比べると、UPGMAは誤った系統樹を導きやすいため、系統推定においては
近隣結合法の方が一般的に広く利用されています。
他の手法との関係
近隣結合法は、UPGMAのアルゴリズムに改良を加えることで開発された手法です。また、最尤法(Maximum Likelihood method、ML法)や最大節約法(Maximum Parsimony method、MP法)のような形質状態法と呼ばれる系統推定手法では、系統樹の探索を開始するための初期系統樹が必要となる場合がありますが、その初期樹としてUPGMAによって求められた系統樹が利用されることもあります。このように、UPGMAはそれ自体で系統推定に用いられるだけでなく、他のより複雑な手法の基盤や出発点としても機能することがあります。