長枝誘引(Long Branch Attraction)とは
長枝誘引とは、進化の系統関係を推定する系統解析、特に分子データを用いた系統解析において発生する問題の一つです。この現象は、特定の生物群(分類群)の進化速度が他の群に比べて著しく速い場合に起こりやすくなります。系統樹を作成する際に、進化速度が速いために見かけ上の変異が多く蓄積した系統の枝が不自然に長くなり、結果として、実際には遠縁であるはずの、別の長い枝を持つ分類群と誤って近縁であるかのように推定されてしまうことを指します。これは分子系統解析において最も深刻な誤りの原因の一つとされています。
原理
系統樹は、解析対象とする生物群(内群)と、それらとは十分に遠縁であることが分かっている生物群(外群)を含めて構築されるのが一般的です。系統樹の枝の長さは、通常、その系統が共通祖先から分岐して以降に蓄積したDNAの
塩基置換やアミノ酸置換といった進化的な変化量を示します。したがって、古くから存在し、長い進化時間を持つ系統の枝は、比較的最近分岐した系統の枝よりも長くなる傾向があります。
しかし、ある系統で
塩基やアミノ酸が置換する速度(進化速度)が他の系統と比較して極端に速い場合、たとえ分岐からの時間が短かったとしても、多くの変異が短期間で蓄積するため、その系統の枝は他の枝よりも相対的に長く伸びます。系統推定手法は、配列データの類似性などに基づいて近縁関係を判断しますが、進化速度の速い長い枝を持つ系統は、見かけ上の変異パターンが似通うことで、本来の位置からずれて他の長い枝を持つ系統と結びつきやすくなります。これにより、実際とは異なる系統関係が推定されてしまうのです。
特に、同じ
塩基やアミノ酸の部位で複数回の置換が起こる「多重置換」も、長枝誘引の一因となります。多重置換が発生すると、実際の変異回数よりも観察される配列間の差異が小さく見積もられることがあります。これにより、本来遠縁な系統が、多重置換によって偶然似たような状態になった部位を持つことで、見かけ上近縁であるかのように誤認されます。系統樹上では、多重置換が多い(見かけ上の変異が少ない)枝は内側に入り、多重置換が少ない(見かけ上の変異が多い)枝が外側へ追いやられ、誤った配置につながります。
この現象を視覚的に示す例として、4つの分類群A, B, C, Dからなる系統樹がよく用いられます。もし真の系統関係が例えば(A, B), (C, D)がそれぞれ近縁で、(A, B)グループと(C, D)グループが遠縁である場合でも、AとCの進化速度が速く枝が長いと、系統解析の結果ではAとCが誤って近縁であるかのように推定されてしまうことがあります。長枝誘引の影響が強く現れる特定の条件は「Felsensteinゾーン」と呼ばれます。有根系統樹の場合、進化速度が大きい系統は、しばしば外群に近い、つまり根元近くから分岐したかのように誤って推定される傾向が見られます。
系統推定法への影響
長枝誘引は、様々な系統推定手法に影響を及ぼします。
形質状態法
最大節約法や最尤法といった形質状態法は、枝ごとの進化速度のばらつき自体を直接仮定しているわけではありませんが、多重置換を正確に評価することが難しいという性質から長枝誘引の影響を受けやすいとされます。特に、多重置換を全く考慮しない単純な最大節約法では、この影響が顕著に現れます。例えば、かつてアミノ酸配列を用いた系統解析で、
モルモットの特定の遺伝子(リポ
タンパク質リパーゼ)の進化速度が速いために、本来げっ歯類である
モルモットが
ヒトに近縁であるかのような誤った結果が得られた事例が知られています。最尤法においても、解析に用いる進化モデルが実際の進化過程と乖離している場合に、多重置換を適切に扱えず、長枝誘引による誤った系統が導かれることがあります。
研究によると、最大節約法はデータサイズが大きいほど長枝誘引の影響が顕著になる傾向がある一方、最尤法では真の進化過程に近いモデルを用いればデータサイズ増大により影響を軽減できる場合があります。しかし、現実の複雑な進化過程を完璧にモデル化することは不可能であり、モデルと実際との不一致(例:座位間の進化速度差や置換パターンの違いを無視する)がある場合には、最尤法でも長枝誘引の影響は残り得ます。最大節約法と最尤法のどちらが長枝誘引に対してより頑健かについては議論があり、シミュレーション条件によって結果が異なるとされていますが、全体的には適切な進化モデルを用いた最尤法がやや優れているという見解が多いようです。
距離行列法
近隣結合法のような距離行列法も、枝長に大きなばらつきがある場合には正しい系統関係を復元するのが困難になることがあります。しかし、形質状態法と比較して長枝誘引に対する全体的な成功率が高い場合もあると報告されています。また、距離行列法では、解析に用いるデータサイズ(分類群の数)を増やすことで、長枝誘引の影響を軽減し、ある程度の規模のデータがあれば影響を完全に除去できる可能性も示唆されています。
対策と克服
長枝誘引に対処するためには、その根本原因である進化速度の系統間や座位間の不均質性を考慮することが重要です。進化モデルを明示的に仮定する手法では、座位ごとの進化速度のばらつきを考慮したモデル(例えばガンマ分布モデル)を用いることが有効です。ただし、これらのモデルも仮定に基づいており、進化速度自体が時間と共に変化する可能性など、現実の複雑さを捉えきれない限界もあります。
特定の遺伝子や領域で進化速度が著しく速いことが分かっている場合、それらのデータを解析から除外することも有効な手段の一つです。かつて
植物のあるグループ(グネツム目)の系統解析で長枝誘引の影響が疑われ、進化速度の速い遺伝子を除外することで異なる系統関係が示唆された事例があります。
また、解析に含める分類群の数を増やすことも対策となります。特に、長い枝を持つ系統の中間的な位置から分岐した分類群や、適切な外群をデータセットに加えることで、見かけ上の近縁関係が多重置換によるものなのか、それとも真の共有派生形質によるものなのかをより正確に判断できるようになります。データサイズを増やすことは、計算負荷の増大につながりますが、ソフトウェアの改良により、近年では数千種といった大規模なデータセットを用いた系統解析も現実的になっています。
長枝誘引は系統推定の信頼性を損なう重要な問題ですが、進化モデルの改善、データの選別、解析手法の工夫など、様々なアプローチによってその影響を軽減・克服するための研究が進められています。