生物の進化的な系統関係を明らかにするためのアプローチの一つに、
距離行列法(または距離法)があります。これは、比較対象となる生物群の間にある進化的な隔たり、すなわち「進化距離」を数値化し、それらをまとめた「
距離行列」を用いて系統樹を構築する解析手法の総称です。
距離行列を作成する第一段階として、比較対象となる生物群が持つDNAや
タンパク質といった生体高分子の配列データを取得します。これらの配列データを比較し、どれだけの違い(相違)があるかを計算することで、生物群間の近縁性の度合いを数値化します。この数値は進化距離と見なされ、配列の相違を進化的な隔たりに換算することができます。
進化距離の計算にあたっては、単に
塩基やアミノ酸の置換数を数えるだけでなく、置換の種類や頻度などを考慮した「進化モデル」を用いることが一般的です。例えば、Jukes-Cantorの1パラメータモデルやKimuraの2パラメータモデルなどが考案されており、これらのモデルを仮定することで、より現実に近い進化距離を推定することが可能になります。比較対象となる全ての生物群のあらゆる組み合わせについて進化距離を算出すると、それらを一覧できる表形式の
距離行列が完成します。
距離行列の利用は、その後の系統樹構築計算を効率的に行えるという利点をもたらします。また、距離情報は配列データのみに限定されず、特定の
遺伝子の有無をスコアリングしたり、染色体構造の変化に必要な最小回数を距離と定義したりするなど、他の生物学的情報に基づいて算出することも可能です。
系統樹の構築手法
距離行列が準備できたら、次はこの情報を基に系統樹を構築します。
距離行列法には、距離情報から系統樹を構築するアルゴリズムの違いにより、いくつかの代表的な手法が存在します。
UPGMAは、
距離行列中で最も進化距離が小さい(すなわち最も近縁な)2つの生物群やグループを選び出し、それらを一つのノード(節)として結合する操作を繰り返すことで系統樹を作成します。結合されたグループと残りの要素との距離は、グループ内の要素間の平均距離として再計算されます。各枝の長さは、結合された要素間の進化距離の半分として与えられます。この手法は
距離行列法の中で最も概念的に単純ですが、系統内の進化速度が一定であるという強い仮定に基づいています。この仮定が成り立たないデータでは正確な系統樹が得られにくい傾向がありますが、進化速度が一定と見なせるデータに対しては、分岐年代を推定できるという利点があります。
近隣結合法(Neighbor-Joining, NJ法)
近隣結合法はUPGMAを改良した手法として広く利用されています。まず、全ての比較対象を放射状の星型系統樹の枝先に配置されていると見なします。次に、考えられる全ての2つの要素のペアを仮に結合して系統樹を作成し、その系統樹全体の枝長の合計を計算します。この合計枝長が最も小さくなるペアを、実際の系統樹で近隣(最も近い関係)として結合するという操作を繰り返します。UPGMAと異なり、系統間で進化速度が異なっていても対応できるため、進化速度に偏りがあるデータに対しても比較的正確な系統樹を作成することが可能です。計算速度が速く、正確性も比較的高いため、
距離行列法の中で最も広く用いられています。
最小進化法(Minimum Evolution, ME法)
最小進化法は、考えられる系統樹の全ての形状について、その系統樹全体の枝長の合計を計算し、その合計が最も短くなる系統樹を最適樹として選択する手法です。UPGMAや
近隣結合法のように段階的な結合で局所的な最適化を行うのではなく、全体的な最適化を目指します。しかし、可能な系統樹の形状は対象数が増えると爆発的に増加するため、全ての樹形を網羅的に評価することは困難です。このため、実際には
近隣結合法などで得られた系統樹を初期値として、より短い総枝長を持つ系統樹を探索するヒューリスティックなアプローチが取られることが一般的です。
系統的最小二乗法(Systematic Least Squares, SL法)
系統的
最小二乗法もまた、最小進化法と同様に系統樹全体に最小進化の原理を適用する手法です。この方法では、
距離行列から推定される距離と、系統樹上の枝長を合計したパスの長さとの間のずれを
最小二乗法を用いて評価し、そのずれが最も小さくなる系統樹を最適と見なします。この手法もまた、最適な系統樹を見つけ出すための計算に時間を要する傾向があります。
特徴と課題
距離行列法の大きな特徴は、特にUPGMAや
近隣結合法において計算速度が非常に速いという点です。これは、これらの手法が系統樹全体の探索ではなく、
距離行列の計算と段階的な結合に計算資源の大部分を費やすため、大規模なデータセットに対しても比較的短時間で結果を得られることに起因します。最小進化法や系統的
最小二乗法は全体最適化を目指すため、より計算コストが高くなります。
一方で、
距離行列法にはいくつかの共通する課題も存在します。一つは、個々の形質状態に関する詳細な情報を、一度「距離」という数値に変換してしまう過程で、情報が失われてしまう可能性がある点です。これにより、異なる進化的な変化を経たにもかかわらず、結果として同じ進化距離として評価されてしまい、真の系統関係を正確に反映できない場合があります。また、進化モデルの仮定が実際の生物の進化プロセスと完全に一致しない場合、
距離行列自体の推定精度が低下し、得られる系統樹の信頼性にも影響が出ることがあります。
ソフトウェア
距離行列法を含む多様な系統解析手法は、分子系統解析のためのソフトウェアパッケージに実装されています。代表的なものとしては、Molecular Evolutionary Genetics Analysis (MEGA) が挙げられます。これらのソフトウェアを利用することで、研究者は比較的容易に
距離行列法を用いた系統推定を実行することができます。