シーケンスアラインメントとは
バイオインフォマティクスにおけるシーケンスアラインメントは、DNA、RNA、
タンパク質などの
配列(一次構造)を比較し、類似した領域を特定するプロセスです。これは、
配列の機能的、構造的、または進化的な関係性を理解するための重要な手段となります。
シーケンスアラインメントの基本
アラインメントされた
配列は、通常、行列の行として表現され、同一または類似の
配列が同じ列に並ぶようにギャップが挿入されます。これにより、
配列間の変異や保存された領域を視覚的に把握しやすくなります。
もしアラインメントされた2つの
配列が共通の祖先を持つ場合、不一致部分は点変異、ギャップ部分は挿入または欠失(
インデル)が生じたものと解釈されます。
タンパク質のアラインメントでは、特定の位置におけるアミノ酸の類似性は、
配列モチーフがどの程度保存されているかを示す指標となります。
アラインメントの種類
グローバルアラインメントとローカルアラインメント
グローバルアラインメント: 配列全体の類似性を評価するために、配列の全残基をアラインメントします。ほぼ同じ長さの配列の比較に適しています。
ローカルアラインメント: 配列の一部にのみ類似性がある場合に、その部分的な類似性を検出します。
配列全体としては類似性が低い場合に有効です。
ペアワイズアラインメント
2つの
配列間でのアラインメントで、部分的または全体の類似性を詳細に調べるときに用いられます。
多重配列アラインメント
3つ以上の
配列を同時にアラインメントする方法で、進化的に保存された
配列の同定などに用いられます。保存された
配列モチーフは、
酵素の
活性部位を特定したり、構造と反応機構の情報を組み合わせるのに役立ちます。
アラインメントの手法
ドットマトリクス法
2つの
配列を行と列に割り当てた行列を作成し、一致する残基の位置に点を描画します。視覚的に
配列間の類似性を把握するのに役立ちますが、大規模な計算には時間がかかります。
動的計画法
Needleman-Wunsch法: グローバルアラインメントに用いられる代表的な手法です。
Smith-Waterman法: ローカルアラインメントに用いられる代表的な手法です。
これらの手法では、アミノ酸の一致・不一致に対してスコアを付与し、ギャップにはペナルティを課すことで、最適なアラインメントを探索します。
ワード法
クエリ
配列を短い部分
配列(ワード)に分割し、データベース内の
配列との一致を検索します。FASTAやBLASTなどのアラインメントツールで用いられています。
モチーフ検索
クエリセット内の
配列から保存されたモチーフ
配列を特定します。プロファイル行列を用いて、モチーフの出現を検索します。
計算機科学による方法
隠れマルコフモデルや
遺伝的アルゴリズムなどの最適化アルゴリズムを用いて、多重
配列アラインメントのスコアを最適化します。Burrows–Wheeler変換は、高速な短い
配列のアラインメントに用いられます。
構造アラインメント
タンパク質の二次構造や三次構造の情報を用いて、
配列アラインメントを構築します。挿入や欠失は、ランダムコイルやループ上で起こるように再アラインメントされます。
その他の応用
シーケンスアラインメントは、
自然言語処理や
言語学などの分野でも応用されています。例えば、
自然言語処理では、ニードルマン-ウンシュ・アルゴリズムが用いられ、
言語学では最適マッチング法が用いられます。
まとめ
シーケンスアラインメントは、
バイオインフォマティクスにおいて
配列の類似性を比較し、機能、構造、進化的な関係性を理解するための強力なツールです。様々な種類と手法があり、目的に応じて適切なものを選択することが重要です。