FASTA

FASTA（ファストエー）

概要

FASTAは、バイオインフォマティクス分野において、DNAやタンパク質の配列情報を高速に比較・整列（アラインメント）させるための主要なソフトウェアパッケージの一つです。大量の配列データの中から、類似性の高い配列を効率的に見つけ出すことを目的として開発されました。BLASTなど、他にも同様の機能を持つツールが存在しますが、FASTAはその先駆けの一つとして知られています。

歴史

このソフトウェアの起源は、1985年にデヴィッド・J・リップマンとウィリアム・R・ピアスンによって開発された「FASTP」というプログラムに遡ります。当初のFASTPは、主にタンパク質のアミノ酸配列データベースに対して、入力されたアミノ酸配列との類似性を検索するために設計されていました。その後、改良が加えられ、1988年版ではDNAの塩基配列の類似性を検索する機能も追加されました。FASTPに比べて、FASTAはより洗練されたアルゴリズムを採用しており、単に類似度を計算するだけでなく、得られたアラインメントの統計的な有意性を評価する機能を持ちます。

FASTAという名称は、「FAST-P」（Protein; タンパク質のアライメント）と「FAST-N」（Nucleotide; ヌクレオチド、すなわちDNAやRNAのアライメント）の両方を包含する「FAST-All」を意味しており、「FAST-Aye」（ファストエー）と発音されます。

機能

FASTAソフトウェアパッケージには、様々なタイプのアラインメントを行うための複数のプログラムが含まれています。現行バージョンでは、以下のような多様な検索を実行可能です。ここで、検索対象として提供する配列を「クエリー配列」、検索対象となるデータベースに含まれる配列を「データベース配列」と呼びます。

塩基配列のクエリーを用いて、塩基配列データベースを検索する。
塩基配列のクエリーを、対応するアミノ酸配列に翻訳した上で、アミノ酸配列データベースを検索する。
アミノ酸配列のクエリーを用いて、アミノ酸配列データベースを検索する。
アミノ酸配列のクエリーを用いて、塩基配列データベースを検索する際、データベースの塩基配列をアミノ酸配列に翻訳して比較する。
複数の短いペプチド鎖をクエリーとして、アミノ酸配列データベースを検索する。
生物学的な変異の一つであるフレームシフト突然変異を考慮した検索も可能です。

また、より精密で局所的なアラインメントを行うSmith-Watermanアルゴリズムを実装したSSEARCHプログラムを利用することもできますが、一般的にFASTA本体よりも処理速度は遅くなります。

用途と意義

FASTAの最も重要な用途の一つは、配列間の類似性に関して信頼性の高い統計量を算出することにあります。生物学者は、この統計値を用いることで、発見された配列の類似が単なる偶然ではなく、何らかの生物学的な意味（例えば機能的な関連性や進化的な由来）を持つ可能性が高いかを判断することができます。これにより、配列間に進化的な関連性がある「相同性（homology）」を推測する上で、FASTAは強力なツールとなります。

FASTAソフトウェアパッケージは、ヴァージニア大学のFTPサーバなどを通じて提供されています。

FASTAフォーマット

FASTAは、シーケンスデータを記述するための特定のファイル形式「FASTAフォーマット」を使用します。これはプレーンテキスト形式で、各配列データは以下の要素で構成されます。

1. ヘッダ行: 「`>`」記号で始まる行です。この行には、その後に続く配列データを識別するための文字列と、その配列に関する説明文を含めることができます。識別文字列と説明文はスペースで区切られますが、「`>`」と識別文字列の間にはスペースを入れてはいけません。ヘッダ行は1行で記述されます。
2. シーケンス行: ヘッダ行の次の行から始まる、実際の塩基配列またはアミノ酸配列の文字列です。複数の行にまたがって記述できます。

FASTAフォーマットでは、1行あたりの文字数を80文字未満にすることが一般的に推奨されています。新しいヘッダ行（「`>`」で始まる行）が現れると、そこで前の配列データが終わり、新しい配列データが始まると解釈されます。

フォーマット例

text
>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus]
LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV
EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG
LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL
GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX
IENY

使用可能な文字

シーケンス文字列は、IUB/IUPACによって規定された標準的な核酸またはアミノ酸のコード体系で記述されます。小文字で記述された場合は、FASTA内部で自動的に大文字に変換されます。また、特殊な文字として以下が使用されます。

`-` (ハイフン): 配列中のギャップ（欠失や挿入）を表します。
`U`: セレノシステインというアミノ酸を表します。
``: 翻訳終止コドン（タンパク質合成の終了点）を表します。

注意点: クエリー配列に数字が含まれている場合、FASTAは正しく処理できないため、検索を実行する前に数字を除去するか、不明な塩基（`N`）や不明なアミノ酸（`X`）などの適切な文字に置き換える必要があります。

もう一度検索