配列アセンブリングの概要
配列アセンブリングとは、短いDNA断片をもとに元の長い塩基配列を再構築する技術です。特に
バイオインフォマティクスの分野では、次世代シークエンシング技術により大量の短いDNAリードが生成されますが、これらを組み合わせて長い配列を決定することが重要な課題とされています。ここで使用されるプログラムを「アセンブラ」と呼び、その役割は非常に大きいです。
ゲノムアセンブラ
初期のゲノムアセンブラは1980年代後半から1990年代前半にかけて開発され、主にウイルスやプラスミドのようなシンプルなDNAから序列を再構築するために使われました。しかし、研究は進むにつれ、より複雑な真核生物のゲノムを対象とする必要が出てきたため、アセンブラも進化を遂げました。最新のアセンブラは以下の特徴を備えています。
- - 数テラバイトのデータ処理能力
- - 反復配列などへの対応
- - 読み取りエラーへの補正機能
これにより、大規模なゲノムプロジェクトにおいても有用性が向上し、多様な生物の塩基配列の解読が可能となっています。
ESTアセンブラ
ESTアセンブラは、ゲノムアセンブラといくつかの点で異なる特徴を持っています。主要な違いは用いられるアルゴリズムです。ゲノムアセンブラは大量の
反復配列を扱う必要があるのに対し、ESTアセンブラは転写されたmRNAを対象としています。また、細胞内には常に発現している遺伝子(ハウスキーピング遺伝子)が多く含まれるため、重複した配列の取り扱いが課題となります。さらに、遺伝子のオーバーラップや
選択的スプライシングなどの要素も考慮しなければならず、これらがアセンブルの計算を複雑にしています。
アセンブル手法の種類
配列アセンブルには大きく分けて二つの方法があります。第一が「de-novo」アセンブルであり、これは未知のゲノム配列を一から再構築する方法です。第二が「マッピング」で、既知のゲノム配列を基にしてリードを重ね合わせるアプローチです。de-novoアセンブルは計算量が膨大で、膨大なメモリと計算時間が必要です。
シークエンシング技術の進化
アセンブリに必要な計算量は、生成されるリードの数とその長さに依存しています。特にリードが短い場合、正確なアセンブルが難しくなることがあります。例えば、1975年に開発されたダイデオキシ法(サンガー法)により、長い間研究者は数十残基の配列しか獲得できませんでした。しかし、2000年代初頭にはシークエンサーが自動化され、大量の配列を並行して読み取れる技術が確立されました。これに伴い、全ゲノムショットガン法が導入され、複雑なアセンブラも求められるようになりました。
全ゲノムショットガン法においては、リードの平均長が800から900残基となり、不必要なクローニングベクターの配列も含まれることが一般的です。この方法では、エラー率が0.5%から10%に及ぶこともあり、治療法の革新だけでなく、早急なアセンブル技術の発展が必要です。
2005年にパイロシークエンシングが登場し、これによりリードの長さは短縮されましたが、スループットの向上と低コスト化が進み多くのゲノムセンターで活用されています。
さらに、454ライフサイエンス社から提供された新しいアセンブラも登場し、複数のシークエンシング手法を組み合わせて処理できるハイブリッドアセンブリが普及する兆しを見せています。これにより、今後ますます複雑な遺伝子データの解読が進むことでしょう。