コンティグ

ゲノム科学の分野で用いられる「コンティグ(Contig)」という用語は、DNA配列に関する二つの主要な意味合いを持つ言葉です。この名称は、英単語の「contiguous」(隣接する、連続する)に由来しています。

コンティグが指すものの一つは、シーケンスコンティグと呼ばれるもので、ゲノム全体の塩基配列を決定する際に、細かく分断されたDNA断片(リード)を情報科学的に重ね合わせ、組み立てていく過程で得られる、より長く連続したDNA配列を指します。現代の主要なシーケンシング技術では、一度に読み取れるDNA配列の長さには限界があるため、まずゲノムDNAを短い断片に分割し、それぞれの断片の配列を読み取ります。これらの短い配列データである「リード」を、コンピューター上でその末端が重複するように並べ直し、元のゲノム配列を再構築する作業が行われます。この組み立て(アセンブリ)の過程で、リードの重複部分を手がかりとして連続的に配列を伸長させていくことで生成される、より長い配列断片のまとまりがシーケンスコンティグです。シーケンスコンティグは、英国の科学者ロジャー・スタデンがショットガンシーケンシングのデータ整理のために考案した元来の定義に比較的近い概念と言えます。彼の当初の定義では、オーバーラップによって互いに関連づけられる一連のリード群そのものもコンティグと呼んでいましたが、現在では組み立てによって得られたコンセンサス配列(代表的な連続配列)を指すことが一般的です。

今日のDNAシーケンシングでは、特にイルミナ社製のシーケンサーを用いたペアエンドシーケンスが広く利用されています。これは、一定の長さのDNA断片の両端から短いリード配列を読み取る手法です。この場合、同じ元のDNA断片に由来する二つのリードは、既知の長さのギャップを挟んで配置されることになります。このリード間の既知のギャップ距離情報は、シーケンスコンティグをさらに大きな構造体に組み上げる際に非常に重要な役割を果たします。複数のシーケンスコンティグを、このギャップ情報を手掛かりに正しい向きと順序で配置し、既知の長さのギャップで区切られたコンティグの集合体を作成します。これはスキャフォールド(Scaffold)と呼ばれます。スキャフォールドを用いることで、繰り返し配列が多い領域など、シーケンスコンティグだけでは配置が難しかった部分のゲノム上での位置関係を推測することが可能になります。スキャフォールド内のコンティグ間のギャップ部分は、後からPCRなど別の手法で追加のシーケンスを行うことで、完全に配列を決定することもあります。

コンティグのもう一つの意味は、BACコンティグに代表される、ゲノムの物理的地図を作成する際に用いられる概念です。これは、長大な染色体ゲノムを比較的大きな断片(バクテリア人工染色体、略称BACなどのクローニングベクターに挿入可能な数十キロ塩基程度の長さ)に物理的に切断し、これらの断片をクローンとして増幅・保存したライブラリーを作成する、いわゆるトップダウンまたは階層的シーケンシング戦略で登場します。この戦略では、DNA断片をシーケンスする前に、まずこれらのクローンがゲノム上のどの位置にあり、互いにどの程度重複しているかを示す物理的な地図を作成します。この地図上で、部分的に重複し、連続したゲノム領域をカバーする一連のクローン群をコンティグと呼びます。染色体全体をカバーするために必要となる最小限の数のコンティグクローンを選択し、そのクローンを用いてシーケンシングを進めます。

BACコンティグを構築するには、BACクローン間で共通する領域を特定し、それらを整列させる必要があります。この重複領域を検出する方法として、シーケンスタグ付きサイト(STS)マッピングや、制限酵素を用いた断片分析などがあります。STSマッピングは、特定の短いDNA配列マーカー(STS)がクローン内に存在するかどうかを調べる方法で、共通するSTSが多いほど重複が大きいと推測できますが、その精度は大まかです。より正確な重複の度合いを知るためには、制限酵素でクローンDNAを切断し、得られる断片のパターンをゲル電気泳動で比較する手法が有効です。バンドパターンが共通する断片が多いほど、高い精度で重複領域とその長さを推定できます。

これらの方法でBACコンティグを構築しても、ライブラリーの網羅性や特定の領域のクローニングの難しさなどから、多くの場合、コンティグ間にギャップが生じます。このようなギャップ部分は、コンティグの末端配列情報をもとに新たなプローブやプライマーを設計し、ギャップ部分を含むDNA断片を特定して追加のシーケンスを行うことで埋められていきます。

このように、コンティグはゲノム解析において、短いリード配列から長い配列情報を得るボトムアップのアプローチと、大きなクローン断片を用いてゲノムの物理構造を明らかにするトップダウンのアプローチ、双方で中心的な役割を果たす概念と言えます。

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。