GenBank
GenBank(ジェンバンク)は、米国国立生物工学情報センター(NCBI: National Center for Biotechnology Information)が運営する、世界的に参照される公共の
塩基配列データベースです。生命科学研究において不可欠な基盤情報資源として、生物の遺伝情報の蓄積、管理、提供を行っています。
概要
GenBankに登録されている
塩基配列データは、単なる文字列として提供されるだけでなく、詳細な注釈(
アノテーション)が付与されています。これにより、配列上の遺伝子の位置、機能、関連情報などが理解しやすくなっています。また、対応するアミノ酸(タンパク質)配列の情報も含まれています。
GenBankは、世界の他の主要な公共データベースと緊密に連携しています。具体的には、欧州
分子生物学研究所(EMBL)傘下の欧州
バイオインフォマティクス研究所(EBI: European Bioinformatics Institute)が管理するEMBLデータライブラリ、および、日本DNAデータバンク(DDBJ: DNA Data Bank of Japan)との間で、
塩基配列データが日常的に相互交換され、常に最新の状態が保たれています。この国際的な協力体制により、世界中の研究者が登録したデータを網羅的に利用できる環境が構築されています。
登録されているデータは膨大であり、その種類も多様です。世界各地の研究機関から集められたデータは、10万種以上の生物に由来します。GenBankのデータ量は驚異的なペースで増加しており、およそ10ヶ月ごとにデータ総量が倍増するという指数関数的な成長を遂げています。例えば、2012年6月時点では、8200万を超える
塩基配列、合計で約2870億個もの
核酸塩基のデータが登録されていました。データは、個々の研究者や研究室からの直接登録に加え、
ゲノム解析センターのような大規模な施設から大量のデータが一括して登録されることもあります。
登録と利用
研究者が自身の発見した
塩基配列データをGenBankに登録するには、いくつかの方法があります。
インターネット経由で直接登録する場合は、ウェブベースの登録フォームであるBankItを利用する方法や、オフラインでデータを準備し、専用の
ソフトウェアであるSequinを使って登録する方法が一般的です。データが提出されると、NCBIの専門スタッフが内容を確認し、一意の登録番号を付与し、データの品質検査を行います。このプロセスを経て、データが正式にデータベースに反映され、公開されます。
特に大規模なデータセット、例えば発現シーケンスタグ(EST: Expressed Sequence Tag)、STS(Sequence Tagged Site)、GSS(Genome Survey Sequence)、HTGS(High-Throughput Genome Sequence)などは、しばしば大規模な配列決定センターによって一括登録されます。一方で、完全に決定された
微生物ゲノム配列などは、多くの場合、GenBankへの直接登録ルートが用いられます。
GenBankに蓄積されたデータは、世界中の研究者が自由に利用できます。データの検索には、NCBIが提供する強力な統合検索システムであるEntrezが利用できます。特定の遺伝子や生物種、あるいはキーワードに基づいて関連する
塩基配列情報を効率的に見つけ出すことが可能です。また、大量のデータをまとめて取得したい場合は、FTP(
File Transfer Protocol)を利用してデータベース全体や特定のサブセットをダウンロードすることもできます。このように、GenBankはデータの登録から利用まで、研究活動を多角的に支援するシステムとして機能しています。