GenBankとは？意味をやさしく解説 - サードペディア百科事典

GenBank

GenBank（ジェンバンク）は、米国国立生物工学情報センター（NCBI: National Center for Biotechnology Information）が運営する、世界的に参照される公共の塩基配列データベースです。生命科学研究において不可欠な基盤情報資源として、生物の遺伝情報の蓄積、管理、提供を行っています。

概要

GenBankに登録されている塩基配列データは、単なる文字列として提供されるだけでなく、詳細な注釈（アノテーション）が付与されています。これにより、配列上の遺伝子の位置、機能、関連情報などが理解しやすくなっています。また、対応するアミノ酸（タンパク質）配列の情報も含まれています。

GenBankは、世界の他の主要な公共データベースと緊密に連携しています。具体的には、欧州分子生物学研究所（EMBL）傘下の欧州バイオインフォマティクス研究所（EBI: European Bioinformatics Institute）が管理するEMBLデータライブラリ、および、日本DNAデータバンク（DDBJ: DNA Data Bank of Japan）との間で、塩基配列データが日常的に相互交換され、常に最新の状態が保たれています。この国際的な協力体制により、世界中の研究者が登録したデータを網羅的に利用できる環境が構築されています。

登録されているデータは膨大であり、その種類も多様です。世界各地の研究機関から集められたデータは、10万種以上の生物に由来します。GenBankのデータ量は驚異的なペースで増加しており、およそ10ヶ月ごとにデータ総量が倍増するという指数関数的な成長を遂げています。例えば、2012年6月時点では、8200万を超える塩基配列、合計で約2870億個もの核酸塩基のデータが登録されていました。データは、個々の研究者や研究室からの直接登録に加え、ゲノム解析センターのような大規模な施設から大量のデータが一括して登録されることもあります。

登録と利用

研究者が自身の発見した塩基配列データをGenBankに登録するには、いくつかの方法があります。インターネット経由で直接登録する場合は、ウェブベースの登録フォームであるBankItを利用する方法や、オフラインでデータを準備し、専用のソフトウェアであるSequinを使って登録する方法が一般的です。データが提出されると、NCBIの専門スタッフが内容を確認し、一意の登録番号を付与し、データの品質検査を行います。このプロセスを経て、データが正式にデータベースに反映され、公開されます。

特に大規模なデータセット、例えば発現シーケンスタグ（EST: Expressed Sequence Tag）、STS（Sequence Tagged Site）、GSS（Genome Survey Sequence）、HTGS（High-Throughput Genome Sequence）などは、しばしば大規模な配列決定センターによって一括登録されます。一方で、完全に決定された微生物ゲノム配列などは、多くの場合、GenBankへの直接登録ルートが用いられます。

GenBankに蓄積されたデータは、世界中の研究者が自由に利用できます。データの検索には、NCBIが提供する強力な統合検索システムであるEntrezが利用できます。特定の遺伝子や生物種、あるいはキーワードに基づいて関連する塩基配列情報を効率的に見つけ出すことが可能です。また、大量のデータをまとめて取得したい場合は、FTP（File Transfer Protocol）を利用してデータベース全体や特定のサブセットをダウンロードすることもできます。このように、GenBankはデータの登録から利用まで、研究活動を多角的に支援するシステムとして機能しています。

もう一度検索