蛋白質構造データバンク(PDB)の概要
蛋白質構造データバンク(PDB: Protein Data Bank)は、タンパク質、
核酸、糖鎖などの生体高
分子の三次元構造情報を集積した、世界的に利用可能な公共
データベースです。PDBに登録されているデータは、
X線結晶構造解析、
核磁気共鳴法(NMR)、クライオ
電子顕微鏡法といった実験的手法によって得られた、
原子レベルでの構造情報(
原子座標)です。
コンピュータシミュレーションなどによる理論的な予測データは、PDBには登録されません。
世界中の
構造生物学者は、研究成果として得られた構造情報を論文発表前にPDBへ登録することが求められています。論文公開と同時に、登録された構造データは一般に公開されます。このシステムにより、最新の構造情報は迅速かつ世界中で共有され、研究開発の進展に貢献しています。
PDBの運営は、米国、欧州、日本の拠点機関による国際協力体制によって支えられています。各地域で得られたデータは、それぞれの拠点機関で登録処理が行われ、その後、日米欧の拠点間でデータが交換され、完全に同一のデータが公開されます。日本の拠点であるProtein Data Bank Japan(PDBj)は
大阪大学蛋白質研究所が担当しています。
PDBは、生命科学研究において中心的な役割を担う
データベースです。基礎研究である
構造生物学のみならず、
創薬、
食品工学、細胞工学といった応用研究分野でも、不可欠な情報源として活用されています。また、
バイオインフォマティクス研究においても、PDBのような三次元
分子構造
データベースは重要な研究対象となっています。PDBから派生した
データベースやプロジェクトも数多く存在し、タンパク質の構造、機能、進化といった様々な側面からの研究を支えています。
PDBの歴史
PDBは、1971年に
アメリカ合衆国のブルックヘブン国立研究所(BNL)と英国のCambridge Crystallographic Data Centre (CCDC)によって設立されました。当初はBNLが単独でデータ登録業務を行っていましたが、1976年には東京大学大型計算機センター、1979年には
大阪大学蛋白質研究所がデータ配布に協力するようになりました。
1998年には、米国のPDB運営はBNLから構造
バイオインフォマティクス研究共同体(RCSB: Research Collaboratory for Structural Bioinformatics)に移管されました。RCSBはPDBのマスターファイルの管理と登録業務の中心的な役割を担うことになりました。欧州ではEMBL-EBIにMacromolecular Structure Databaseが設立され、データ登録が開始されました。2000年には、PDBjもRCSBと協力してアジア地区からのデータ登録受付を開始しました。
現在では、wwPDB(Worldwide Protein Data Bank)という国際的な組織がPDBを運営しています。wwPDBは、RCSB、EMBL-EBI、PDBjの3つの拠点機関によって構成されています。
PDBのデータ内容と統計情報
PDBに登録されている構造データ数は、設立当初のわずか7件から、指数関数的に増加を続けています。この増加傾向は現在も続いており、毎年約5000件の新しい構造データが登録されています。
2008年1月22日時点では、PDBには48,555件の構造データが公開されており、そのうち44,742件がタンパク質の構造データでした。その他、
核酸、タンパク質
核酸複合体、その他の
分子構造のデータも登録されています。これらのデータは、mmCIF形式で格納されています。
PDBは、生体高
分子の構成
原子の精密な三次元座標情報を格納していますが、
水素原子以外の
原子については、多くの場合、統計的に座標が推定されています。生体高
分子の一次構造情報(アミノ酸配列や
ヌクレオチド配列)だけが必要な場合は、Swiss-Protや国際
塩基配列データベース(INSD: DDBJ/EMBL/GenBank)といった、より大規模な配列
データベースを利用する方が適切です。
2014年6月3日時点でのRCSBの統計情報によると、PDBのタンパク質データのうち、78,747件が構造因子ファイル、7,795件がNMR拘束ファイル、1,553件が化学シフトファイル、738件が三次元
電子顕微鏡マップファイルを持っていました。理論的な予測に基づいたモデルは、統計情報には含まれていません。PDBの統計情報は毎週更新されています。
PDBファイル形式
PDBファイル形式は、当初は
パンチカードの幅に制限されていましたが、その後、頻繁な変更と改訂を経てきました。現在では、PDBデータはXML形式(PDBML形式)でも提供されています。未加工のPDBデータは、ftp.rcsb.orgからダウンロードできます。従来のファイル形式には問題点もあったことから、データの「クレンジング」プロジェクトなども行われています。
NCBIのMMDB(Molecular Modeling DataBase)は、ASN.1形式を採用しており、XML形式でも提供されています。wwPDBは、RCSB、EMBL-EBI、PDBjの
データベースを横断して一貫した形式でデータを提供しています。
PDBの各データには、PDB IDという4文字の
識別子が割り当てられていますが、これは生体高
分子の固有の
識別子として使うことはできません。なぜなら、同じ
分子でも環境や状況によって異なる複数の三次元構造をとることがあるからです。そのため、一つの
分子が複数のPDB IDを持つこともあります。
wwPDBでは、登録された構造データは、スタッフによる検証と
アノテーションが行われた後、
ソフトウェアによる妥当性検証が行われます。この検証
ソフトウェアの
ソースコードは公開されています。なお、wwPDBも実験的に決定された構造データのみを受け付けています。
構造データの閲覧
PDBの三次元構造データは、専用の
ソフトウェアを用いて閲覧することができます。代表的な
ソフトウェアとしては、RasMol、Jmol、PyMOL、Chime、STING、jVなどがあります。RCSB PDBの
ウェブサイトでは、教育・構造ゲノミクスに関するリソースや関連
ソフトウェアも提供されています。
参考文献
(参考文献リストは省略)