蛋白質構造データバンク

蛋白質構造データバンク(PDB)の概要



蛋白質構造データバンク(PDB: Protein Data Bank)は、タンパク質、核酸、糖鎖などの生体高分子の三次元構造情報を集積した、世界的に利用可能な公共データベースです。PDBに登録されているデータは、X線結晶構造解析核磁気共鳴法(NMR)、クライオ電子顕微鏡法といった実験的手法によって得られた、原子レベルでの構造情報(原子座標)です。コンピュータシミュレーションなどによる理論的な予測データは、PDBには登録されません。

世界中の構造生物学者は、研究成果として得られた構造情報を論文発表前にPDBへ登録することが求められています。論文公開と同時に、登録された構造データは一般に公開されます。このシステムにより、最新の構造情報は迅速かつ世界中で共有され、研究開発の進展に貢献しています。

PDBの運営は、米国、欧州、日本の拠点機関による国際協力体制によって支えられています。各地域で得られたデータは、それぞれの拠点機関で登録処理が行われ、その後、日米欧の拠点間でデータが交換され、完全に同一のデータが公開されます。日本の拠点であるProtein Data Bank Japan(PDBj)は大阪大学蛋白質研究所が担当しています。

PDBは、生命科学研究において中心的な役割を担うデータベースです。基礎研究である構造生物学のみならず、創薬食品工学、細胞工学といった応用研究分野でも、不可欠な情報源として活用されています。また、バイオインフォマティクス研究においても、PDBのような三次元分子構造データベースは重要な研究対象となっています。PDBから派生したデータベースやプロジェクトも数多く存在し、タンパク質の構造、機能、進化といった様々な側面からの研究を支えています。

PDBの歴史



PDBは、1971年にアメリカ合衆国のブルックヘブン国立研究所(BNL)と英国のCambridge Crystallographic Data Centre (CCDC)によって設立されました。当初はBNLが単独でデータ登録業務を行っていましたが、1976年には東京大学大型計算機センター、1979年には大阪大学蛋白質研究所がデータ配布に協力するようになりました。

1998年には、米国のPDB運営はBNLから構造バイオインフォマティクス研究共同体(RCSB: Research Collaboratory for Structural Bioinformatics)に移管されました。RCSBはPDBのマスターファイルの管理と登録業務の中心的な役割を担うことになりました。欧州ではEMBL-EBIにMacromolecular Structure Databaseが設立され、データ登録が開始されました。2000年には、PDBjもRCSBと協力してアジア地区からのデータ登録受付を開始しました。

現在では、wwPDB(Worldwide Protein Data Bank)という国際的な組織がPDBを運営しています。wwPDBは、RCSB、EMBL-EBI、PDBjの3つの拠点機関によって構成されています。

PDBのデータ内容と統計情報



PDBに登録されている構造データ数は、設立当初のわずか7件から、指数関数的に増加を続けています。この増加傾向は現在も続いており、毎年約5000件の新しい構造データが登録されています。

2008年1月22日時点では、PDBには48,555件の構造データが公開されており、そのうち44,742件がタンパク質の構造データでした。その他、核酸、タンパク質核酸複合体、その他の分子構造のデータも登録されています。これらのデータは、mmCIF形式で格納されています。

PDBは、生体高分子の構成原子の精密な三次元座標情報を格納していますが、水素原子以外の原子については、多くの場合、統計的に座標が推定されています。生体高分子の一次構造情報(アミノ酸配列やヌクレオチド配列)だけが必要な場合は、Swiss-Protや国際塩基配列データベース(INSD: DDBJ/EMBL/GenBank)といった、より大規模な配列データベースを利用する方が適切です。

2014年6月3日時点でのRCSBの統計情報によると、PDBのタンパク質データのうち、78,747件が構造因子ファイル、7,795件がNMR拘束ファイル、1,553件が化学シフトファイル、738件が三次元電子顕微鏡マップファイルを持っていました。理論的な予測に基づいたモデルは、統計情報には含まれていません。PDBの統計情報は毎週更新されています。

PDBファイル形式



PDBファイル形式は、当初はパンチカードの幅に制限されていましたが、その後、頻繁な変更と改訂を経てきました。現在では、PDBデータはXML形式(PDBML形式)でも提供されています。未加工のPDBデータは、ftp.rcsb.orgからダウンロードできます。従来のファイル形式には問題点もあったことから、データの「クレンジング」プロジェクトなども行われています。

NCBIのMMDB(Molecular Modeling DataBase)は、ASN.1形式を採用しており、XML形式でも提供されています。wwPDBは、RCSB、EMBL-EBI、PDBjのデータベースを横断して一貫した形式でデータを提供しています。

PDBの各データには、PDB IDという4文字の識別子が割り当てられていますが、これは生体高分子の固有の識別子として使うことはできません。なぜなら、同じ分子でも環境や状況によって異なる複数の三次元構造をとることがあるからです。そのため、一つの分子が複数のPDB IDを持つこともあります。

wwPDBでは、登録された構造データは、スタッフによる検証とアノテーションが行われた後、ソフトウェアによる妥当性検証が行われます。この検証ソフトウェアソースコードは公開されています。なお、wwPDBも実験的に決定された構造データのみを受け付けています。

構造データの閲覧



PDBの三次元構造データは、専用のソフトウェアを用いて閲覧することができます。代表的なソフトウェアとしては、RasMol、Jmol、PyMOL、Chime、STING、jVなどがあります。RCSB PDBのウェブサイトでは、教育・構造ゲノミクスに関するリソースや関連ソフトウェアも提供されています。

参考文献



(参考文献リストは省略)

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。