Swiss-ProtとUniProt知識ベース
Swiss-Protの誕生と特徴
Swiss-Protは、
タンパク質のアミノ酸配列に関する詳細な情報を集めた知識ベースとして始まりました。その開発は1986年、Amos Bairoch氏が大学院生だった頃に開始されました。当初から、Swiss-Protは他のデータベースとは一線を画す特徴を持っていました。それは、単なる配列データの羅列にとどまらず、各
タンパク質について非常に高い水準の「注釈(
アノテーション)」を付与することに重点を置いている点です。この注釈には、
タンパク質の生物学的機能、分子構造におけるドメインの解説、
タンパク質が作られた後に加えられる化学的な修飾(
翻訳後修飾)、さらにはアミノ酸がわずか一つだけ異なるようなバリアントに関する情報などが詳細に含まれています。これにより、Swiss-Protは単なる配列データベースではなく、研究者が
タンパク質の性質や役割を深く理解するための信頼性の高い情報源としての地位を確立しました。また、データの重複を最小限に抑え、他の生物情報データベースとの高度な連携を実現していることも、その価値を高める要因となっています。現在、Swiss-Protの開発と運営は、スイスバイオインフォマティクス研究所(SIB)と欧州バイオインフォマティクス研究所(EBI)の国際的な協力体制のもとで行われています。
UniProtコンソーシアムによる統合
タンパク質情報の重要性が増すにつれて、散在していたデータベースを統合し、より網羅的で使いやすい情報源を構築する必要性が認識されるようになりました。このような背景のもと、2002年にUniProtコンソーシアムが設立されました。このコンソーシアムは、Swiss-Protの開発を担っていたSIBとEBIに加え、アメリカ合衆国国立衛生研究所(NIH)の支援を受ける
タンパク質情報リソース(PIR)という、
タンパク質研究分野の主要な機関が集まって結成された共同組織です。UniProtコンソーシアムの主要な活動目的は、それまで別々に運用されてきたSwiss-Prot、EMBL/
GenBank/DDBJ国際塩基配列データベースから自動的に翻訳された
タンパク質配列を収めたTrEMBL(Swiss-Protを補完するデータベース)、そしてPIRが持つ
タンパク質情報を統合し、「UniProt知識ベース(UniProtKB)」として提供することでした。この統合により、UniProtは現在、世界で最も広範で包括的な
タンパク質に関する情報のカタログとして広く利用されています。
UniProt知識ベースの構成
UniProtコンソーシアムは、ユーザーの多様なニーズに応えるため、UniProt知識ベースを核とする複数のデータベース構成要素を提供しています。それぞれが異なる利用目的に最適化されています。
主要な構成要素は以下の三つです。
1.
UniProt知識ベース(UniProtKB): これは、Swiss-ProtとTrEMBLという二つの主要なセクションから成り立っています。前述の通り、Swiss-Protは手作業による詳細な注釈が付与された高品質なエントリーを収蔵しており、情報の信頼性が非常に高いことが特徴です。一方、TrEMBL(Translated EMBL Nucleotide Sequence Data Library)は、塩基配列データベースから機械的に翻訳された配列データが中心で、エントリー数は膨大ですが、注釈のレベルはSwiss-Protほど詳細ではありません。しかし、Swiss-Protを補完する役割を担い、網羅性を高めています。例えば、2008年12月16日時点のデータでは、UniProtKB/Swiss-Protは40万5506件のエントリを、UniProtKB/TrEMBLは696万4485件のエントリをそれぞれ格納しており、その情報量の膨大さがうかがえます。
2.
UniProtの冗長性のないリファレンス(UniRef): このデータベース群は、配列の類似性が非常に高い
タンパク質をグループ化し、代表的な一つの配列データにまとめることで、データの冗長性を排除しています。これにより、高速な配列類似性検索や比較解析を効率的に行うことが可能になります。例えば、90%以上の相同性を持つ配列をまとめてUniRef90として提供するなど、異なる相同性レベルでクラスター化されたバージョンが存在します。
3.
UniProt Archive(UniParc): UniParcは、世界中のさまざまな公共データベースから収集されたすべての
タンパク質アミノ酸配列の広範なリポジトリです。このデータベースは、同じ
タンパク質配列が複数のデータベースに存在する場合でも、それぞれをユニークなエントリとして収蔵します。さらに、配列がどのように変化してきたかという履歴情報も保持しており、
タンパク質配列のバージョン管理や追跡に非常に有用です。
これらのデータベース群が連携することで、UniProtは研究者に対して、高品質な注釈付きデータから網羅的な配列コレクション、高速検索用のクラスター化データ、さらには配列の履歴まで、
タンパク質に関する多角的な情報を提供し、生命科学研究の基盤を支えています。