SIMAPとは
SIMAP(Similarity Matrix of Proteins)は、生命科学研究において重要なタンパク質の機能や進化を理解するために役立つ、タンパク質間の類似性に関する膨大な情報を蓄積した
データベースです。
このプロジェクトは、ドイツの
ミュンヘン工科大学とen:Helmholtz Zentrum Münchenが共同で推進してきました。その最大の特徴は、データ構築のために
分散コンピューティングという手法を採用していた点にあります。インターネットに接続された世界中のコンピュータの計算資源を結集することで、大規模なタンパク質データ解析を実現しました。
技術的特徴
タンパク質類似性の検索には、いくつかのアルゴリズムが存在します。例えば、多くの
タンパク質ドメイン検索アプリケーションでは、
隠れマルコフモデル(HMM)が用いられることが一般的です。しかし、SIMAPは、タンパク質配列のアライメント(整列)に基づいた高速なホモロジー(相同性)検索アルゴリズムであるFASTAを採用し、
データベース内の全タンパク質ペア間の類似性をあらかじめ計算しておくというアプローチをとっていました。
この事前計算方式により、利用者は
データベースにアクセスする際に、迅速に類似性情報を参照することが可能となります。科学目的での利用は広く門戸が開かれており、研究者は自由にSIMAPのデータにアクセスし、自身の研究に役立てることができました。
SIMAPの基盤として採用されていた
分散コンピューティングプラットフォームは、BOINC(
Berkeley Open Infrastructure for Network Computing)でした。BOINCは、
SETI@homeをはじめとする多くの科学計算プロジェクトで利用されている実績のあるプラットフォームです。
SIMAPプロジェクトにおける計算作業は、「ワークユニット」と呼ばれる単位に分割され、BOINCクライアント
ソフトウェアをインストールした参加者のコンピュータに配布されていました。これらのワークユニットには以下のような特徴がありました。
1つのワークユニットを処理するのにかかる時間は、コンピュータの性能やデータの内容によって変動しますが、短いものでは15分程度、長いものでは3時間に及ぶこともありました。
ワークユニットのデータサイズは、おおよそ600
キロバイトから1.35
メガバイトの範囲であり、平均的には1.20
メガバイト程度のものが多かったようです。
計算処理の効率を高めるため、SSE(Streaming SIMD Extensions)命令セットに対応した
CPU向けに最適化されたアプリケーションが提供されていました。SSE非対応の古い
CPUを使用している参加者のために、別途アプリケーションが用意されていましたが、そちらは各自でインストールする必要がありました。
対応している
オペレーティングシステムは多岐にわたり、広く普及している
Linux、Windows、macOSのほか、その他の
UNIX系プラットフォームでも動作しました。
データベースの主要な構築作業が完了した段階では、かつてのような大規模なワークユニット配布は減少し、毎月はじめにごく少数のデータが配布される状況となっていました。
プロジェクトの歴史と現状
SIMAPプロジェクトにおけるBOINCを用いた
分散コンピューティング活動は、2014年に重要な節目を迎えました。2014年5月30日に、その年の末をもってBOINCプロジェクトとしての運用を終了することが発表されたのです。この決定により、分散計算リソースを用いた新たなタンパク質類似性データの生成や
データベースの大規模な更新は停止したと考えられます。
関連情報
SIMAPは、その運用において
分散コンピューティングの概念を具体的に体現したプロジェクトの一つです。また、利用されたBOINCプラットフォームは、科学計算分野における市民科学(Citizen Science)やクラウドソーシングの先駆けとも言える取り組みを支えてきました。
分散コンピューティング: ネットワーク上の多数のコンピュータを利用して一つの大規模な計算課題を解決する手法。
BOINC: 様々な科学計算プロジェクトをサポートするために開発されたオープンソースの
分散コンピューティングソフトウェアプラットフォーム。
SIMAP公式サイトや
データベース検索ページは、過去のデータにアクセスするための情報源として現在も参照される可能性があります。