バーチャルスクリーニング

概要

バーチャルスクリーニング（Virtual Screening, VS）は、新しい医薬品候補を探索する初期段階において、計算機の力を活用する先進的なアプローチです。この技術は、特定の疾患の原因となる生体内の分子標的（主にタンパク質や酵素など）に対し、効果的に結合する可能性のある化学構造を効率的に特定することを目的としています。コンピュータ上で膨大な数の候補化合物を高速に評価・選別することで、創薬研究のプロセスを加速させます。これは、伝統的な医薬品探索手法であるデータベース検索と比較して、より網羅的で大規模な化合物群の評価を可能にする、比較的新しい概念です。

この手法の根本にあるのは、理論上無限に近い数の化学物質の中から、実際に研究室で合成・試験を行うに値する、管理可能な数の候補に絞り込むという考え方です。ウォルターズらによって「非常に大規模な化合物コレクションをコンピュータプログラムによって自動的に評価する」と定義されているように、文字通り桁違いのスケールで候補化合物を扱う能力が求められます。現実的に全ての化学物質を網羅することは計算量の観点から不可能であるため、通常は目的の標的に特化した化合物ライブラリを計算機上で設計・最適化して構築するか、あるいは既に存在する高品質な化合物群を活用することが主要な戦略となります。

バーチャルスクリーニングの究極的な目標は、標的分子に対して強い結合能を持つ新規な化学構造を発見することです。単に標的と結合する化合物（ヒット化合物）を多数見つけるだけでなく、これまで知られていなかったユニークな基本的な構造骨格が見いだされたときにこそ、バーチャルスクリーニングは成功したと評価されます。したがって、得られた結果を解釈する際には、単に結合予測値の高さだけでなく、構造の新規性や多様性といった質的な側面も慎重に考慮する必要があります。

主な手法

バーチャルスクリーニングには、大きく二つの主要な手法が存在します。

リガンドベーススクリーニング

この手法は、標的となるタンパク質などの正確な立体構造がまだ解明されていない場合に有効です。既に対象の標的に結合し、生理活性を示すことが分かっている既存のリガンド（結合分子）の構造情報が出発点となります。複数の活性リガンドの構造を比較分析することで、標的への結合と活性発現に必須となる共通の三次元的な特徴や原子団の配置（これを「ファーマコフォア」と呼びます）を推定し、モデルを構築します。次に、候補化合物の構造がこのファーマコフォアモデルとどの程度一致するかを計算によって評価し、標的への結合可能性を予測します。また、一つの既知活性リガンドに対して化学的に類似性の高い化合物をデータベースから検索するアプローチも、このカテゴリに含まれます。

ストラクチャーベーススクリーニング

こちらは、標的となるタンパク質などの立体構造が、X線結晶構造解析やクライオ電子顕微鏡法などによって既に明らかにされている場合に適用されます。この手法では、候補となるリガンド分子が、標的タンパク質上の特定の結合部位（ポケット）にどのように収まるか（「ドッキング」）を計算によってシミュレーションします。さらに、ドッキングされた状態でのタンパク質とリガンド間の相互作用エネルギーなどを計算することで、両分子の結合の強さ、つまり親和性を定量的に評価します。これにより、標的との結合親和性が高いと予測される化合物を効率的に選別することが可能です。

計算機への要求

バーチャルスクリーニングにおいて、特にストラクチャーベースの手法では、標的分子とリガンド分子を構成する多数の原子間の複雑な相互作用を計算する必要があります。この原子間の対相互作用の計算量は、対象となる原子の数の二乗（O(N²)）に比例して増加するという特性を持ちます。これは、システムに含まれる原子数が増えるにつれて、必要な計算リソースが非線形に増大することを意味します。

この計算負荷の特性により、必要とされる計算機の規模は採用する手法によって大きく異なります。比較的扱う原子数が少ないリガンドベースの手法であれば、高性能なワークステーションやノートパソコンでも、比較的大きな化合物ライブラリを用いたスクリーニングを数時間程度で完了できる場合があります。複数の計算タスクを並行して実行することで、全体の処理速度をさらに向上させることも容易です。

一方、多数の原子を含むシステムを扱うストラクチャーベースの手法は計算量が非常に膨大になるため、単体のコンピュータでは現実的な時間での処理は困難です。そのため、複数のコンピュータを連携させたクラスターシステムなどの並列計算環境が不可欠となります。これらの環境では、Sun Grid EngineやTorque PBSといったバッチ処理管理システムを用いて、多数の計算ノードに処理を効率的に分散させます。

大規模な化合物ライブラリのデータを多数の計算ノードに効率的に供給するためには、高速なデータアクセスが可能なデータベース管理システム（例えばBerkeley DBなど）が推奨されます。また、計算の効率を高めるためには、一つの計算ジョブで一つの化合物だけを評価するのではなく、複数の化合物をまとめてバッチ処理することで、各ノードの稼働率を上げ、全体の処理速度の低下を防ぐ工夫がなされます。全ての計算が終了した後、出力された結果ログファイルを解析し、評価の高い有望な候補化合物を最終的に抽出するという流れで処理が進められます。

もう一度検索