LP-PDBBindを使った薬物発見の進展
新しいデータセットが薬の発見予測を改善することを目指してる。
― 1 分で読む
目次
最近の数年間、新薬の発見はコンピュータ支援薬物発見という方法に大きく依存してるんだ。その過程の重要な部分は、リガンドという小さな分子がタンパク質にどれだけ結合できるかを予測することなんだ。この結合は、薬が体内でタンパク質の機能に影響を与えるためにめっちゃ重要なんだよ。結合を予測するために、科学者たちはスコアリング関数(SF)を使うんだ。このSFがリガンドとタンパク質の適合性を判断するのに役立って、効果的な薬を作るためには欠かせないんだ。
薬物発見におけるデータの重要性
タンパク質とリガンドの相互作用を研究するための最大のリソースの一つがPDBBindというデータベースなんだ。このデータベースには、タンパク質とリガンドの複合体の多くの例と、測定された結合親和性が含まれてる。でも、多くのSFがこの同じデータセットを使って訓練されてるから、問題が生じるんだよ。もし訓練データがテストデータとあまりにも似てると、新しいデータに対してモデルがどれだけうまく機能するかが正しく評価できないことがあるんだ。これが、これらのモデルが行う予測の信頼性について疑問を生む原因なんだ。
既存のデータセットの問題
PDBBindは一般セット、洗練されたセット、コアセットという異なるサブセットで構成されてるんだ。これらのサブセットは、タンパク質とリガンドの複合体の質やタイプが異なる。特にコアセットは高品質なデータが含まれてるから貴重なんだけど、他のセットとかなり重複してるんだ。この重複のせいで、スコアリング関数が新しい相互作用を予測する能力を過大評価することにつながる可能性があるんだ。
この課題に対処するために、研究者たちはデータを分割して再整理するための様々な方法を試して、データ漏洩のリスクを最小限に抑えようとしてるんだ。つまり、モデルを訓練中に遭遇したことがないデータでテストするようにするってこと。
PDBBind)の導入
漏れないPDBBind(LP-「漏れない」PDBBindを作る目標は、スコアリング関数の訓練をより良くサポートするクリーンなデータセットを提供しつつ、過剰適合のリスクを減らすことなんだ。新しいLP-PDBBindデータセットは、データを訓練、検証、テストセットに注意深く整理することで開発されたんだ。これらのセットはできるだけ互いに異なるようにして、含まれるタンパク質とリガンドの複合体の類似性を最小限に抑えてるんだ。
この再整理の中で、主要な作業の一つは共価結合剤を取り除くことなんだ。ほとんどのスコアリング関数は非共価結合相互作用に主に焦点を当ててるから、共価結合はモデルを不必要に複雑にしちゃうんだ。
データセットのクリーンアップ
PDBBindデータセットをクリーンアップするためにいくつかのステップを踏んだんだ。最初のステップは、共価結合を持つ複合体を取り除くことで、これはあまり一般的じゃなくて、通常は異なるモデリングアプローチが必要になる。
次に、研究者たちはリガンド自体の質に注目したんだ。データベースの中のすべてのリガンドが典型的な薬のような分子の特徴に合ってるわけじゃないことがわかった。中には大きすぎたり、訓練プロセスを歪める構造を持ってるリガンドもいたから、特異な特性を持つリガンドはデータセットから取り除かれたんだ。
追加のクリーンアップステップとして、報告された結合親和性が一貫して信頼できることを確保することが含まれてた。これは、異なる形式の報告された結合親和性を比較しやすくするために共通の基準に変換することを意味してるんだ。
新しい分割方法
PDBBindデータセットの新しい分割方法は、訓練、検証、テストセットが明確に異なるデータを含むようにしようとしてるんだ。研究者たちはまずテストセットのためのいくつかの例を選んでから、体系的に似たデータをテストセットに追加していったんだ。テストセットを確定させた後、同様のプロセスを検証セットに対して行い、残りのデータを訓練用に残した。このアプローチはデータ漏洩のリスクを大幅に低下させて、スコアリング関数のパフォーマンスをより良く評価できるようにしてるんだ。
スコアリング関数の評価
スコアリング関数は、結合親和性を予測するために様々なアプローチに依存してるんだ。物理的スコアリング関数(PSF)と機械学習スコアリング関数(MLSF)に大別できるんだ。PSFは物理化学の原則に基づいてるのに対し、MLSFは大量のデータを使ってリガンドとタンパク質の相互作用のパターンを認識するんだ。
LP-PDBBindデータセットは、AutoDock Vina、RF-Score、IGN、DeepDTAなどの人気スコアリング関数を再訓練するのに使われたんだ。それぞれのスコアリング関数は、リガンドがタンパク質にどれだけ結合するかを決定するための独自の方法論を持ってる。
再訓練プロセスの結果
LP-PDBBindを使って様々なスコアリング関数を再訓練した後、研究者たちはそのパフォーマンスを古いモデルとBDB2020+という独立したベンチマークデータセットに対して評価したんだ。この新しいデータセットはPDBBindとは重複しない記録をもとに構成されてて、新しいタンパク質とリガンドのペアに対する結合親和性をどれだけうまく予測できるかのより現実的なテストを提供してる。
結果は、再訓練されたモデルが元のモデルと比べて結合親和性の予測においてより良いパフォーマンスを示したことを示してる。例えば、AutoDock Vinaは再訓練後に予測の平均誤差が大幅に減少して、全体的な精度が向上したんだ。
面白いことに、3D構造データに大きく依存するモデルのパフォーマンスは改善されたけど、DeepDTAのような純粋にデータ駆動型のモデルは同じようには恩恵を受けなかったんだ。この発見は、信頼できるスコアリング関数を開発するために3D構造情報を使うことの重要性を浮き彫りにしてるんだ。
スコアリング関数のパフォーマンスランキング
結合親和性を予測するだけじゃなくて、スコアリング関数が特定のタンパク質ターゲットに対して複数のオプションがあるときに異なるリガンドを効果的にランク付けすることが重要なんだ。このランキング能力が最終的に薬の開発者がさらなるテストのために最適な候補分子を選ぶのを助けるんだから。
研究者たちは実際の実験から2つの特定のデータセットを用意したんだ。1つはSARS-CoV-2の主要プロテアーゼ、もう1つは表皮成長因子受容体(EGFR)に関するもの。このデータセットを使って、各スコアリング関数がそれぞれのリガンドの結合親和性をどれだけうまくランク付けできるかをテストしたんだ。
結果は、再訓練されたモデルが一般的に元のモデルよりも良いランキングパフォーマンスを示したことを示してる。例えば、AutoDock VinaとRF-Scoreは、Mproタンパク質の潜在的なリガンドのランキング精度が高かったんだ。IGNモデルも優れていて、異なるデータセットでの一般化能力を示したんだ。
結論
PDBBindデータセットを慎重に再整理してLP-PDBBindを作ることは、薬物発見研究における大きな進展を表してるんだ。データ漏洩を最小限に抑えて入力データの質を改善することで、研究者たちは結合親和性をより正確に予測できるだけじゃなくて、リガンドを効果的にランク付けするより堅牢なスコアリング関数を構築できるようになるんだ。
LP-PDBBindとBDB2020+のような独立した評価データセットを使って再訓練されたこれらのスコアリング関数の改善は、将来の薬物発見の取り組みに対して期待が持てるものだね。この研究は、計算薬物発見の分野におけるデータやモデルの継続的な改善の必要性を強調してて、より明確なベンチマークと改善されたスコアリング関数が、さまざまな病気に対するより効果的な新しい治療法につながる可能性があるんだ。
タイトル: Leak Proof PDBBind: A Reorganized Dataset of Protein-Ligand Complexes for More Generalizable Binding Affinity Prediction
概要: Many physics-based and machine-learned scoring functions (SFs) used to predict protein-ligand binding free energies have been trained on the PDBBind dataset. However, it is controversial as to whether new SFs are actually improving since the general, refined, and core datasets of PDBBind are cross-contaminated with proteins and ligands with high similarity, and hence they may not perform comparably well in binding prediction of new protein-ligand complexes. In this work we have carefully prepared a cleaned PDBBind data set of non-covalent binders that are split into training, validation, and test datasets to control for data leakage, defined as proteins and ligands with high sequence and structural similarity. The resulting leak-proof (LP)-PDBBind data is used to retrain four popular SFs: AutoDock Vina, Random Forest (RF)-Score, InteractionGraphNet (IGN), and DeepDTA, to better test their capabilities when applied to new protein-ligand complexes. In particular we have formulated a new independent data set, BDB2020+, by matching high quality binding free energies from BindingDB with co-crystalized ligand-protein complexes from the PDB that have been deposited since 2020. Based on all the benchmark results, the retrained models using LP-PDBBind consistently perform better, with IGN especially being recommended for scoring and ranking applications for new protein-ligand systems.
著者: Jie Li, Xingyi Guan, Oufan Zhang, Kunyang Sun, Yingze Wang, Dorian Bagni, Teresa Head-Gordon
最終更新: 2024-05-02 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2308.09639
ソースPDF: https://arxiv.org/pdf/2308.09639
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。