Simple Science

最先端の科学をわかりやすく解説

# 生物学# 生物情報学

DFMDockを使ったタンパク質-タンパク質ドッキングの進展

DFMDockは、タンパク質ドッキング予測を向上させるためにサンプリングとランク付けを統合してるよ。

― 1 分で読む


DFMDock:DFMDock:ドッキングの未来タンパク質相互作用予測の画期的なモデル。
目次

タンパク質-タンパク質のドッキングは、2つのタンパク質がどのように結びついて複合体を形成するかを予測するのに役立つ。従来のドッキング方法は通常2段階で進める:最初に、タンパク質がどのように組み合わさる可能性があるかを見つけて、次にそれらのフィット具合を評価してどれがベストかを見極める。最初の段階では、いろんな技術を使って、たくさんの可能性を探って異なるモデルを作成する。2段階目では、エネルギーの考慮やフィットの良さに基づいてこれらのモデルをスコアリングする。

別のアプローチはテンプレートベースのドッキングで、これは研究中のタンパク質に似た既知のタンパク質の形を使用する。ただ、こうした従来の方法は、多くの異なるモデルを比較・評価するのに時間がかかるから、研究者たちはプロセスを改善するために特にディープラーニングを使ってより早い方法に取り組んでいる。

関連研究

共折りモデル

共折りモデルは、タンパク質がどのように一緒に働くかを予測するツール。大量のタンパク質データを分析することで、これらのモデルはタンパク質がどう結合するかを正確に予測することができる。よく知られた例にはAlphaFold2やRoseTTAFoldがある。最初は単一のタンパク質を予測するために作られたが、すぐにタンパク質複合体の予測にも適応された。それでも、配列を整列させるのに長い検索時間がかかることや、抗体と抗原の組み合わせなど特定の相互作用の予測が難しいという課題が残っている。新しいバージョンのAlphaFold3は、タンパク質だけでなくDNAやRNAなどの他の分子を含む相互作用を予測できる新しいモジュールを導入して改善を図ったが、抗体-抗原のケースではまだ苦戦している。

回帰ベースのモデル

回帰ベースのモデルは異なるアプローチを取る。通常はタンパク質の個々の3次元構造やその距離関係で動作して、配列アラインメントには頼らない。このカテゴリの最初のモデルであるEquiDockは、タンパク質ドッキング用の特別なタイプのニューラルネットワークを使用しているが、従来のモデルほどの性能を発揮していない。ElliDockのような他のモデルは調整を行ったが、大きな改善は見られなかった。それに対して、GeoDockやDockGPTはAlphaFold2に似た設計を採用して、個々のタンパク質構造を利用してある程度柔軟性を持たせたが、共折り法と比べるとやっぱり不足している。これらの回帰モデルは通常、モデルごとに1つの予測しか提供せず、トレーニングで見られない相互作用を予測する際にはあまり正確ではない。

拡散モデル

最近、拡散モデルが登場してきた。これらのモデルはドッキングをクリエイティブなプロセスと見なし、ユニークなトレーニング方法を使って新しい構造を生成できる。DiffDockはこのアイデアをタンパク質-タンパク質のドッキングに特化して適応させた。特定の空間に沿って拡散しながら、この文脈に合わせて通常の拡散プロセスを適応させる。また、DiffMaSIFはタンパク質インターフェースに関するより多くの情報を加えている。LatentDockは、最初に特定のタイプのオートエンコーダモデルを使ってから拡散を適用するという異なるアプローチを取っている。これらのモデルは様々な可能な設計を生成し、それを自信のレベルに基づいてランク付けする。

エネルギーベースのモデル

エネルギーベースのモデルは、タンパク質相互作用に関連するエネルギーレベルを推定するためにニューラルネットワークを訓練することに焦点を当てている。DockGameはエネルギー関数を監視された学習で訓練するか、自分でパターンを見つける方法を導入している。また、EBMDockは異なるエネルギー関数を使用してドッキング構成のサンプルを提供している。一部の研究者たちは、拡散とエネルギー関数を組み合わせた方法の開発に取り組んでいる。関連するモデルであるDSMBindは、学習したエネルギー関数が古い方法と比べて実際の結合エネルギーにより一致することを示している。

これらのアプローチの進展により、タンパク質ドッキングのために設計された生成的拡散モデルDFMDockが開発された。DFMDockは、潜在的な構造のサンプリングと候補のランク付けを1つのフレームワークに統合するという点でユニークだ。初期の結果は、DFMDockがサンプリングとランク付けの両面で前のモデルよりも優れていることを示唆しており、タンパク質相互作用に関与するエネルギーランドスケープを表現できる可能性がある。

DFMDockの概要

DFMDockのデザインは、ドッキングに関与するエネルギーと各タンパク質に作用する力を予測するために特定のタイプのニューラルネットワークを使用することに基づいている。このモデルはタンパク質の配置と相互作用を考慮に入れている。目的は、潜在的なドッキングポーズをより良くサンプリングし、エネルギー値に基づいてこれらのポーズをランク付けできるように、作用する力を学ぶことだ。

モデルはタンパク質のアミノ酸配列からの入力データを取り込み、それに物理的特徴を表現するための高度な埋め込みを組み合わせている。異なる残基間の接続を調べることで、DFMDockは短距離および長距離の相互作用を捉える表現を構築する。予測されるエネルギーは、残基同士の近接性を考慮したニューラルネットワークからの出力を平均化するプロセスで決定される。

数値の正確性を確保するために、モデルはタンパク質に適用される力を正規化し、これらの力を効果的にスケーリングする方法を学ぶ。トレーニングはタンパク質が自然に相互作用する方法に合致したプロセスを使用して行われる。

ポーズのランク付けには、モデルが予測したエネルギーがデータで観察された実際のエネルギーレベルと一致することを確保する損失関数を使用している。トレーニングデータは、さまざまなタンパク質複合体に関する情報を含む特定のデータセットから来ている。

結果と議論

DFMDockは、さまざまなテストにおいて以前のモデルDiffDock-PPを上回ることが示された。両モデルは異なる開始条件に基づいて複数のサンプルを生成したが、DFMDockは一貫して成功率が高かった。特に、ドッキングポーズの質を評価するテストでは、DFMDockは古いモデルと比べてタンパク質-タンパク質相互作用をより良く理解していることが分かった。

DFMDockのエネルギー関数の評価では、他のモデルで使用される定評のあるエネルギースコアリング方法と非常に似ていることが明らかになった。この類似性は、DFMDockが異なるドッキング構成を認識でき、質に基づいてそれらを効果的にランク付けできることを示している。

モデルのドッキング予測の視覚的表現を比較すると、DFMDockは他のモデルが失敗したいくつかのケースで妥当な結果を出した。しかし、中程度の質の構造を特定するための確立された方法には常に競争できるわけではなかった。これは、期待される改善の余地があることを示唆している。

改善の余地がある分野の一つは、DFMDockのエネルギー関数にもっと詳細を組み込むこと。そうすることで、許容できるドッキングポーズとそうでないものをより良く区別できるようにする。モデルのトレーニングは特定のデータセットに限定されているため、さまざまなタンパク質間の相互作用に対して一般化する能力が制約されるかもしれない。将来的な焦点は、より大きなデータセットを使用し、様々なタンパク質ドッキングシナリオにおける精度と信頼性を高めるためにエネルギー関数を洗練することになるだろう。

結論として、DFMDockはタンパク質ドッキングの分野での重要な進展を示す。サンプリングとランク付けを1つのモデルに統合することで、タンパク質相互作用の全体的な予測を改善する可能性を示している。開発の余地があることはあるが、期待される結果はDFMDockが今後のタンパク質ドッキング研究で重要な役割を果たすことができることを示唆している。

オリジナルソース

タイトル: Unified Sampling and Ranking for Protein Docking with DFMDock

概要: Diffusion models have shown promise in addressing the protein docking problem. Traditionally, these models are used solely for sampling docked poses, with a separate confidence model for ranking. We introduce DFMDock (Denoising Force Matching Dock), a diffusion model that unifies sampling and ranking within a single framework. DFMDock features two output heads: one for predicting forces and the other for predicting energies. The forces are trained using a denoising force matching objective, while the energy gradients are trained to align with the forces. This design enables our model to sample using the predicted forces and rank poses using the predicted energies, thereby eliminating the need for an additional confidence model. Our approach outperforms the previous diffusion model for protein docking, DiffDock-PP, with a sampling success rate of 44% compared to its 8%, and a Top-1 ranking success rate of 16% compared to 0% on the Docking Benchmark 5.5 test set. In successful decoy cases, the DFMDock Energy forms a binding funnel similar to the physics-based Rosetta Energy, suggesting that DFMDock can capture the underlying energy landscape.

著者: Jeffrey J. Gray, L.-S. Chu, S. Sarma

最終更新: 2024-09-28 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2024.09.27.615401

ソースPDF: https://www.biorxiv.org/content/10.1101/2024.09.27.615401.full.pdf

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

類似の記事