新しい機械学習ツールがタンパク質相互作用研究を強化する
PPIscreenMLは、先進的な機械学習技術を使ってタンパク質間の相互作用を特定する精度を向上させるよ。
― 1 分で読む
目次
細胞は正常に機能するために、細胞内の恒常性と呼ばれるバランスを維持する必要がある。このバランスは、多くのタンパク質が相互作用することで影響を受けるんだ。これらのタンパク質の相互作用を理解することは、特に多くの生物学的プロセスにおいて重要だよ。
研究者たちは、人間には74,000から200,000のタンパク質相互作用があると推定している。これらの相互作用を正確に見つけて研究するためには、有効な方法が必要だ。伝統的には、タンパク質相互作用を探るために二つの人気な技術が使われてきた。一つは酵母二重ハイブリッドアッセイ、もう一つはアフィニティ精製アッセイだ。最近では、BioIDやTurboIDのような新しい技術も人気になってきた。でも、これらの方法も問題があって、実験のやり方や研究している細胞の状態によって結果が大きく変わることがある。
こうした課題のために、科学者たちは誤った結果をたくさん得ることが多く、実際には存在しない相互作用を間違って特定したり、実際には存在するものを見落としたりしてしまうことがある。例えば、研究によると、実際のタンパク質相互作用のかなりの部分を回収するためには、約10種類の異なる実験アプローチを使う必要があるかもしれない。
タンパク質相互作用研究における計算の役割
こうした課題を助けるために、コンピュータベースの方法が伝統的な技術の補完として使われることがある。初期の計算方法は、遺伝子発現の似たパターンや異なる生物に見られる似た遺伝子の存在に基づいてタンパク質相互作用を推測していた。最近では、深層学習を用いた先進的な計算技術がタンパク質配列を解析し、相互作用を予測するために使われている。
これらの計算による予測は有望なんだけど、主な問題は明確さが欠けていること。トレーニングデータに含まれていないタンパク質に対して、これらのモデルがどれくらい機能するかを判断するのが難しいことがある。また、これらのモデルは一般的にタンパク質の相互作用の構造的な詳細を提供しない。この構造情報は、生物学的な役割を理解したり、潜在的な治療法を開発するために重要なんだ。
AlphaFold2の登場で、たくさんの研究者が個々のタンパク質の構造情報にアクセスできるようになったし、実験室で決定された構造と同じくらいの精度を持つこともある。AlphaFold2の信頼性の高い予測が、科学における新しい応用の扉を開いている。元々のAlphaFold2は単一タンパク質には良く機能していたけど、後のバージョンでは複数のタンパク質が複雑な構造を形成する予測能力が改善された。
タンパク質相互作用予測におけるAlphaFold2の限界
AlphaFold2はタンパク質ペアの正確な構造を提供するけど、特定のペアのタンパク質が実際に相互作用しているかどうかは明確には示していない。代わりに、予測された構造のセットを生成する。AlphaFold2はまた、各構造に対する予測の信頼度を反映したスコアも提供する。これらのスコアを使って予測された構造の品質を評価することはできるけど、このアプローチは真の相互作用ペアと相互作用しないペアを区別することには特に焦点を当てていない。
最近のパッケージであるAlphaPulldownは、相互作用を評価するためのさまざまな指標を算出した。これらの指標は理にかなったものだけど、この目的のために特に設計されたわけではない。
PPIscreenMLの紹介
これらの課題に対処するために、PPIscreenMLが開発された。これは、相互作用するタンパク質ペアと相互作用しないタンパク質ペアを区別することを目的とした機械学習分類器だ。この分類器は、AlphaFold2からの信頼度スコアとRosettaスコアリングシステムからのエネルギー項を組み合わせて使用している。
他の方法とは異なり、PPIscreenMLは実際の相互作用タンパク質とデコイとして生成されたものを区別するために特に訓練されている。評価中、PPIscreenMLは既存の方法と比較して相互作用ペアを特定する際により優れたパフォーマンスを示した。さらに、このツールの能力は、共通の構造的特徴を持つタンパク質のグループである腫瘍壊死因子スーパーファミリーを使用して示された。
PPIscreenML用のデータセットの開発
PPIscreenMLが効果的に機能するためには、相互作用する例と相互作用しない例の明確に定義されたデータセットが必要だった。研究者たちは、相互作用することが知られているタンパク質複合体のセットを集め、ホモダイマーや抗体複合体は除外した。また、多様性を確保するために、特定の閾値以上の配列同一性を持つ複合体も除外した。
アクティブな複合体のリストを作成した後、研究者たちは似たタンパク質を特定し、それらを新しい構造に組み合わせることでデコイ複合体を生成した。これにより、彼らはモデルが訓練中に挑戦的な分類タスクに直面するようにした。
PPIscreenMLモデルの目標は、実際に相互作用するタンパク質とそうでないものを区別することであり、AlphaFold2を使用して構築された高品質モデルで訓練される必要があった。
機械学習のための特徴抽出
データセットを準備した後、研究者たちは各タンパク質モデルからさまざまな構造的特徴を抽出した。これらの特徴は、AlphaFold2の予測の信頼度とRosettaシステムからのエネルギー特性を表していた。特徴の組み合わせは、相互作用ペアの包括的なビューを提供した。
抽出された特徴を使って、研究者たちはトレーニング、バリデーション、テストデータを分けた。情報がこれらのセット間で漏れないようにして、分類器が偏りのない正確なパフォーマンスを評価できるようにした。
PPIscreenMLモデルの構築と最適化
研究者たちは、PPIscreenMLを開発するためにいくつかの標準機械学習フレームワークをテストした。各モデルのパフォーマンスを評価するためにクロスバリデーション技術を使用して、タンパク質の相互作用をどれだけうまく分類できるかを確認した。いくつかのモデルを比較した結果、XGBoostフレームワークが相互作用ペアを区別する際に最も良い結果を示した。
モデルが過剰に特徴で訓練されないように、最も有効な情報を提供する特徴のセットに減らす方法を適用した。このスリムなモデルは高い精度を維持し、実際のアプリケーションにおいて実用的だった。
PPIscreenMLのパフォーマンステスト
PPIscreenMLは、トレーニングフェーズ中に見たことのない完全に別のデータセットでテストされた。このテストでは、潜在的に貧弱な予測を持つモデルも使用して、実際のアプリケーションをシミュレートした。モデルのパフォーマンスを現実的なコンテキストで評価し、結果が将来の調査に自信を持って適用できることを確認した。
PPIscreenMLは既存の方法と比較され、優れた性能を示した。相互作用ペアと相互作用しないペアに異なるスコアを割り当てる能力が、この二つのカテゴリー間の優れた分離を示し、研究者に予測能力に対するより明確な理解を提供した。
PPIscreenMLを使用したタンパク質ファミリーの評価
厳密な評価において、PPIscreenMLは腫瘍壊死因子スーパーファミリー内の相互作用を特定するために適用された。これは、多くのタンパク質が互いに相互作用することで知られている。この研究者たちは、すべての可能なペアをモデル化し、PPIscreenMLを使用して相互作用の可能性に基づいて分類した。
結果は、PPIscreenMLがこのスーパーファミリー内で真の相互作用タンパク質を正しく認識したことを示した。このベンチマークは、PPIscreenMLがさまざまなデータセットでパフォーマンスを一般化できることを示し、さまざまな生物学的質問における使用に対する信頼を高めた。
結論
PPIscreenMLの開発と最適化により、研究者たちはタンパク質相互作用を特定するための強力なツールを手に入れた。さまざまな予測技術と機械学習アプローチを組み合わせることで、PPIscreenMLは以前の方法に見られた多くの限界に対処している。タンパク質相互作用の研究が進化し続ける中、このツールは細胞プロセスの理解を深め、新しい治療戦略の指針となる可能性がある。
AlphaFold2のような予測モデルの継続的な改善により、パフォーマンスはさらに向上する可能性が高く、タンパク質相互作用の世界とそれらが生物学や医学に与える影響についての深い洞察が得られるだろう。科学者たちが細胞内の複雑なシステムを探求する中で、PPIscreenMLのようなツールが生命を支える複雑な関係を明確にするのに役立つだろう。
タイトル: PPIscreenML: Structure-based screening for protein-protein interactions using AlphaFold
概要: Protein-protein interactions underlie nearly all cellular processes. With the advent of protein structure prediction methods such as AlphaFold2 (AF2), models of specific protein pairs can be built extremely accurately in most cases. However, determining the relevance of a given protein pair remains an open question. It is presently unclear how to use best structure-based tools to infer whether a pair of candidate proteins indeed interact with one another: ideally, one might even use such information to screen amongst candidate pairings to build up protein interaction networks. Whereas methods for evaluating quality of modeled protein complexes have been co-opted for determining which pairings interact (e.g., pDockQ and iPTM), there have been no rigorously benchmarked methods for this task. Here we introduce PPIscreenML, a classification model trained to distinguish AF2 models of interacting protein pairs from AF2 models of compelling decoy pairings. We find that PPIscreenML out-performs methods such as pDockQ and iPTM for this task, and further that PPIscreenML exhibits impressive performance when identifying which ligand/receptor pairings engage one another across the structurally conserved tumor necrosis factor superfamily (TNFSF). Analysis of benchmark results using complexes not seen in PPIscreenML development strongly suggest that the model generalizes beyond training data, making it broadly applicable for identifying new protein complexes based on structural models built with AF2.
著者: John Karanicolas, V. Mischley, J. Maier, J. Chen
最終更新: 2024-04-30 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.03.16.585347
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.03.16.585347.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。