新しいモデルがタンパク質の安定性の予測を進化させた
研究者たちがアミノ酸の変異からタンパク質の安定性の変化をよりよく予測するモデルを開発したよ。
― 1 分で読む
タンパク質の安定性は、タンパク質の機能や進化にとって重要なんだ。これが人の健康問題にも影響を与えて、さまざまな用途のために新しいタンパク質を作る上でクリティカルなんだよ。タンパク質がアミノ酸という構成要素を変えると、安定性に影響が出ることがあるんだ。安定したタンパク質は、正しく折りたたまれて、いろんな条件下でもその構造を維持できるやつ。もしアミノ酸の置き換えによって安定性が変わったら、深刻な問題、病気を引き起こすことがある。
この研究では、アミノ酸の変化がタンパク質の安定性にどんな影響を与えるかを予測する方法を改善することを目指したんだ。研究者たちは先進的な技術を使って、タンパク質をより深く分析したんだ。グラフニューラルネットワークというAIを使って、アミノ酸間の関係を以前の方法よりもうまく考慮できたんだ。
タンパク質安定性の重要性
タンパク質の安定性は、折りたたまれた状態と未折りたたまれた状態のバランスとして考えられるんだ。タンパク質は、折りたたまれた(アクティブな)状態と、未折りたたまれた(非アクティブな)状態の二つの主要な形を持つんだ。タンパク質が折りたためば、自由エネルギーがマイナスになるのが理想なんだ。安定したタンパク質ほど、その形を維持して正常に機能しやすいんだ。特定の変異がタンパク質の折りたたまれた構造を壊すことで、逆に不安定になることもある。
例えば、特定の酵素でスレオニンからメチオニンに変わると、心臓病と関連性があるんだ。この変化は、タンパク質内部の安定化する力を壊し、より不安定な構造と機能の低下を引き起こすんだ。
現在のタンパク質安定性測定方法
従来は、科学者たちは実験で変異がタンパク質の安定性に与える影響を測定してた。一つの一般的な方法は、タンパク質を加熱して、どのように折れたかを観察することなんだ。元のタンパク質とその変異株の折れた温度を比較することで、安定性の変化を推測するんだ。ただ、これらの実験は時間がかかって、高コストなんだ。
プロセスをスピードアップするために、研究者たちはコンピュータモデルに目を向けた。一部のモデルは、既知の物理的原理を使って安定性の変化を推定するんだ。例えば、タンパク質内部の原子間の物理的相互作用をシミュレーションして、変異後の安定性を予測するんだ。これらのモデルは洞察を提供できるけど、膨大な計算リソースと時間が必要で、大きなデータセットには実用的じゃないことが多いんだ。
機械学習による進展
タンパク質のデータが急速に増えてくる中で、機械学習はタンパク質の安定性を予測する強力なツールになってるんだ。最近の方法は、アミノ酸の配列やその進化の歴史を分析するために機械学習技術を使うことに焦点を当ててるんだ。このモデルは配列データだけに基づいて予測を行うことができるけど、タンパク質の三次元構造についての詳細情報が不足してることが多いんだ。
この研究の研究者たちは、配列データと構造情報を組み合わせることで、予測を改善したんだ。彼らは、原子と残基の二つの異なるスケールを使って、タンパク質の変化をより正確に評価できるシステムを作ったんだ。原子スケールは個々の原子を見るのに対し、残基スケールはアミノ酸のグループを調べるんだ。
グラフニューラルネットワークを使った新しいアプローチ
研究者たちは、タンパク質のより詳細で柔軟な表現を構築するために、グラフニューラルネットワーク(GNN)を使った新しいモデルをデザインしたんだ。アミノ酸をノード、接続をエッジとして、タンパク質をグラフとして扱うことで、タンパク質の異なる部分間の複雑な関係を考慮できるモデルができたんだ。
彼らは、多くのタンパク質変異を含む新しい大規模データセットでモデルを訓練したんだ。このデータセットは「メガスケール」と呼ばれ、高スループット実験を通じて集められたもので、タンパク質の安定性変化に関する包括的な情報が含まれてた。60万以上のデータポイントがあって、モデルの訓練にしっかりした基盤を提供してるんだ。
研究者たちは、モデルに対して二つの主なタスクを設定した。一つ目は、アミノ酸の周りの原子環境を特定すること。二つ目は、変異によって引き起こされる安定性の変化にスコアを付けること。グラフニューラルネットワークを使うことで、研究者たちは様々な関係や異なるアミノ酸の変化の影響を一つのモデルで考慮できるようになったんだ。
結果と評価
評価の結果、このモデルは有望な結果を示したんだ。特に、直接訓練されていない変異の組み合わせでも、タンパク質の安定性の変化を正確に予測できたんだ。この柔軟さは、以前のモデルよりも大きな改善なんだ。以前のモデルは、単一または固定された数の変異しか扱えなかったからね。
チームは、伝統的な方法や他の機械学習モデルと結果を比較して、アプローチが競争力のある結果を提供していることを発見したけど、いくつかの限界もあった。例えば、モデルは時々メガスケールデータセットにオーバーフィットすることに直面して、新しいタンパク質配列への一般化能力が低下する可能性があるんだ。
将来の方向性
研究者たちは、自分たちのアプローチがすごく期待できる一方で、改善すべき点がまだあることを認めてるんだ。例えば、アミノ酸間の接続を定義する距離の閾値を精緻化することで、モデルの精度を向上させるために努力してる。さらに、他の方法やデータセットを組み込むことで、異なる条件下でのタンパク質の挙動についてさらに洞察が得られるかもしれないんだ。
モデルを継続的に改良して新しいデータを探求することで、研究者たちはタンパク質の設計やエンジニアリングを助ける信頼できるツールを作りたいと考えてるんだ。これが、医学やバイオテクノロジー、タンパク質関連の病気に関する理解の進展につながるかもしれないんだ。
結論
この研究は、アミノ酸の変化がタンパク質の安定性にどんな影響を与えるかを予測する上で大きな一歩を示してるんだ。先進的な機械学習技術を活用して、複数の情報源からデータを組み合わせることで、タンパク質構造の複雑さに対応できるモデルが作られたんだ。タンパク質に関する科学的理解が進化するにつれて、こんなツールがタンパク質研究や開発の新しい可能性を開くのに不可欠になるだろうね。
タイトル: Predicting protein stability changes under multiple amino acid substitutions using equivariant graph neural networks
概要: The accurate prediction of changes in protein stability under multiple amino acid substitutions is essential for realising true in-silico protein re-design. To this purpose, we propose improvements to state-of-the-art Deep learning (DL) protein stability prediction models, enabling first-of-a-kind predictions for variable numbers of amino acid substitutions, on structural representations, by decoupling the atomic and residue scales of protein representations. This was achieved using E(3)-equivariant graph neural networks (EGNNs) for both atomic environment (AE) embedding and residue-level scoring tasks. Our AE embedder was used to featurise a residue-level graph, then trained to score mutant stability ($\Delta\Delta G$). To achieve effective training of this predictive EGNN we have leveraged the unprecedented scale of a new high-throughput protein stability experimental data-set, Mega-scale. Finally, we demonstrate the immediately promising results of this procedure, discuss the current shortcomings, and highlight potential future strategies.
著者: Sebastien Boyer, Sam Money-Kyrle, Oliver Bent
最終更新: 2023-05-30 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2305.19801
ソースPDF: https://arxiv.org/pdf/2305.19801
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。