Simple Science

最先端の科学をわかりやすく解説

# 生物学# 生物物理学

機械学習を使ったタンパク質予測の進展

新しいモデルは、タンパク質の安定性を予測して、効果的に配列を生成するんだ。

― 1 分で読む


タンパク質予測の大突破タンパク質予測の大突破れたタンパク質配列を生成します。新しいモデルは安定性の予測を向上させ、優
目次

タンパク質はすべての生物に欠かせない分子で、いろんな機能を果たしてるんだ。効果的に働くためには、その形、つまり構造がすごく大事。タンパク質が特定の形に折りたたまれると、しっかり役割を果たすけど、間違った形になっちゃうと全然機能しないかもしれない。だから、タンパク質の構造や安定性を予測する方法を理解することは、医学やバイオテクノロジーの分野でめっちゃ重要だよ。

最近、機械学習が生物学の強力なツールとして登場してきた。これを使うことで、科学者たちは大量のデータセットからタンパク質がどんなふうに振る舞うかを予測できるんだ。特に注目すべきは、直接の監視なしで学習するモデルが出てきたことで、これを使うと明示的な指導なしにデータの中のパターンを見つけられる。

大きなデータセットの役割

UniProtやタンパク質データバンク(PDB)みたいなデータセットは、タンパク質データの大きなコレクションで、機械学習モデルを訓練するのに役立つ。ここには、既知のタンパク質の配列や構造に関する膨大な情報が含まれてる。これらのデータセットで訓練された機械学習モデルは、一見明らかでない関係やパターンを見つけることができる。

構造に基づいた言語モデルって呼ばれる一部のモデルは、特定の構造に折りたたまれる可能性が高いタンパク質の配列を生成できる。このモデルたちは、結合親和性-つまり、二つの分子の相互作用の強さ-や安定性など、タンパク質の性質を改善するのに役立つっていういい結果を出してる。これは驚くべきことで、これらのモデルは訓練中にこれらの性質を明示的に学んでいるわけではないから。

タンパク質予測における課題

これらのモデルは強力だけど、限界もある。一つの問題は、タンパク質の安定性を正確に予測するのが難しいこと。安定性っていうのは、いろんな条件下でタンパク質がどれだけ形を維持できるかを指す。自然のタンパク質構造で訓練されたモデルは、ある程度安定性を予測する能力があるかもしれないけど、特にそのために設計されたモデルに比べると、一般的にはパフォーマンスが劣る。

この違いが生じるのは、進化のプロセスが安定性などの要素に基づいてタンパク質を選ぶから。だから、一般的なタンパク質データだけで訓練されたモデルは、安定性に関する重要な詳細を見逃すかもしれない。

モデルのパフォーマンスを向上させる

機械学習モデルのパフォーマンスを向上させるために、研究者たちは、無監視の訓練で得た広範な知識を生かしつつ、タスク特有の情報を提供する方法を探してる。一つのアプローチは、監視付きファインチューニング(SFT)っていう方法を使うこと。このSFTでは、モデルを特定の興味のある性質、例えば安定性に関するキュレーションされた例のセットでさらに訓練するんだ。

SFTが特定のタスクに対するモデルのパフォーマンスを向上させることができる一方で、過剰適合のリスクもある。つまり、モデルがファインチューニング中に見る例に特化しすぎて、最初の訓練で得た一般的な知識を失ってしまう可能性がある。

もう一つの方法として、直接的な好み最適化(DPO)っていう手法が探求されてる。この方法では、モデルがタスクに関連する重要な違いを持つ表面的に似た例から学べる。これは生物学に特に関連があって、タンパク質の配列の小さな変化が安定性や構造に大きく影響することがあるから。

DPOとその応用

DPOは、ペアでの例を利用してモデルを効果的に訓練する。どのタンパク質が他よりも安定かの情報をモデルに提示することで、研究者たちはより正確な安定性の予測に向けてモデルを導ける。この方法により、モデルは完全なフィットネスランドスケープを利用して、安定性についての予測を行う能力が向上する。

DPOを通じて、研究者たちは改良されたデータセットを作成し、タンパク質の安定性タスクに対するより良いモデルを開発できる。彼らはモデルに特定のアミノ酸の変化に基づいて微妙な安定性の違いを見分けるよう指示することで、より正確な予測につながる。

モデルの訓練にDPOを使用

最近の研究では、DPOを使ってESM-IF1という事前訓練されたモデルを強化した。このモデルはタンパク質の構造と配列に関する情報を基にしてる。研究者たちは、さまざまなタンパク質の変異の包括的なデータセットから得た実験データを使って、安定性の情報を組み込んだ新しいバージョン、ProteinDPOを作ることを目指した。

結果は注目に値した。ProteinDPOは、元のESM-IF1モデルと、標準的な監視付きファインチューニングを受けたバージョンの両方を上回った。この新しいモデルは、単一変異による安定性の変化を予測するだけでなく、大きなタンパク質や抗体複合体の安定性を評価する他の関連タスクでも競争力のあるパフォーマンスを見せた。

ProteinDPOのパフォーマンス評価

ProteinDPOのパフォーマンスを評価するために、いろんなテストが実施された。これには、安定性の予測において精度が高いことで知られるThermoMPNNなど、他のモデルとのベンチマークも含まれてた。ProteinDPOの予測は、さまざまなデータセットで実験的に測定された安定性の変化との相関に基づいて評価された。

安定性専用に訓練されたモデルと比較して、ProteinDPOは予測能力が向上してるのが分かった。単一の変異が安定性に与える影響を特定するのに強いパフォーマンスを示し、訓練中に学んだ知識を一般化できる能力を際立たせた。

ProteinDPOの広範な応用

安定性予測能力が優れてるだけでなく、ProteinDPOの効果はタンパク質研究の他の重要なタスクにも広がってる。たとえば、タンパク質と他の分子との相互作用を理解するのに重要な結合親和性の予測でも有望な結果を示した。

これは重要で、結合親和性の正確な予測が研究者により良い薬や治療用タンパク質を設計する手助けになるから。ProteinDPOは、さまざまなタンパク質複合体の結合強度に関する洞察を提供できたことで、予測ツールとしての柔軟性を証明した。

新しいタンパク質配列の生成

既存のタンパク質を評価するだけじゃなく、ProteinDPOはその元のタンパク質よりもさらに安定する可能性のある新しいタンパク質の配列を生成することもできる。これはすごくエキサイティングな応用で、研究者たちが改良された性質を持つタンパク質の設計を探求できるようにするから。タンパク質の相互作用は複雑だから、オリジナルと異なるけど安定性を維持する配列を生成するのは難しいんだ。

DPOを活用して、研究者たちはさまざまなタンパク質構造の配列を生成し、その予測安定性を計算技術を使って評価することができた。生成された配列は有望な特性を示していて、この方法がさまざまな応用に対してより効果的なタンパク質の設計につながる可能性があることを示唆してる。

結論

機械学習、特にProteinDPOのようなモデルの進歩は、タンパク質の予測や設計において大きな前進を示してる。大量のデータセットとDPOのような革新的な訓練方法を利用することで、研究者たちは安定性をより正確に評価できるモデルを作成し、新しいタンパク質配列を生成できる。

これらの革新は、タンパク質の安定性や機能を理解し操作することが重要な薬の設計や合成生物学の分野において大きな期待を寄せられている。今後この分野が進化し続けるにつれて、複雑な生物学的な問いに機械学習を使う可能性はますます大きくなり、さまざまな応用においてより効果的でターゲットを絞った解決策が生まれるだろう。

将来の方向性

DPOの探求とProteinDPOのような生成モデルへの統合は、さらなる研究のためのエキサイティングな道を開いている。今後の研究では、安定性を超えた他の特性を反映するデータセットにモデルを合わせることを掘り下げるかもしれない。目指すのは、同様のアプローチが異なるタンパク質研究の分野で一般化可能な洞察を得られるかどうかを見ること。

研究者たちは、より多様なデータセットを取り入れたり、訓練プロセスを洗練したりすることで、現在のモデルを向上させることもできる。これによって、さらに良い予測や望ましい特性を持つタンパク質の生成が可能になるかもしれない。

機械学習が生物科学で何を達成できるのかの限界を押し広げ続ける中で、新しい革新や方法が登場し、タンパク質の挙動に対する理解がより深まり、バイオテクノロジーや医学の中での可能性が広がるだろう。

オリジナルソース

タイトル: Aligning protein generative models with experimental fitness via Direct Preference Optimization

概要: Generative models trained on unlabeled protein datasets have demonstrated a remarkable ability to predict some biological functions without any task-specific training data. However, this capability does not extend to all relevant functions and, in many cases, the unsupervised model still underperforms task-specific, supervised baselines. We hypothesize that this is due to a fundamental "alignment gap" in which the rules learned during unsupervised training are not guaranteed to be related to the function of interest. Here, we demonstrate how to provide protein generative models with useful task-specific information without losing the rich, general knowledge learned during pretraining. Using an optimization task called Direct Preference Optimization (DPO), we align a structure-conditioned language model to generate stable protein sequences by encouraging the model to prefer stabilizing over destabilizing variants given a protein backbone structure. Our resulting model, ProteinDPO, is the first structure-conditioned language model preference-optimized to experimental data. ProteinDPO achieves competitive stability prediction and consistently outperforms both unsupervised and finetuned versions of the model. Notably, the aligned model also performs well in domains beyond its training data to enable absolute stability prediction of large proteins and binding affinity prediction of multi-chain complexes, while also enabling single-step stabilization of diverse backbones. These results indicate that ProteinDPO has learned generalizable information from its biophysical alignment data.

著者: Brian Hie, T. Widatalla, R. Rafailov

最終更新: 2024-05-21 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2024.05.20.595026

ソースPDF: https://www.biorxiv.org/content/10.1101/2024.05.20.595026.full.pdf

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

類似の記事