Simple Science

最先端の科学をわかりやすく解説

# 生物学# 生物情報学

METLを使ったタンパク質工学の進展

METLは合成データと機械学習を組み合わせて、より良いタンパク質設計を実現してるよ。

― 1 分で読む


METLがタンパク質デザイMETLがタンパク質デザインを変える工学を革命化する。METLはデータに基づく洞察でタンパク質
目次

タンパク質は体内に欠かせない分子で、小さな単位であるアミノ酸の長い鎖から成り立ってるんだ。このタンパク質内のアミノ酸の並び順が、その構造や機能を決定する。タンパク質の働きを理解することは、医学やバイオテクノロジーなどの多くの分野で重要なんだ。タンパク質を研究する一つの方法は、彼らの配列を分析して、これらの配列の変化がどのように振る舞いに影響を与えるかを予測するモデルを使うこと。

最近、研究者たちはこの過程を助けるために「タンパク質言語モデル(PLMs)」という特別なモデルを開発したんだ。これらのモデルは言語処理の技術を使ってタンパク質の配列を分析し、解釈するんだ。人間の言語を理解するのと同じように、膨大なタンパク質データを調べることで、タンパク質の機能予測に重要なパターンや関係を見つけることができるよ。

タンパク質工学の重要性

タンパク質工学は、特定の機能を達成するためにタンパク質を設計・修正することに焦点を当てた分野なんだ。これには、タンパク質の安定性や活性、その他の特性を高めることが含まれる。ただ、タンパク質工学は限られた実験データのために課題に直面することが多いんだ。従来の方法は遅くて高コストだから、多くのタンパク質のバリアントを探るのが難しい。

これらの課題を乗り越えるために、PLMsは実験データと分子モデリングから生成されたシミュレーションデータの両方でトレーニングできるんだ。これらのモデルに生物物理学的知識を取り入れることで、研究者たちは望ましい特性を備えたタンパク質を設計・予測する能力を向上させることができる。

生物学的知識と機械学習の結合

ほとんどのPLMsは自然なタンパク質配列でトレーニングされているから、自然界に存在する既存のタンパク質から学んでるんだ。ただ、このアプローチはタンパク質の働きを支配する物理的原則を捉えきれないことが多い。そこで、研究者たちは「突然変異効果転送学習(METL)」という新しい技術を導入したんだ。

METLは従来の機械学習を生物物理データと組み合わせたものだ。分子シミュレーションに基づく大規模データセットを生成することで、研究者たちはPLMsにタンパク質の基本的な特性について教えることができる。これによって、アミノ酸配列の特定の変化がタンパク質の構造や機能にどう影響するかを学ぶことができるんだ。

METLの仕組み

METLは主に3つのステップから成り立ってる:

  1. 合成データの生成:研究者たちは分子モデリングツールを使って多数のタンパク質バリアントを作成する。これらのツールは、タンパク質が異なる環境でどうフォールドして振る舞うかをシミュレートする。結果として、各タンパク質の配列だけでなく、その特性を説明する生物物理的属性も含まれるデータセットができるんだ。

  2. モデルの事前トレーニング:合成データを使ってPLMを事前トレーニングする。このフェーズで、モデルはアミノ酸配列とそれに対応する生物物理的属性の間のパターンや関係を認識することを学ぶ。

  3. 実験データでのファインチューニング:最後に、事前トレーニングされたモデルを実際の実験データでファインチューニングする。このステップで、モデルは過去の知識や実世界の観察に基づいて特定のタンパク質特性について予測を行うことができる。

METLアプローチの利点

METLを使うことで、研究者たちは従来のタンパク質モデリング技術のいくつかの制限を克服できるんだ。合成データと実験データの組み合わせにより、モデルは:

  • 限られたデータで学ぶ:METLは実験データが乏しい場面で優れた性能を発揮する。合成データが追加のトレーニング例を提供し、モデルがより良い予測を行うのを助ける。

  • 新しいタンパク質に一般化する:METLモデルは、トレーニング中に見られなかったタンパク質バリアントについて予測ができる。これはタンパク質工学において重要で、新しいタンパク質デザインの探求を可能にするんだ。

  • さまざまな特性を予測する:モデルは安定性や結合親和性、活性などのさまざまなタンパク質特性を予測できる。この多様性が研究者にとって価値あるツールになる。

METLフレームワークの構築

METLフレームワークを開発するにあたり、研究者たちはローカルとグローバルなデータセットの両方を使用したんだ。ローカルデータセットは特定のタンパク質を囲むアミノ酸配列を含み、グローバルデータセットは異なるファミリーからのさまざまなタンパク質配列を含んでる。

研究者たちはMETLの2つのバージョンをトレーニングした:特定のタンパク質に特化したMETL-Localと、多様なタンパク質配列をカバーするMETL-Global。これにより、研究のタイプや目的に基づいてより特化した予測が可能になるんだ。

METLの性能評価

研究者たちはMETLの性能をいくつかの実験データセットを使って厳密にテストしたんだ。確立されたベースライン手法との比較では、特に小規模なデータセットでトレーニングされたときにMETLが多くの既存のアプローチを上回ることがわかった。モデルの新しいタンパク質への一般化能力は、タンパク質デザインにおいて効果的なツールとしての役割を果たすことができたんだ。

予測モデリングの課題

タンパク質工学における予測モデリングには、特に新しいデータへの一般化に関して課題がある。限られたトレーニング例はバイアスのあるモデルを生む可能性があり、正確な予測が難しくなる。研究者たちはMETLの効果を評価するためにさまざまな外挿タスクでテストした。

これらのタスクには、突然変異外挿(トレーニングデータに存在しないアミノ酸置換の影響を予測すること)や位置外挿(トレーニング例に含まれていない配列位置の影響を予測すること)が含まれていた。METLはこれらのタスクで強い性能を示し、限られたデータから学ぶ能力を示したんだ。

グリーン蛍光タンパク質のバリアント設計

METLの能力を示すために、研究者たちはこのフレームワークを使ってグリーン蛍光タンパク質(GFP)のバリアントを設計したんだ。GFPは明るい蛍光で知られ、多く研究されているタンパク質で、タンパク質工学の探求に役立つモデルとなっているんだ。

研究者たちはGFPバリアントの小さなデータセットでMETLをファインチューニングし、望ましい蛍光特性を持つ新しい配列をデザインするのに使った。結果は有望で、設計されたバリアントの多くが実験テストで測定可能な蛍光を示したよ。

METLでのタンパク質工学の未来

METLの開発はタンパク質工学の分野における重要な進展を意味するんだ。生物物理学的知識と機械学習を統合することで、研究者たちはこれまで以上に効果的にタンパク質を設計・予測できるようになる。将来的には、METLフレームワークをさらに洗練させ、より高度な分子モデリング技術を取り入れ、さまざまな分野での応用を拡大する可能性が高いんだ。

この革新的なアプローチは、新しいタンパク質デザインの道を切り開くだけでなく、タンパク質の振る舞いを左右する基本的なプロセスに対する理解を深めることにもつながるんだ。技術と計算方法が進化することで、METLや似たようなフレームワークがタンパク質科学を変革する可能性はすごく大きいよ。

結論

結論として、METLは合成データ、生物物理モデリング、先進的な機械学習技術を組み合わせて、タンパク質の理解と操作を向上させる強力なツールなんだ。限られたデータから学び、新しい配列に一般化する能力は、タンパク質工学の分野での研究者にとって貴重なリソースになる。生物学的知識と計算方法のギャップを埋めることで、METLはタンパク質科学の未来において重要な役割を果たすだろう。

オリジナルソース

タイトル: Biophysics-based protein language models for protein engineering

概要: Protein language models trained on evolutionary data have emerged as powerful tools for predictive problems involving protein sequence, structure, and function. However, these models overlook decades of research into biophysical factors governing protein function. We propose Mutational Effect Transfer Learning (METL), a protein language model framework that unites advanced machine learning and biophysical modeling. Using the METL framework, we pretrain transformer-based neural networks on biophysical simulation data to capture fundamental relationships between protein sequence, structure, and energetics. We finetune METL on experimental sequence-function data to harness these biophysical signals and apply them when predicting protein properties like thermostability, catalytic activity, and fluorescence. METL excels in challenging protein engineering tasks like generalizing from small training sets and position extrapolation, although existing methods that train on evolutionary signals remain powerful for many types of experimental assays. We demonstrate METLs ability to design functional green fluorescent protein variants when trained on only 64 examples, showcasing the potential of biophysics-based protein language models for protein engineering.

著者: Philip A Romero, S. Gelman, B. Johnson, C. Freschlin, S. D'Costa, A. Gitter

最終更新: 2024-03-17 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2024.03.15.585128

ソースPDF: https://www.biorxiv.org/content/10.1101/2024.03.15.585128.full.pdf

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

著者たちからもっと読む

類似の記事