Simple Science

最先端の科学をわかりやすく解説

# 計量生物学# 定量的手法# 機械学習

機械学習によるタンパク質設計の進展

新しい方法が、効果的なタンパク質をより少ないリソースでデザインするプロセスを効率化してるよ。

― 1 分で読む


タンパク質設計のブレイクスタンパク質設計のブレイクスルースを変えてる。効率的な方法がタンパク質工学と検証プロセ
目次

特定のタスクに対して効果的に働くタンパク質を設計するのは、難しくてコストがかかる仕事だよね。研究者たちは新しいタンパク質を作成してテストする際に多くの障害に直面することがよくある。主な問題の一つは、テストで調べられるタンパク質のバリエーションの数が、可能なタンパク質配列の膨大な範囲に比べて非常に少ないってこと。だから、正しいタンパク質を見つけるのに多くの時間とリソースがかかるんだ。

タンパク質設計における少数ショット学習

最近、少数ショット学習っていう手法が導入されて、タンパク質の新しい設計を迅速化するのに役立ってる。このアプローチは、小さなデータセットを使ってコンピュータを訓練し、新しいタンパク質設計を提案できるようにするんだ。たくさんの例を必要とする代わりに、少数ショット学習を使うことで、研究者たちはデータポイントが少なくても結果を得られる。これは、効果的なデザインを見つけるのが難しいタンパク質工学に特に役立つ。

この方法は、大きく分けて2つのステップがある。まず、研究者はタンパク質の配列に基づいてその効果を予測できるモデルを作る。次に、特定のサンプリング技術を使って、タンパク質設計の範囲をより効率的に探索する。こういう新しいアプローチは、さまざまなタンパク質工学の課題に適応できるから、科学者にとって多才なツールなんだ。

従来の方法と現代のアプローチ

タンパク質工学は、これまで伝統的なラボ手法、例えば誘導進化や深部変異スキャンに依存してきた。これらの方法は、通常、複数回のテストとエンジニアリングが必要で、時間もお金もかかることが多い。よく整ったラボでも、同時にテストできるタンパク質のバリエーションの数は、利用可能な膨大な配列空間に比べて小さい。

それに対して、現代の機械学習技術は、どのタンパク質配列が成功するかを予測するのに役立つ。利用可能なデータでモデルを訓練することで、研究者たちはラボで全ての可能なバリエーションをテストすることなく、有望なデザインを特定できるんだ。

タンパク質配列空間の課題

可能なタンパク質配列の空間は巨大で、効果的なデザインを見つけるのが難しい。たとえば、小さなタンパク質でも数百万の組み合わせが考えられる。さらに、この広大な空間の中で、高性能なタンパク質が存在するエリアはほんの一部だったりする。だから、最適な配列を見つけるのは針をハイスタックから探すような感じなんだ。

現代のアプローチの目標は、この配列空間を効率的に探索して、よりうまくいきそうな組み合わせに焦点を当てること。機械学習と専門のサンプリング技術を使うことで、科学者たちはタンパク質配列の複雑な風景をより上手にナビゲートできる。

フィットネスランドスケープの探索

タンパク質設計の難しさに対処するために、研究者たちはフィットネスランドスケープ探索っていう技術を使用する。この技術は、予測されたパフォーマンスに基づいてさまざまなタンパク質配列の効果を評価することなんだ。まるで、いくつかのエリアが他よりも有望な地形をマッピングするような感じ。

この探索に使われる一般的な方法の一つが、メトロポリス・ヘイスティングス・モンテカルロサーチ(MHMCS)っていうんだけど、これには限界があって、局所的な最適解から抜け出すのが難しいことがある。

この制限を克服するために、進化的モンテカルロサーチ(EMCS)っていう新しいアプローチが開発された。この方法は遺伝的プロセスの要素を取り入れて、効率を保ちながら配列空間の広範な探索を可能にしている。

進化的モンテカルロサーチのアプローチ

EMCSは伝統的なサンプリングと違って遺伝学の概念を使ってる。これは、異なる温度で並行して動く複数のチェーンを使って、より良いデザインに向けて早く収束できるようにするんだ。「クロスオーバー」イベントを通じて遺伝情報が交換されることで、EMCSはさまざまなタンパク質配列の特徴を組み合わせることができる。

これによって、潜在的なタンパク質デザインの探索がより徹底的になる。EMCSは計算効率も高いし、限られた成功したタンパク質のセットからスタートしても、多様で高パフォーマンスのタンパク質配列を発見するのに役立つ。

成功したバリデーションの重要性

EMCSを使って新しいタンパク質を設計した後、研究者たちはこれらのデザインの効果を検証するために実験を行う。実験では、科学者たちは数千の配列をスクリーニングして、どれが最も効果的かを見つけるんだ。このバリデーションは、デザインの効果を実際に証明する重要な要素だよ。

最近の研究では、EMCSのアプローチを使うことで、従来の方法に比べてヒット率が大幅に向上したことがわかったんだ。つまり、提案されたデザインがテストされた時に、成功する割合が非常に多くなったってこと。

高度なサンプリング技術の利点

少数ショット学習とEMCSの組み合わせは、古い方法に比べていくつかの利点がある。まず、研究者が少ないデータセットで効果的なデザインを生成できるようになる。これは、ポジティブな例が少ないときに特に役立つ。

それに、EMCSによって提供される探索の幅が広がることで、有望な配列の多様性を特定できるようになる。これが、実験テストの成功率の向上につながる。新しいタンパク質の開発はコストがかかり、時間もかかることが多いから、その負担を減らすのは大きな進歩なんだ。

タンパク質工学への影響

少数ショット学習とEMCSを適用することで進められた研究は、タンパク質工学の分野に重要な影響を与えている。これにより設計サイクルが加速されるだけでなく、特定の機能を持つ新しいタンパク質を発見する可能性も広がるんだ。

研究者たちがこれらの方法をさらに洗練させていく中で、医学やバイオテクノロジーなどさまざまな分野で応用が見つかるかもしれない。これが、新しい治療用タンパク質や生物学的プロセスで重要な役割を果たす酵素の創出につながる可能性もある。

結論

要するに、少数ショット学習と進化的モンテカルロサンプリングの統合は、タンパク質工学における前向きな一歩を示している。これは、研究者たちがタンパク質を効果的に設計・検証する際の多くの課題に対処しているんだ。

データポイントが少なくて済み、広大な配列空間をより徹底的に探索することで、科学者たちは健康や産業において重要な応用が期待される新しいタンパク質を開発できるようになる。この分野での革新は、新たな探求の道を開くことができるんだよ。

オリジナルソース

タイトル: Improving few-shot learning-based protein engineering with evolutionary sampling

概要: Designing novel functional proteins remains a slow and expensive process due to a variety of protein engineering challenges; in particular, the number of protein variants that can be experimentally tested in a given assay pales in comparison to the vastness of the overall sequence space, resulting in low hit rates and expensive wet lab testing cycles. In this paper, we propose a few-shot learning approach to novel protein design that aims to accelerate the expensive wet lab testing cycle and is capable of leveraging a training dataset that is both small and skewed ($\approx 10^5$ datapoints, $< 1\%$ positive hits). Our approach is composed of two parts: a semi-supervised transfer learning approach to generate a discrete fitness landscape for a desired protein function and a novel evolutionary Monte Carlo Markov Chain sampling algorithm to more efficiently explore the fitness landscape. We demonstrate the performance of our approach by experimentally screening predicted high fitness gene activators, resulting in a dramatically improved hit rate compared to existing methods. Our method can be easily adapted to other protein engineering and design problems, particularly where the cost associated with obtaining labeled data is significantly high. We have provided open source code for our method at https:// github.com/SuperSecretBioTech/evolutionary_monte_carlo_search.

著者: M. Zaki Jawaid, Robin W. Yeo, Aayushma Gautam, T. Blair Gainous, Daniel O. Hart, Timothy P. Daley

最終更新: 2023-05-25 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2305.15441

ソースPDF: https://arxiv.org/pdf/2305.15441

ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

類似の記事