スムージング技術によるタンパク質デザインの進歩
新しい方法がバイオテクノロジーにおけるタンパク質の最適化を向上させて、より良い機能を実現するんだ。
― 1 分で読む
タンパク質の機能を向上させるのは、医療やバイオテクノロジーなど、いろんな分野でめっちゃ大事だよ。科学者たちは、特定のタスクに対してもっと効果的に働くタンパク質をデザインしたいと思ってる。でも、選べるタンパク質の数がめっちゃ多いから、このプロセスはかなり難しい。
タンパク質最適化の問題
新しいタンパク質を作るために、研究者たちはいくつかの課題に直面してる。特に大きな問題は、可能なタンパク質の配列の数がめちゃくちゃ多いこと。タンパク質の鎖が長くなるほど、可能性のあるタンパク質の数が急増するから、手作業で全ての選択肢を見るのはほぼ不可能だよ。
従来の方法は、タンパク質配列の小さな変化に制限してることが多くて、新しいタンパク質の選択肢が狭まっちゃう。これを小さな突然変異半径を探索するって言うんだけど、この方法じゃ、より良いデザインの可能性を見逃しちゃうことが多い。
そこで、科学者たちはタンパク質の「フィットネスランドスケープ」を見る方法が欲しいと思ってる。この用語は、異なるタンパク質配列がどれだけタスクをこなすのかを指してる。小さな変化だけじゃなくて、研究者たちはフィットネスランドスケープを滑らかにすることを目指してる。そうすれば、有望なタンパク質の変異を見つけやすくなるんだ。
フィットネスランドスケープを滑らかにする
タンパク質デザインの課題に対処するために、滑らかにする技術を使うことが提案されてる。基本的なアイデアは、タンパク質の配列とそのフィットネススコアをグラフの一部として扱うこと。これによって、異なるタンパク質配列の関係を視覚化して、全体の性能を理解しやすくする。
最初のステップは、このグラフにおけるタンパク質配列のフィットネススコアをデータポイントとしてモデル化すること。その後、ティクノフ正則化っていう方法をこのグラフに適用する。この技術は、フィットネススコアを滑らかにして、似たような配列が似たような予測フィットネス値を持つようにする。実際のフィットネススコアは様々な要因で大きく変動するけど、滑らかにすることで、研究者はこれらのスコアのより良い全体像を見つけやすくなる。
フィットネスランドスケープが滑らかになったら、研究者はこの強化されたモデルを使って、機能が期待できるタンパク質を作成できる。このアプローチは、特にグリーンフルオレセントタンパク質(GFP)やアデノウイルス関連ウイルス(AAV)タンパク質の特定のファミリーに適用した時に、様々な評価で良い結果を示してる。
タンパク質デザインのプロセス
滑らかにしながらタンパク質配列を最適化する全体のプロセスは、いくつかのステップに分けられる。
グラフの表現: 最初のステップは、配列をノードとして、フィットネススコアを属性として使ってグラフを作成すること。このことで、異なる配列の関係が見えるようになる。
滑らかにする技術: グラフができたら、ティクノフ正則化を適用する。これによって、フィットネスデータのノイズが減って、研究者がトレンドをもっと簡単に見つけられるようになる。
モデルのトレーニング: フィットネスランドスケープが滑らかになったら、このデータを使って異なる配列のフィットネスを予測するモデルをトレーニングする。このトレーニングされたモデルは、改善された機能を持つ新しいタンパク質配列を生成するために使える。
突然変異のサンプリング: ギブスサンプリングを使って研究者は既存のタンパク質配列に新しい突然変異を提案できる。この方法は、生成された配列が滑らかなフィットネスランドスケープに基づいて良い性能を持つ可能性が高くなるように助ける。
反復的改善: このプロセスは、提案と評価のいくつかのラウンドを許可する。タンパク質の配列は継続的に洗練されて、フィットネスの高い配列に向かって徐々に収束する。
結果の評価
この新しい方法は、GFPとAAVタンパク質に焦点を当てた特定のタスクを使って評価された。これらのタンパク質は非常に重要で、それらの配列と機能に関するデータが豊富にある。
研究者たちは、異なる難易度の評価タスクをいくつか設計した。彼らは、トップ性能の配列に到達するために必要な変化の数と、フィットネスのスタート範囲の2つの要因に注目した。タスクが難しいほど、最適な性能に達するために必要な突然変異の数が増えた。
結果は、新しい方法がよりよい性能を持つ配列を見つけるのにより多くの成功をもたらしたことを示した。場合によっては、滑らかにするアプローチが従来の方法と比べてかなりの性能向上につながった。例えば、特定のタンパク質配列の性能が、滑らかにする技術を適用した後に劇的に向上した。
タンパク質最適化の課題
新しいアプローチで進展があったとはいえ、考慮すべき課題も残ってる。一つの大きな問題は、質の高いデータの入手可能性だ。タンパク質の配列に対する正確なフィットネススコアを生成するのはコストがかかって時間もかかるプロセス。限られたデータセットは、信頼性の低い予測につながることがある。
さらに、タンパク質の最適化はモデル内のさまざまなパラメータの慎重な調整が必要だ。グラフのサイズや滑らかさの度合いなどの要因は、最良の結果を導くために最適化する必要がある。条件がタンパク質の種類によって異なることがあるので、適切なバランスを見つけるのは難しいことがある。
今後の方向性
これからは、研究者たちはこれらの滑らかにする技術をさらに洗練させて、より広範囲のタンパク質に適用できるようにすることを目指してる。異なるタンパク質のランドスケープをどう特徴づけるか、既存のデータをどう活用して最適化プロセスを改善できるかを探る予定。
また、予測された配列が実際に良い性能を持つことを確認するための信頼できる実験的検証が必要だ。研究者たちは、計算技術を実世界のテストと統合して、これらの最適化が機能するタンパク質を生み出すことを確認したいと考えてる。
結論
要するに、滑らかにする技術を通じてタンパク質の最適化を改善するのは大いに期待できる。タンパク質の配列とそのフィットネススコアをグラフベースのモデルで表現するアプローチは、より良いデザインプロセスにつながる可能性がある。課題は残ってるけど、計算技術と革新的なモデル戦略の組み合わせが、バイオテクノロジーや医療のためにもっと効果的なタンパク質を作る道を開くかもしれない。
タイトル: Improving Protein Optimization with Smoothed Fitness Landscapes
概要: The ability to engineer novel proteins with higher fitness for a desired property would be revolutionary for biotechnology and medicine. Modeling the combinatorially large space of sequences is infeasible; prior methods often constrain optimization to a small mutational radius, but this drastically limits the design space. Instead of heuristics, we propose smoothing the fitness landscape to facilitate protein optimization. First, we formulate protein fitness as a graph signal then use Tikunov regularization to smooth the fitness landscape. We find optimizing in this smoothed landscape leads to improved performance across multiple methods in the GFP and AAV benchmarks. Second, we achieve state-of-the-art results utilizing discrete energy-based models and MCMC in the smoothed landscape. Our method, called Gibbs sampling with Graph-based Smoothing (GGS), demonstrates a unique ability to achieve 2.5 fold fitness improvement (with in-silico evaluation) over its training set. GGS demonstrates potential to optimize proteins in the limited data regime. Code: https://github.com/kirjner/GGS
著者: Andrew Kirjner, Jason Yim, Raman Samusevich, Shahar Bracha, Tommi Jaakkola, Regina Barzilay, Ila Fiete
最終更新: 2024-03-02 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2307.00494
ソースPDF: https://arxiv.org/pdf/2307.00494
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。