Simple Science

最先端の科学をわかりやすく解説

# 生物学# 生物情報学

FLIGHTED法を使ったタンパク質設計の進展

FLIGHTEDは実験ノイズに対処して、タンパク質データ分析を改善する。

― 1 分で読む


FLIGHTEDがタンパクFLIGHTEDがタンパク質データ分析を変えるして、より良い予測を可能にする。新しい方法がタンパク質実験のノイズを解決
目次

機械学習技術は、タンパク質デザインに関するさまざまな問題を解決するのに大成功を収めてるんだ。これらの方法は、高スループット実験から得られたデータに大きく依存していて、たくさんのタンパク質を同時にテストするんだ。そのデータを使って、大きな機械学習モデルを訓練して、タンパク質の機能を改善してる。

でも、高スループット実験には大きな課題があって、それはノイズなんだ。こうした実験は、測定のランダムな変動のせいで不確かなデータを生み出すことが多い。たとえば、パフォーマンスに基づいてタンパク質を選ぶとき、結果はこうしたランダムな影響で大きく変わることがあるんだ。もし機械学習モデルがこのノイズを考慮しないと、間違った結論を出したり、パフォーマンスが悪くなったりするんだ。

従来、タンパク質研究における実験ノイズへの対処は、主に特定のタイプの実験に焦点を当ててきた。いくつかのアプローチでは、この問題に対処するために解析的方法を提案してるけど、使えるモデルの種類が限られたりする。他の方法では、ノイズを減らす手段を探ってるけど、問題を完全には解決してない。

そんな中で、あらゆるタイプの高スループット実験からのノイズを扱うために設計された新しい方法を紹介するよ。これをFLIGHTEDって呼ぶんだ。この方法は、実験に内在するノイズを考慮しつつ、信頼できるデータモデルを作成するための特定のアプローチを使うんだ。タンパク質データの分析を改善して、タンパク質の機能予測をより良くすることを目指してる。

FLIGHTEDアプローチ

FLIGHTEDは、高スループット実験データによって生成されたフィットネスランドスケープの推測を意味する。これは、ノイズの多い実験からの既知の誤りを含む信頼性のあるデータモデルを生成するために設計されてる。この方法は、さまざまなタイプの高スループットテストに適用でき、異なる機械学習モデルとも組み合わせることができる。

FLIGHTEDの有用性を示すために、単一ステップ選択実験と新しいアッセイであるDHARMAでの応用を検討するよ。どちらの場合も、FLIGHTEDはタンパク質の真のフィットネスを反映した結果を生成し、強固でキャリブレーションされた誤差推定を提供する。

FLIGHTEDモデルの訓練

FLIGHTEDモデルを訓練するには、高スループット実験がノイズの影響を受けるデータを生成する仕組みを理解する必要がある。各タイプの実験にはそれぞれの特性があるから、異なるタイプの実験用に異なるモデルを訓練する必要がある。FLIGHTEDは、実験から得られたノイズの多い結果と実際のタンパク質フィットネスの真の値を含むデータセットを必要とする。真の値はシミュレーションや複数の測定によって確立できる。

訓練フェイズでは、FLIGHTEDはノイズの多い実験データのみに集中し、実際のフィットネス値は無視する。これによって、モデルはデータに存在するノイズレベルに基づいて実験結果をシミュレートする方法を学ぶことができる。訓練プロセスでは、2つの主要なコンポーネントが生成される:1つはフィットネスランドスケープに基づいて実験結果を予測し、もう1つはこれらの実験結果に基づいてフィットネスを予測する。モデルのパフォーマンスは、キャリブレーションデータセットからの実際のフィットネス値に対して評価される。

パフォーマンス評価

FLIGHTEDのパフォーマンスを評価するために、その予測を実際のフィットネス測定と比較する。目標は、予測が正確で信頼できることを確認することで、FLIGHTEDは実験データに存在するノイズを正しく考慮しなければならない。

正しく訓練され、検証されれば、FLIGHTEDモデルはさまざまな高スループット実験からのデータを処理するために利用できる。このデノイジング能力は、これらの実験方法に依存してタンパク質の挙動を理解しようとする研究者にとって重要なんだ。

単一ステップ選択アッセイ

単一ステップ選択アッセイは、研究者が最も効果的なタンパク質変異体を選んで測定する実験で、複数のタンパク質変異体が含まれている。これらの実験では、タンパク質はしばしば濃縮比に基づいて選ばれる-基本的には選択前後での活動の測定なんだ。

ただし、これらの測定は完璧ではなく、サンプリングノイズの影響を受ける。このノイズのせいで、どのタンパク質がより高いフィットネスレベルを持っているかを正確に評価するのが難しい。従来の濃縮比の使い方では、このノイズを考慮せずに結論を出すと、誤解を招くことがあるんだ。

FLIGHTEDを使うことで、このノイズの影響をよりよく理解でき、単一ステップ選択アッセイから得られる測定にどのように影響するかをモデル化できる。FLIGHTEDモデルを使えば、選択プロセスに関わるノイズをシミュレートして、タンパク質のフィットネスについてより正確な予測ができる。

選択実験のシミュレーション

単一ステップ選択実験のノイズレベルを調べるために、多数のタンパク質変異体を使ってさまざまなシナリオをシミュレートする。このことで、フィットネスレベルが異なる場合に濃縮比にどれだけの変動があるかを見ることができる。

シミュレーションの結果、タンパク質のフィットネスが高まるにつれて、測定される濃縮比のノイズも増加することが分かる。これは、最も有望な候補がしばしば真のフィットネス値に関して最も高い不確実性を伴うことを示している。

この発見は、サンプリングノイズが単一ステップ選択アッセイの内在的な側面であることを強調している。こうした実験から得られる洞察が信頼できるものであるためには、これを慎重に考慮しなければならない。

選択アッセイにおけるモデルのパフォーマンス

FLIGHTEDを使って、ノイズの多い実験結果を使って真のフィットネス値をどれだけ正確に予測できるかを評価する。重要な点の一つは、結果のキャリブレーションで、つまり予測が実際の測定値にどれほど近いかを確認することだ。

厳密なテストを通じて、FLIGHTEDはフィットネス値を比較的高い精度で予測することが分かった。キャリブレーション結果は、実験のリード数が変わってもモデルのパフォーマンスが良好であることを示している。

さらに、ロバストネステストでは、さまざまなパラメータの範囲にわたってモデルのパフォーマンスが安定していることが示されており、FLIGHTEDは実験条件が変わっても信頼できることを示している。

DHARMAアッセイ

DHARMA(直接高スループット活動記録・測定アッセイ)は、新しい高スループットアッセイで、特定の酵素の編集活性にリンクしてタンパク質のフィットネスを測定する。このタイプのアッセイは、大きなデータセットを扱うことができ、生物学的な活動に関連するタンパク質機能の情報を提供できる。

単一ステップ選択実験と同様に、DHARMAの出力も関与する生物学的プロセスからのノイズの影響を受ける。だから、FLIGHTEDを使ってこのノイズを考慮すると、フィットネスが酵素活性とどのように相関するかをより正確に評価できる。

DHARMAにおけるノイズの課題

DHARMAでは、タンパク質のパフォーマンスの違いが、酵素が行う編集の数を測定する際に不一致な結果を引き起こすことがある。この不一致は、データから信頼できるフィットネス推定を得ようとする研究者にとって課題を生む。

FLIGHTEDは、DHARMAフレームワーク内のノイズを明示的にモデル化することで、この問題に対処してる。フィットネスが編集プロセスとどのように関連しているかをシミュレートすることで、FLIGHTEDはデータに内在する変動を考慮した明確な予測を提供できる。

DHARMAにおけるパフォーマンス評価

FLIGHTEDをDHARMAアッセイに適用した後、そのパフォーマンスを従来の方法と比較して評価する。目標は、FLIGHTEDのフィットネス予測が正確で信頼できることを確認することだ。

結果は、FLIGHTEDがノイズを考慮しないベースラインモデルと比較して、改善された予測を提供することを示している。また、モデルは適切なキャリブレーションを示しており、予測された誤差がデータで観測された真の誤差とよく一致している。

FLIGHTEDのキャリブレーションされた誤差推定を提供するアプローチは、研究者がDHARMAの出力から信頼できるフィットネス測定を行うために十分なデータがあるかどうかを判断するのに役立つ。

機械学習モデルのベンチマーキング

FLIGHTEDが信頼性のあるフィットネスランドスケープを生成することで、研究者はさまざまな機械学習モデルをこの堅牢なデータを使ってベンチマークできる。GB1タンパク質とTEVプロテアーゼを使った2つの特定のランドスケープに焦点を当てる。

ベンチマーキングでは、FLIGHTEDデータを使用した際のモデルのパフォーマンスを、標準的でノイズ処理されたデータセットと比較して評価する。テストされる機械学習モデルには、さまざまなニューラルネットワークや線形回帰技術が含まれている。

高品質データの重要性

私たちの調査結果は、FLIGHTEDを利用することでモデルパフォーマンスに大きな影響を与えることを示している。高品質なデータは、モデル評価を改善し、タンパク質データを扱う際にFLIGHTEDのような信頼できる前処理方法の必要性を示している。

さまざまなモデルのパフォーマンスを探る中で、モデルアーキテクチャの選択が予測の精度に大きな役割を果たすことが明らかになる。特定のアーキテクチャは、デノイズされたFLIGHTED出力で訓練されたときにより良い結果を得る。

機械学習ベンチマーキングからの洞察

ベンチマーキングプロセスは、トレーニングに使用されるデータのサイズと品質、モデル予測の精度との関係について貴重な洞察を提供する。より大規模なデータセットは、モデルパフォーマンスを向上させ、ハイコ品質データセットを生成する方法の必要性を強調してる。

体系的なテストを通じて、特定のアーキテクチャ、特に畳み込みニューラルネットワークがGB1とTEVデータセットの両方でパフォーマンスを発揮することが分かった。これは、研究者がタンパク質言語モデルのサイズを単に増やすのではなく、モデルアーキテクチャの最適化に注力すべきことを示唆している。

結論

FLIGHTEDは、高スループットタンパク質実験の分析を洗練させるための強力なツールとして機能する。単一ステップ選択アッセイとDHARMAアッセイの両方に内在するノイズに効果的に対応することで、FLIGHTEDは機械学習モデルのパフォーマンスを向上させる信頼できるフィットネスランドスケープを生成できる。

この発展は、研究者がタンパク質デザインに機械学習技術を活用する方法において重要な前進を示している。FLIGHTEDを通じて確立されたアプローチは、分野のさらなる進展への道を切り開き、タンパク質の機能の理解と予測をより良くすることができる。

結局のところ、FLIGHTEDはフィットネス評価の精度を改善するだけでなく、実験デザインやデータ収集戦略の最適化にも役立つ。さまざまなタンパク質実験でFLIGHTEDを引き続き探求・実施することで、タンパク質工学における機械学習の未来が期待できそうだ。

オリジナルソース

タイトル: FLIGHTED: Inferring Fitness Landscapes from Noisy High-Throughput Experimental Data

概要: Machine learning (ML) for protein design requires large protein fitness datasets generated by high-throughput experiments for training, fine-tuning, and benchmarking models. However, most models do not account for experimental noise inherent in these datasets, harming model performance and changing model rankings in benchmarking studies. Here we develop FLIGHTED, a Bayesian method of accounting for uncertainty by generating probabilistic fitness landscapes from noisy high-throughput experiments. We demonstrate how FLIGHTED can improve model performance on two categories of experiments: single-step selection assays, such as phage display and SELEX, and a novel high-throughput assay called DHARMA that ties activity to base editing. We then compare the performance of standard machine-learning models on fitness landscapes generated with and without FLIGHTED. Accounting for noise significantly improves model performance, especially of CNN architectures, and changes relative rankings on numerous common benchmarks. Based on our new benchmarking with FLIGHTED, data size, not model scale, currently appears to be limiting the performance of protein fitness models, and the choice of top model architecture matters more than the protein language model embedding. Collectively, our results indicate that FLIGHTED can be applied to any high-throughput assay and any machine learning model, making it straightforward for protein designers to account for experimental noise when modeling protein fitness.

著者: Kevin Esvelt, V. Sundar, B. Tu, L. Guan

最終更新: 2024-09-11 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2024.03.26.586797

ソースPDF: https://www.biorxiv.org/content/10.1101/2024.03.26.586797.full.pdf

ライセンス: https://creativecommons.org/licenses/by-nc/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

類似の記事