ウイルスの変異体を評価する:新しいアプローチ
研究者たちは、ウイルスモデルの文法性とタンパク質の安定性を使って変異の生存可能性を評価している。
― 1 分で読む
ウイルスの感染拡大のコンテキストでは、ウイルスの広がりや健康への影響に影響を与える可能性のある変異株を特定することが重要。変異を持つ株は、ウイルスが免疫応答を回避するのを助けるかもしれない。これらの変異株を研究するための従来の方法は、労力がかかる実験室テストを行い、限られた数の変異しか評価できない。いくつかの研究者は、深層変異スキャン(DMS)という手法を使って多くの変異を一度に研究しているが、このアプローチは実際の感染条件を正確に再現できない可能性がある。
研究者たちは、変異株がどのように振る舞うかを予測するためにモデリングアプローチを使い始めた。一部のモデルは過去の感染データを分析し、他のモデルはウイルスの生物学的特性に基づく複雑な計算を使っている。過去のデータに依存するモデルは、既知の変異株に基づいた予測しかできず、新たに出現する変異に対する有用性が制限される。一方、特定のモデルは複雑な計算に依存し、効果的に機能するには大量のデータが必要。
理想的なモデリング方法は、最小限の実験データで新しい変異について予測を行うことだ。最近、研究者たちは、特にタンパク質配列に焦点を当てた深層学習モデルの利用を提案した。これらのモデルは、変異の2つの重要な側面を評価できる:変異が文法的に有効かどうか、そしてタンパク質の構造や機能がどれだけ変わるか。文法的に有効で、免疫系との相互作用を大きく変える変異は、ウイルスが免疫応答から逃れるのを助ける可能性が高いと考えられている。
背景とモデル設定
タンパク質言語モデルは自然言語処理の概念を利用しているが、タンパク質の配列に適用される。単語モデルが文中の次の単語を予測するのと同様に、タンパク質モデルは配列の次のアミノ酸を予測する。文法的有効性や意味の変化について考え、タンパク質に適用できるか見るのが役立つ。文法的有効性は、変異がタンパク質の正しいフォールドを失うことなく作れるかどうかを示し、意味の変化は変異がタンパク質の機能をどれだけ変えるかを示す。
この考え方の背景には、大きな意味の変化を持つ変異がウイルスが細胞に感染し、免疫系から逃れるために頼る相互作用を破壊する可能性が高いということがある。文法的に有効で、かつ大きな意味の変化をもたらす変異が、ウイルスの進化において選ばれる可能性がある。
代替モデルとデータセット
研究者たちは、前回の作業以来出現したさまざまなデータセットを探求した。これらの新しいデータセットを見て、文法的有効性と意味の変化が、実験的に確認された免疫応答回避の変異とどのように関連しているかを理解しようとした。また、文法的有効性がタンパク質の安定性などの従来の測定と関連しているかどうかも確立しようとした。
いくつかのモデルや方法が、タンパク質の変異を評価するために利用可能である。特定のウイルス、インフルエンザやHIVを対象にしたプロトタイプもあれば、さまざまなウイルスシステムにわたって洞察を提供できる一般的なモデルもある。
研究者たちは、さまざまなモデルから得られた文法的有効性スコアを比較し、有効な変異と無効な変異を効果的に区別できるか見た。
変異の有効性
異なるモデルが変異が有効かどうかをどれだけよく予測できるかを評価するために、研究者たちはSARS-CoV-2のスパイクタンパク質の変異の包括的なデータセットを使用した。各提案された変異は、タンパク質が機能するかどうかに基づいて分類された。ほとんどのモデルは、有効な変異が無効なものよりも文法的有効性スコアが高い傾向を示した。
しかし、スコアに大きな違いがあるにもかかわらず、両グループの間には重複があり、高スコアや低スコアの変異がその有効性を明確に示すわけではなかった。テストされたさまざまなモデルの中で、タンパク質の安定性の変化も計算するモデルが、どの変異が有効であるかを予測するのに最も効果的だった。
意味の変化と免疫回避
次に、研究者たちは意味の変化と免疫回避変異の関連を調査した。彼らは、大きな意味の変化がウイルスが免疫系を回避するのを助ける変異の能力に対応しているかどうかを知りたいと思った。しかし、分析の結果、免疫回避変異として分類された変異とそうでないものの間で、意味の変化に有意な差は見られなかった。
いくつかのケースでは、回避の可能性が高いとされる特定のタイプの変異が常に高い意味の変化を示さなかった。これは、免疫回避変異の予測に意味の変化を頼るのは効果的ではないかもしれないことを示唆している。
抗体結合との相関
研究者たちは、変異を単純に回避または非回避グループに分類するのではなく、意味の変化が抗体が異なるタンパク質変異株に結合する能力と相関があるかどうかを調べた。彼らはSARS-CoV-2のスパイクタンパク質のさまざまな変異のデータセットを使用し、これらの変異が多くの抗体への結合にどのように影響するかを測定した。
結果は、意味の変化と抗体結合の強さの間に弱い負の相関があることを示した。つまり、意味の変化が大きい変異は抗体への結合が減少する傾向があり、これがウイルスが免疫検出を回避するのを助けるかもしれない。
ただし、この相関は弱く、意味の変化が変異の免疫回避への影響の信頼できる指標ではないことを示している。さらに、意味の変化はACE2受容体への結合を維持することとの間に一貫した相関を示さなかった。これはウイルスが人間の細胞に侵入するための重要な要素だ。
異なるウイルス間の比較
研究者たちは、インフルエンザやHIVのような他のウイルスのタンパク質に対しても同様の分析を行った。結果は一般的にSARS-CoV-2のデータから得られた結果と一貫していた。文法的有効性スコアは、さまざまなウイルスで有効な変異の方が高い傾向があり、意味の変化スコアは有効性を維持する変異で低いことが多かった。
モデルを評価する際、ΔΔG値(安定性の指標)を予測するモデルが、他のモデルよりも変異の有効性を特定するのに一貫して優れていた。これはタンパク質の安定性を理解することが、言語モデルから導き出された文法的有効性スコアに依存するよりも、より有益である可能性があることを示唆している。
今後の研究のための推薦
研究者たちはウイルス回避の言語モデルを評価し続け、文法的有効性が変異の有効性についての洞察を提供できるが、意味の変化は免疫回避を予測するためにはあまり役立たないことを見出した。彼らは、既存のツールやモデルを調整または改善して、新たな変異株が懸念される可能性をよりよく評価する必要があると結論づけた。
証拠は、ウイルスモデリングの今後の応用は、タンパク質と免疫系の相互作用の正確な表現を提供する方法を洗練させることに焦点を当てるべきだと示唆している。これには、構造情報を考慮し、実験結果と直接関連させるモデルを活用することが含まれるかもしれない。
結論
要するに、言語モデルの概念をタンパク質の変異に適用することでいくつかの洞察が得られたが、ウイルス変異を予測する現在のアプローチは十分ではない可能性がある。文法的有効性は変異の有効性に関していくつかの予測価値を提供するが、意味の変化は免疫回避の信頼できる指標としては頼りにできない。
どの変異が生存し増殖する可能性が高いかを予測するためには、安定性の指標が言語モデルよりも効果的であるようだ。これからは、モデリング技術と実験データを組み合わせた統合的アプローチが必要になるだろう。これにより、ウイルスの変異株の進化と公衆衛生への影響についての予測が改善されるはずだ。
タイトル: A systematic evaluation of the language-of-viral-escape model using multiple machine learning frameworks
概要: Predicting the evolutionary patterns of emerging and endemic viruses is key for mitigating their spread in host populations. In particular, it is critical to rapidly identify mutations with the potential for immune escape or increased disease burden (variants of concern). Knowing which circulating mutations are such variants of concern can inform treatment or mitigation strategies such as alternative vaccines or targeted social distancing. A recent study proposed that variants of concern can be identified using two quantities extracted from protein language models, grammaticality and semantic change. These quantities are defined in analogy to concepts from natural language processing. Grammaticality is intended to be a measure of whether a variant viral protein is viable, and semantic change is intended to be a measure of potential for immune escape. Here, we systematically test this hypothesis, taking advantage of several high-throughput datasets that have become available, and also testing additional machine learning models for calculating the grammaticality metric. We find that grammaticality can be a measure of protein viability, though the more traditional metric {Delta}{Delta}G appears to be more effective. By contrast, we do not find compelling evidence that semantic change is a useful tool for identifying immune escape mutations.
著者: Claus O Wilke, B. Allman, L. Vieira, D. J. Diaz
最終更新: 2024-09-08 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.09.04.611278
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.09.04.611278.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。
参照リンク
- https://github.com/allmanbrent/NLP_viral_escape/tree/main/language_models
- https://colab.research.google.com/github/sokrypton/
- https://github.com/allmanbrent/NLP_viral_escape/tree/main/data
- https://github.com/danny305/MutComputeX/blob/master/scripts/generate_predictions.py
- https://github.com/danny305/StabilityOracle/blob/master/scripts/run_stability_oracle.py
- https://github.com/allmanbrent/NLP_viral_escape/tree/main/data/cov
- https://github.com/allmanbrent/NLP_viral_escape/tree/main/data/cov/starr_dms
- https://github.com/allmanbrent/NLP_viral_escape/tree/main/data/cov/omicron_experiments
- https://github.com/allmanbrent/NLP_viral_escape/tree/main/data/flu
- https://github.com/allmanbrent/NLP_viral_escape/tree/main/data/flu/escape_doud2018
- https://github.com/allmanbrent/NLP_viral_escape/tree/main/data/flu/fitness_doud2016
- https://github.com/allmanbrent/NLP_viral_escape
- https://github.com/allmanbrent/NLP_viral_escape/tree/main/data/hiv
- https://github.com/allmanbrent/NLP_viral_escape/tree/main/data/hiv/Haddox_supp
- https://github.com/allmanbrent/NLP_viral_escape/tree/main/data/hiv/Dingens_ab_escape