Simple Science

最先端の科学をわかりやすく解説

# 生物学# 分子生物学

従来のタンパク質分析法と現代のタンパク質分析法の比較

この記事では、タンパク質進化を研究するための従来の言語モデルとタンパク質言語モデルのアプローチについて探ります。

― 1 分で読む


タンパク質分析:古いのと新タンパク質分析:古いのと新しいの現代の方法の評価。タンパク質進化の研究における従来の方法と
目次

何年も前から、科学者たちはタンパク質の配列を見て、どのように変化して進化してきたかを研究してきたんだ。彼らは、タンパク質の配列の類似性に基づいて系統樹を作っていて、それがタンパク質の働きを理解する手助けになってる。これをするためには、研究者たちはタンパク質の配列を慎重に揃えなきゃいけなくて、どこが一致していてどこが違うかを見る必要がある。これは、データを分析するために高度な数学や統計手法を使う作業なんだ。

研究者が配列を研究する一つの方法は、タンパク質言語モデル(PLMs)を使うことなんだ。このモデルは多くのタンパク質の配列を見て、タンパク質がどのように折りたたまれて、どんな機能を持つかを予測するのに役立つパターンを見つけるの。これらのpLMは、タンパク質間の隠れた関係を特定して、どのように異なるタンパク質が関連しているかを科学者が理解する手助けをしてくれる。

この記事では、従来のタンパク質進化分析方法と新しいpLMアプローチを比較していくよ。これらのモデルの働き方の違いや、科学者がタンパク質の関係を理解するのにどう役立つかを話していくね。

従来のタンパク質分析方法

従来は、科学者たちは異なるタンパク質がどれだけ関連しているかを示すために、系統樹と呼ばれるものを作っていた。このプロセスにはタンパク質の配列を揃えることが含まれ、良いアライメントは非常に重要なんだ。いいアライメントがあると、配列間の違いや類似点を際立たせることができるからね。アライメントが良いほど、結果として得られる系統樹が正確になるんだ。

研究者たちは、最大尤度法やベイズ統計といったさまざまな統計手法を使って、これらの系統樹を作るんだ。彼らは、タンパク質が時間とともにどう進化しているかについて仮定を立て、配列の変化がどれくらいのペースで起こるのかに注目するモデルに頼ることが多い。

これらの従来の方法は、配列のアライメントの質を向上させたり、タンパク質の機能についての洞察を提供したりするのに役立つなど、たくさんの有用な応用があるんだ。また、古代のタンパク質と新しいものの関係を視覚化するのにも役立つよ。

タンパク質言語モデルの登場

pLMの開発は、タンパク質の配列を分析する新しい方法を示しているんだ。このモデルは大量の配列データを処理して、単純な線形構造に従わないパターンを見つけ出すことができるんだ。こうすることで、タンパク質の構造や機能について予測を行えるようになるんだ。

pLMは、従来の方法では明らかでないタンパク質間の隠れた類似性を見つけることができることを示しているんだ。また、タンパク質の配列に特定の変更が加わると、その機能にどう影響するかを予測するのにも使えるよ。

これらのモデルは、通常一つのタンパク質ファミリーに焦点を当てる従来の系統的方法とは根本的に異なっていて、pLMは多くのファミリーにわたる配列の範囲を考慮して、タンパク質の関係をより全体的に見ることができるんだ。

従来の方法と現代のアプローチの比較

両方の方法を考えると、タンパク質を分析する際に同じような結果を得られるかどうかを判断するのが重要になってくるよ。pLMが捕らえた情報が従来の系統分析から得られる洞察と重なるかどうかを調べる必要があるね。また、一方の方法が、もう一方が苦労するような質問に答えられるかどうかも見る必要があるんだ。

いくつかの重要な質問に対する答えを探ったよ:

  • pLMは、従来の分析に基づいて進化的関係をどれだけ効果的に捉えられるのか?
  • アライメントされた配列と単一配列で、pLMにおける表現に違いはあるのか?
  • 配列に挿入や削除があると、その結果に影響を与えるのか?
  • pLMの表現におけるローカルな類似性は、従来のモデルとどう比較されるのか?
  • pLMが進化的関係を回復するのは、配列間の距離によって影響を受けるのか?

私たちの研究では、さまざまなデータセットからタンパク質の配列を調べて、pLMがこれらの配列の進化的信号をどれだけうまく捉えられるか、そしてそれが従来のアプローチを補完する可能性について探ったんだ。

実験の設定

比較を行うために、よく知られたタンパク質ファミリーデータベースからデータセットを収集したよ。データを、ギャップがどれくらいあるかに基づいて低ギャップと高ギャップの2つのカテゴリに分けたんだ。低ギャップのデータセットには、より密接に関連していて一般的にアライメントが良い配列が含まれていて、高ギャップのデータセットは、より多くのバリエーションがある複雑なものだった。

いくつかのpLMを使って、タンパク質の配列から埋め込みを取得したよ。単一配列モデルでは、アライメントを必要としない単一のタンパク質を扱うモデルを使った。アライメントされたモデルでは、複数のアライメントされた配列と直接作業するように設計されたトランスフォーマーを利用したんだ。

モデルから生成された埋め込みを使って、伝統的な系統樹で確立された進化的関係がどれだけ反映されているかを分析したよ。

結果と発見

単一配列モデルの正確さ

一般的に、単一配列のpLMは、アライメントモデルと比較して進化的関係のより明確で正確な画像を提供したよ。興味深いことに、単一配列モデルの中で、特にひとつのモデルが全体的に最もよくパフォーマンスを発揮した。そのモデルは、低ギャップと高ギャップの配列の両方を理解する能力が非常に有効だったんだ。

単一配列モデルは、挿入と削除が少ないタンパク質ファミリーを扱うのが特に得意だった。一方で、アライメントモデルは、ギャップが多い配列に苦労しているのが明らかで、複雑なデータセットを扱うのに限界を示したよ。

異なる条件でのパフォーマンスの変動

pLMの正確さを、進化的にどれだけ離れた配列で評価した際、単一配列モデルはより異なる配列で最も良いパフォーマンスを発揮した。このことは、これらのモデルが進化的変化のより広いスパンを効果的に捉えられることを示唆しているんだ。

単一配列モデルは、アライメントモデルと比較してレイヤーの使用法が異なっていて、単一配列モデルでは初期のレイヤーが配列の基本的な特性を学習し、後のレイヤーがより詳細な関係に注目しているみたい。一方で、アライメントモデルは、最初から高レベルの関係をエンコードしているように見えたよ。

ローカルな類似性の探求

pLMによって作られた埋め込み空間で、どれだけ類似したタンパク質があるかをさらに調査するために、pLMの埋め込み空間と従来の系統樹における同源タンパク質のローカルな近隣を比較したんだ。この比較では、2つの配列セットの関連性を測定する方法を使ったよ。

一般的に、pLMによって特定されたローカルな近隣と系統樹で見つかったものは、異なるレベルの類似性を示すことがわかった。pLMがこれらの近隣を回復する能力は、研究しているタンパク質ファミリーの特定の特徴に依存しているようだった。

ギャップの影響を理解する

ギャップがパフォーマンスに与える影響を深く探っていく中で、明確な傾向を発見したよ。アライメントされた配列に依存するモデルは、単一配列モデルよりもギャップに対してより敏感だった。この発見は、ギャップがモデルがタンパク質間の進化的関係を回復する能力を大きく妨げる可能性があることを示しているんだ。

進化的信号の回復

異なる分析方法を使って、pLMの埋め込みが進化的距離をどれだけ反映しているかを評価したよ。埋め込みは、特に配列がより遠くに関連しているときに、古典的な系統分析と良い相関関係を示すことがわかったんだ。

一方で、密接に関連している配列に対しては、相関があまり信頼できなかった。このことから、pLMは進化的関係の広い視点を捉える一方で、正確な同源グループの識別に必要な細部で苦労する可能性があることが示唆されるよ。

埋め込み空間におけるニューロンの重要性

pLMの埋め込み空間における情報の整理方法を理解するために、ニューロンに対して重要性分析を行ったんだ。この分析により、進化的関係についての予測を行う際に最も重要なニューロンを特定できたよ。

結果は、少数のニューロンが重要な進化的信号をエンコードしていることを示した。このニューロンは、異なるタンパク質ファミリー間で重複していることが多かったが、どのファミリーでも必要な情報を完全に捉えているニューロンはなかったんだ。

マルチモーダルモデルの探求

最後に、タンパク質の構造や機能などの追加情報を取り込むように設計された新しいマルチモーダルpLMについても調べたよ。これらのモデルは期待が持てるものの、私たちの発見は、単一配列モデルの方が依然として進化的関係を捕らえるのに優れていることを示している。

まとめ

要するに、私たちの探求は、タンパク質進化の研究における従来の方法と現代の方法の利点と欠点を浮き彫りにしているんだ。系統樹のような従来の方法は貴重な洞察を提供する一方で、pLMはタンパク質配列の隠れた関係やパターンを明らかにする補完的なアプローチを提供してくれる。

単一配列モデルは、全体的に見てパフォーマンスが良く、特にギャップが分析を複雑にする場合に効果的だとわかったよ。これらのモデルは低ギャップと高ギャップのシナリオの両方で効果的に機能する一方で、アライメントモデルは特に複雑なデータセットで苦労している。

最終的には、従来の方法と高度なpLM技術を組み合わせることで、タンパク質の機能や進化について、以前は達成できなかった方法で理解を深める可能性があるんだ。これらのアプローチを統合して、すべての進化的レベルでタンパク質間の複雑な関係を完全に捉えるためには、さらなる研究が必要なんだ。

オリジナルソース

タイトル: Do Protein Language Models Learn Phylogeny?

概要: Deep machine learning demonstrates a capacity to uncover evolutionary relationships directly from protein sequences, in effect internalising notions inherent to classical phylogenetic tree inference. We connect these two paradigms by assessing the capacity of protein-based language models (pLMs) to discern phylogenetic relationships without being explicitly trained to do so. We evaluate ESM2, ProtTrans and MSA-Transformer relative to classical phylogenetic methods, while also considering sequence insertions and deletions (indels) across 114 Pfam datasets. The largest ESM2 model tends to outperform other pLMs (including the multimodal ESM3) by recovering phylogenetic relationships among homologous protein sequences in both low- and high-gap settings. pLMs agree with conventional phylogenetic methods in general, but more so for protein families with fewer implied indels, highlighting indels as a key factor differentiating classical phylogenetics from pLMs. We find that pLMs preferentially capture broader as opposed to finer evolutionary relationships within a specific protein family, where ESM2 has a sweet spot for highly divergent sequences, at remote distance. Less than 10% of neurons are sufficient to broadly recapitulate classical phylogenetic distances; when used in isolation the difference between the paradigms is further diminished. We show these neurons are polysemantic, shared among different homologous families but never fully overlapping. We highlight the potential of ESM2 as a complementary tool for phylogenetic analysis, especially when extending to remote homologs that are difficult to align and imply complex histories of insertions and deletions.

著者: Mikael Boden, S. Tule, G. Foley

最終更新: 2024-09-26 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2024.09.23.614642

ソースPDF: https://www.biorxiv.org/content/10.1101/2024.09.23.614642.full.pdf

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

類似の記事