進化生物学の新しい手法:タンパク質の構造とDNA配列
研究者たちは、進化の関係をより効果的に理解するために、タンパク質の構造を探っている。
Giacomo Mutti, Eduard Ocaña-Pallarès, Toni Gabaldón
― 1 分で読む
生物学の世界では、科学者たちはさまざまな生き物がどのように関連しているのかを解明しようと日々努力しているんだ。これは巨大な家系図を解くようなもので、叔父や叔母の代わりに、微小なバクテリアから大きな青いクジラまで、あらゆる生き物を話題にしてる。研究者たちが異なる種のゲノムについての情報を集めるにつれて、時間をかけて生命がどのように進化してきたのかについて、もっと複雑な質問をすることができるようになる。でも、これらの関係を伝統的な方法でマッピングするにはいくつかの課題がある、特に生物同士が非常に異なる場合にはね。
伝統的な方法の課題
種の関係を研究するための伝統的な方法は、DNAやタンパク質の配列を見て判断することが多いんだ。これらの配列は異なる種がどれだけ近縁かを示してくれる。でも、ここに問題がある。配列があまりにも異なると、明確なつながりを見るのが難しくなるんだ。現代の作品と古代の傑作のどちらか一方は同じアーティストのものかどうかを見極めるのは難しいよね?
この問題を乗り越えるために、科学者たちは箱の外で考え始め、配列だけでなくタンパク質の形状を使うことを考えた。タンパク質の構造は配列よりもゆっくり変化するかもしれないから、異なる種の関係を判断するにはより良い指標になる可能性があるんだ。ただ、大規模な研究に使えるタンパク質の構造はあまり多くないから、ちょっとした障害になっている。
ゲームチェンジャー:AlphaFold2
そこで登場したのが、ゲームチェンジャーのAlphaFold2。これのおかげで、タンパク質の構造を予測するのがずっと簡単になったし、生物学の研究に新しい扉が開かれたんだ。研究者たちは、今や多くの異なる種のタンパク質の構造を、以前は不可能だと思われていた規模で見ることができるようになった。この進展によって、Foldseekのような新しいソフトウェアツールも登場して、科学者たちがタンパク質の構造を迅速かつ効率的に整列させるのを手助けしている。
タンパク質構造の力
Foldseekや類似のツールの登場で、研究者たちはこれらのタンパク質構造を使って、人間の遺伝子と他の種の遺伝子の関係をどれだけうまく特定できるかを見ようとしている。こうすることで「ヒューマンフィローム」を作ろうとしているんだけど、これは人間の遺伝子のさまざまなバージョンと、それが他の生き物の遺伝子とどのように関係しているかを示す家系図みたいなものなんだ。
プロセスは、まずさまざまな真核生物の種を選ぶところから始まる。この種は複雑な細胞を持つ生物たちだ。研究者たちは特別なデータベースからタンパク質の構造を集めて、特定の品質基準を満たさないものは取り除いて、信頼性のある構造を確保する。それから、選ばれた種のタンパク質と人間のタンパク質を、伝統的な配列ベースの方法と新しい構造ベースの方法の両方を使って比較する。
結果の理解
一致を探すとき、研究者たちは二つの主な方法を使った。BlastPという伝統的な配列比較ツールと、タンパク質構造を比較するFoldseekだ。驚くべきことに、全ての一致が同じではなかった。両方の方法で見つかったペアのうち、同じものはほんの一部だけだったから、二つのアプローチの間には大きな違いがあることがわかった。BlastPは多くのユニークな一致を見つけたけど、Foldseekも「黄昏ゾーン」と呼ばれる遺伝的類似性の領域で面白いつながりを発見した。ここでは配列があまりにも異なっているため、簡単に比較できないんだ。
この研究は、Foldseekが配列が見逃す遠い親戚を特定するのに優れているかもしれない一方で、BlastPが簡単に見つけるいくつかの確立された関係を見逃しているようだということを示している。これは、遠く離れた場所で長い間行方不明だったいとこを見つけた一方で、近所での家族の再会を見逃してしまったような感じだね。
どの方法がより効果的?
研究者たちは両方の方法を使っていて、家系図を構築する際にどちらがより良い結果をもたらすかを見極める必要があった。彼らは、既知の種のグループとどれだけ密接に一致するかなど、樹木の正確性を評価するためのさまざまな方法を使った。
結果として、配列ベースの方法は、ほとんど全てのテストされたシナリオで構造ベースの方法よりも一貫して優れていることがわかった。これは、タンパク質の構造にも利用価値がある一方で、進化的関係を正確に追跡するにはDNA配列がまだ鍵を握っていることを示唆している。
結論
じゃあ、結論は何かって?タンパク質構造を使うことは進化について新しい洞察を提供するけど、まだ伝統的な方法を超えるほどではないみたい。タンパク質構造の探求はエキサイティングで、新しい研究の道を開いているけど、構造ベースの方法にはまだ改善の余地があるようだね。
最後の面白い考え
もしタンパク質がパーティーの人々だったら、あるものは素晴らしく交流を楽しむのが得意で(BlastPのように)、他のものはちょっと風変わりで遠い親戚としかつながらないかもしれない(こんにちは、Foldseek)。でも一緒にやれば、うまくやれば素晴らしい進化的再会を開くことができるかもしれない!
タイトル: Newly developed structure-based methods do not outperform standard sequence-based methods for large-scale phylogenomics
概要: Recent developments in protein structure prediction have allowed the use of this previously limited source of information at genome-wide scales. It has been proposed that the use of structural information may offer advantages over sequences in phylogenetic reconstruction, due to their slower rate of evolution and direct correlation to function. Here, we examined how recently developed methods for structure-based homology search and tree reconstruction compare to current state-of-the-art sequence-based methods in reconstructing genome-wide collections of gene phylogenies (i.e. phylomes). While structure-based methods can be useful in specific scenarios, we found that their current performance does not justify using the newly developed structured-based methods as a default choice in large-scale phylogenetic studies. On the one hand, the best performing sequence-based tree reconstruction methods still outperform structure-based methods for this task. On the other hand, structure-based homology detection methods provide larger lists of candidate homologs, as previously reported. However, this comes at the expense of missing hits identified by sequence-based methods, as well as providing homolog candidate sets with higher fractions of false positives. These insights help guide the use of structural data in comparative genomics and highlight the need to continue improving structure-based approaches. Our pipeline is fully reproducible and has been implemented in a snakemake workflow. This will facilitate a continuous assessment of future improvements of structure-based tools in the Alphafold era.
著者: Giacomo Mutti, Eduard Ocaña-Pallarès, Toni Gabaldón
最終更新: Dec 20, 2024
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.08.02.606352
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.08.02.606352.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。