Simple Science

最先端の科学をわかりやすく解説

# 生物学 # 生物情報学

MANIACの紹介: ウイルスゲノム学の新しいツール

MANIACはウイルスゲノム解析のためのANI測定を改善する。

Rafal J Mostowy, W. Ndovie, J. Havranek, J. Koszucki, J. Leconte, L. Chindelevitch, E. M. Adriaenssens

― 1 分で読む


MANIACがウイルスゲノ MANIACがウイルスゲノ ム解析を変革する 効率的に計算する。 新しいツールがウイルス間の遺伝的関連性を
目次

平均ヌクレオチド同一性ANI)は、細菌やウイルスなどの微生物がどれだけ近縁であるかを測定する方法だよ。科学者たちは、整列された遺伝子配列を比較して、2つの生物の間で同じヌクレオチドがどれだけあるかを見ることで、進化的な距離を理解するのに役立つ。この測定は、種の分類や他の微生物研究の領域でも利用されてるんだ。

ANIは近縁の生物には便利だけど、あまり近くない生物の進化的距離を正確に提供するわけではないんだ。それでも、ANIは微生物研究のいろんな分野で重要なツールになっていて、種の分類や遺伝子転移の検出、メタゲノミクスの研究に貢献してるよ。

ANI測定技術の進化

最初は、研究者たちはBLASTみたいなツールを使って整列した遺伝子を特定してたんだけど、次世代シーケンシング技術が進化するにつれて、研究対象の微生物ゲノムの数が増えていったんだ。そのせいで、従来の方法は必要な計算力が膨大になって、あんまり実用的じゃなくなった。

新しいツールが登場して、科学者たちはANIの対の計算をもっと効率的にできるようになった。新しいアプローチは、整列ベースと整列フリーの2つの主要なカテゴリーに分けられる。整列ベースの方法は配列を検索するけど、BLASTよりも速いMUMmerみたいな更新されたツールを使うこともある。ただし、それは感度が低くなることもあるんだ。一方、整列フリーの方法はk-merと呼ばれる短い配列を使って直接ANIを見積もったり、局所的な整列の領域を特定したりする。これらの方法ははるかに効率的で、大きなデータセットを扱えるけど、遠縁のゲノムを扱うときは正確性が少し犠牲になることもあるよ。

ANIは細菌の研究には人気だけど、ウイルスの研究ではあんまり使われてなかったんだ。でも、最近になってウイルスゲノミクスで、例えば新しいウイルスの特定やウイルス配列から細菌のDNAを取り除くこと、新しいウイルス株に分類を与えること、ウイルス集団間の遺伝的境界を調査することなどでANIが注目されつつあるよ。

細菌とウイルスのゲノムの違い

現在、ANIを計算するためのほとんどのツールは細菌のゲノムに最適化されていて、種の分類には約95%のANIのしきい値が一番効率的なんだ。でも、ウイルスのゲノムはヌクレオチド配列の変動性が高く、長さも短いし、共通の遺伝子も少ないから、独自の課題があるよ。これらの違いが、標準的な方法をウイルスに対して効果的でなくすることもあるんだ。

ウイルスのゲノム解析用に特別に設計された方法もあるけど、整列したゲノムからの遺伝的類似性の割合を明確に示すメトリックを提供するわけじゃない。最近、BLASTに依存している新しいツール、VIRIDICが提案されたけど、大きなデータセットを分析するには限界があるんだ。

これにより、ウイルス特有の特徴を考慮しながら遺伝的関連性を評価できるツールの必要性が生まれたよ。例えば:

  1. 遺伝的変動性を考慮するためのANIと整列率(AF)の両方。
  2. 70%のような低いしきい値でANIを測定できる能力。
  3. 数千、場合によっては数百万のウイルスゲノムを分析できるスケーラビリティ。

ウイルスゲノミクスのためのMANIACの導入

これらの課題に対処するために、MANIAC(MMseqs2ベース、ANI精密計算機)という新しいアプローチが開発されたよ。MANIACは、ウイルスゲノムのペア間でANIとAFの両方を効率的に測定するように設計されてる。整列フリー検索と整列ベース技術の組み合わせを採用して、感度とスピードを確保してるんだ。

ツールは3つのモードで動作する:

  1. ゲノムモード:完全なゲノム配列を分析。
  2. コーディング配列(CDS)モード:予測された遺伝子のヌクレオチド配列を扱う。
  3. タンパク質モード:アミノ酸配列に焦点を当てて、平均アミノ酸同一性(AAI)を計算。

この多様性により、研究者は自分のニーズに最も関連性の高い分析を選べるんだ。

MANIACがANIとAFを計算する方法

ゲノムモードでは、MANIACはゲノムを小さな非重複フラグメントに分割して、MMseqs2検索モジュールを使用してこれらのフラグメントと完全なゲノム間で類似した配列を特定する。検索が行われる方法は、同一性のしきい値やカバレッジメトリックなどの一連のパラメータによって決まるよ。

分析するゲノムのペアごとに、MANIACは整列されたヌクレオチドの平均同一性としてANIを計算する。各ゲノムペアの両方向を考慮して、単一のANI値を取得する。そして、分析中に整列されたゲノムの割合を反映するAFも計算するんだ。

さらに、MANIACの設計は敏感性と正確性を優先していて、パラメータを慎重に選択して、信頼性のある結果を得られるように検索を最適化しているよ。

MANIACのスケーラビリティ

MANIACは大規模なゲノムデータセットを扱えるように設計されていて、数百万のゲノムペアを効率的に処理する能力を持ってる。初期のベンチマークでは、既存のゴールドスタンダードの方法と同じレベルでANIとAFを正確に推定できることが示されていて、それでいて異なるタイプのウイルスゲノムに対してもより速く、適応性があるんだ。

このツールはスピードと精度のバランスをとっていて、研究者が以前は実行不可能だった大規模な分析を行うことを可能にする。これは新しい配列が次々に発見されるウイルスゲノミクスの急速に変化する分野では特に重要だよ。

MANIACのパフォーマンスをテストする

その効果を検証するために、MANIACのパフォーマンスをpyani、fastANI、Mashなどの有名なツールと比較して、ファージゲノムのデータセットを使用した。結果は、MANIACがpyaniのANIの推定と非常に高い相関を持っていて、他のスピード重視の代替手段を上回っていたよ。

この研究は、模擬データに対してテストした場合でも、MANIACが常に正確な推定を提供していることを示していて、特にANIが80%未満のウイルスゲノムに対して信頼できることを示しているんだ。これにより、近縁の遺伝的比較と遠縁の比較の両方に信頼性があることがわかった。

生物学的質問へのMANIACの適用

その効率と精度が確立された後、MANIACはウイルス研究の2つの重要な領域を探るために使用されたよ:

  1. ファージ集団におけるANIギャップの存在を調査:ツールを使って多くのファージゲノムを分析して、ANIギャップが存在することを確認し、ウイルス集団内での重要な進化の境界を示唆したんだ。

  2. ウイルス属の分類:ANIとAFを調べることで、新しく特定されたウイルス属の分類の精度を向上させて、ウイルスの多様性をよりよく理解するのを助けた。

ANI分布からの観察

ファージゲノム間のANI分布の分析は、78%と85%の間に明確なANIギャップが位置する二峰性パターンを示した。これは、細菌集団での発見と似た進化的な不連続性を示唆しているけど、ウイルスの進化の独自のダイナミクスに合わせて調整されているよ。

さらに、多くの高ANIだけど低AFのペアが存在することは、分類において両方のメトリックを考慮する重要性を示している。遺伝的モザイック性が単純な割り当てを複雑にすることがあるからね。

結論

MANIACはウイルスゲノミクス分野での重要な一歩だよ。ANIとAFを計算する効率的な手段を提供することで、ウイルス種間の関係をより深く探ることができる。大規模なデータセットを扱いながら正確な推定ができる能力は、今後のウイルス学や微生物ゲノミクス研究にとって欠かせないリソースとして位置づけられているんだ。

要するに、MANIACはウイルスの遺伝学の研究を強化するだけじゃなく、ウイルス種がどのように分類され、互いにどのように関連しているのかの理解にも貢献しているよ。ウイルスの分類を洗練させる努力が続く中で、MANIACのようなツールは多様なウイルスの世界におけるより明確な境界や分類を確立する重要な役割を果たすだろうね。

オリジナルソース

タイトル: Exploration of the genetic landscape of bacterial dsDNA viruses reveals an ANI gap amidst extensive mosaicism

概要: Average Nucleotide Identity (ANI) is a widely used metric to estimate genetic relatedness, especially in microbial species delineation. While ANI calculation has been well optimised for bacteria and closely related viral genomes, accurate estimation of ANI below 80%, particularly in large reference datasets, has been challenging due to a lack of accurate and scalable methods. To bridge this gap, here we introduce MANIAC, an efficient computational pipeline optimised for estimating ANI and alignment fraction (AF) in viral genomes with divergence around ANI of 70%. Using a rigorous simulation framework, we demonstrate MANIACs accuracy and scalability compared to existing approaches, even to datasets of hundreds-of-thousands of viral genomes. Applying MANIAC to a curated dataset of complete bacterial dsDNA viruses revealed a multimodal ANI distribution, with a distinct gap around 80%, akin to the bacterial ANI gap ([~]90%) but shifted, likely due to viral-specific evolutionary processes such as recombination dynamics and mosaicism. We then evaluated ANI and AF as predictors of genus-level taxonomy using a logistic regression model. We found that this model has strong predictive power (PR-AUC=0.981), but that it works much better for virulent (PR-AUC=0.997) than temperate (PR-AUC=0.847) bacterial viruses. This highlights the complexity of taxonomic classification in temperate phages, known for their extensive mosaicism, and cautions against over-reliance on ANI in such cases. MANIAC can be accessed under https://github.com/bioinf-mcb/MANIAC. ImportanceWe introduce a novel computational pipeline called MANIAC, designed to accurately assess Average Nucleotide Identity (ANI) and alignment fraction (AF) between diverse viral genomes, scalable to datasets of over 100k genomes. Through the use of computer simulations and real data analyses, we show that MANIAC could ac- curately estimate genetic relatedness between pairs of viral genomes around 60-70% ANI. We applied MANIAC to investigate the question of ANI discontinuity in bacterial dsDNA viruses, finding evidence for an ANI gap, akin to the one seen in bacteria but around ANI of 80%. We then assessed the ability of ANI and AF to predict taxonomic genus boundaries, finding its strong predictive power in virulent, but not in temperate phages. Our results suggest that bacterial dsDNA viruses may exhibit an ANI threshold (on average around 80%) above which recombination helps maintain population cohesiveness, as previously argued in bacteria.

著者: Rafal J Mostowy, W. Ndovie, J. Havranek, J. Koszucki, J. Leconte, L. Chindelevitch, E. M. Adriaenssens

最終更新: 2024-12-07 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2024.04.23.590796

ソースPDF: https://www.biorxiv.org/content/10.1101/2024.04.23.590796.full.pdf

ライセンス: https://creativecommons.org/licenses/by-nc/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

類似の記事