Einführung von MANIAC: Ein neues Tool für virale Genomik
MANIAC verbessert die ANI-Messung für die Analyse von Virusgenomen.
Rafal J Mostowy, W. Ndovie, J. Havranek, J. Koszucki, J. Leconte, L. Chindelevitch, E. M. Adriaenssens
― 7 min Lesedauer
Inhaltsverzeichnis
- Die Entwicklung der ANI-Messmethoden
- Unterschiede zwischen bakteriellen und viralen Genomen
- Einführung von MANIAC für die virale Genomik
- Wie MANIAC ANI und AF berechnet
- Die Skalierbarkeit von MANIAC
- Testen der Leistung von MANIAC
- Anwendung von MANIAC auf biologische Fragen
- Beobachtungen aus ANI-Verteilungen
- Fazit
- Originalquelle
Der Durchschnittliche Nukleotid-Inhalt (ANI) ist eine Methode um zu messen, wie eng verwandt verschiedene Mikroorganismen, wie Bakterien und Viren, miteinander sind. Indem spezifische genetische Sequenzen, die als orthologe Gene bekannt sind, verglichen werden, können Wissenschaftler sehen, wie viele der Nukleotide (die Bausteine der DNA) zwischen zwei Organismen gleich sind. Diese Messung hilft Forschern, den evolutionären Abstand zwischen Arten zu verstehen, die Taxonomie (die Klassifikation von Organismen) zu leiten und in anderen Bereichen der mikrobiellen Forschung zu unterstützen.
Obwohl ANI nützlich für nahe Verwandte ist, bedeutet seine Einschränkung, dass es nicht immer genaue evolutionäre Abstände für Organismen liefert, die nicht sehr eng verwandt sind. Dennoch ist ANI zu einem wichtigen Werkzeug in verschiedenen Bereichen der mikrobiellen Forschung geworden und spielt eine bedeutende Rolle bei der Artenklassifikation, dem Nachweis von Genübertragungsereignissen zwischen Organismen und der Unterstützung von Metagenomik-Studien.
Die Entwicklung der ANI-Messmethoden
Zunächst verwendeten Forscher Tools wie BLAST zur Identifizierung orthologer Gene, was das Ausrichten von DNA-Sequenzen zur Bestimmung der genetischen Ähnlichkeit beinhaltete. Mit dem Fortschritt der Sequenzierungstechnologien der nächsten Generation wuchs die Anzahl der verfügbaren mikrobiellen Genome zur Untersuchung. Dadurch wurden traditionelle Methoden aufgrund des enormen Rechenaufwands, den sie erforderten, weniger praktikabel.
Neue Werkzeuge entstanden, die es Wissenschaftlern ermöglichten, paarweise Berechnungen von ANI effizienter durchzuführen. Diese neuen Ansätze lassen sich in zwei Hauptkategorien unterteilen: ausrichtungsbasierte und ausrichtungsfreie Methoden. Ausrichtungsbasierte Methoden verlassen sich immer noch auf die Suche nach Sequenzen, haben jedoch aktualisierte Tools wie MUMmer übernommen, die schneller als BLAST sind, obwohl sie weniger sensitiv sein können. Auf der anderen Seite nutzen ausrichtungsfreie Methoden kurze Sequenzen, die als k-Mers bekannt sind, um ANI direkt zu schätzen oder Bereiche für lokale Ausrichtungen zu identifizieren. Diese Methoden sind viel effizienter und können grössere Datensätze verarbeiten, aber sie könnten einige Genauigkeit opfern, wenn es um entfernte verwandte Genome geht.
Trotz der Beliebtheit von ANI in der Untersuchung von Bakterien ist ihre Verwendung in der Virusforschung weniger verbreitet. In den letzten Jahren hat ANI jedoch begonnen, in der viralen Genomik an Bedeutung zu gewinnen, für Aufgaben wie das Identifizieren neuer Viren, das Entfernen von bakterieller DNA aus viralen Sequenzen, das Zuweisen von Taxonomie zu neuen viralen Stämmen und das Untersuchen genetischer Grenzen zwischen viralen Populationen.
Unterschiede zwischen bakteriellen und viralen Genomen
Derzeit sind die meisten Werkzeuge zur Berechnung von ANI für bakterielle Genome optimiert und arbeiten am besten bei einer Schwelle von 95% ANI für die Artenklassifikation. Virale Genome bringen jedoch aufgrund ihrer höheren Variabilität in Nukleotidsequenzen, kürzeren Längen und dem Fehlen gemeinsamer Gene einzigartige Herausforderungen mit sich. Diese Unterschiede können Standardmethoden bei Viren weniger effektiv machen.
Es gibt einige Methoden, die speziell für die Analyse viraler Genome entwickelt wurden, aber sie bieten kein klares Mass für den Anteil der genetischen Ähnlichkeit aus ausgerichteten Genomen. Vor kurzem wurde ein neues Tool namens VIRIDIC vorgeschlagen, aber es ist stark von BLAST abhängig, was seine Skalierbarkeit zur Analyse grösserer Datensätze einschränkt.
Das wirft die Notwendigkeit nach einem Werkzeug auf, das die genetische Verwandtschaft bei Viren bewerten kann und dabei die einzigartigen Eigenschaften viraler Genome berücksichtigt, wie:
- Sowohl ANI als auch Ausrichtungsanteil (AF), um genetische Variabilität zu berücksichtigen.
- Die Fähigkeit, ANI bei niedrigeren Schwellenwerten, wie 70%, zu messen.
- Skalierbarkeit, um Datensätze mit Tausenden oder potenziell Millionen von viralen Genomen zu analysieren.
Einführung von MANIAC für die virale Genomik
Um diese Herausforderungen zu bewältigen, wurde ein neuer Ansatz namens MANIAC (MMseqs2-basierter, ANI genauer Rechner) entwickelt. MANIAC ist so konzipiert, dass es sowohl ANI als auch AF zwischen Paaren von viralen Genomen effizient misst. Es verwendet eine Kombination aus ausrichtungsfreier Suche und ausrichtungsbasierten Techniken, um Sensitivität und Geschwindigkeit sicherzustellen.
Das Tool arbeitet in drei Modi:
- Genom-Modus: Analysiert vollständige Genomsequenzen.
- Codierende Sequenz (CDS)-Modus: Arbeitet mit Nukleotidsequenzen von vorhergesagten Genen.
- Protein-Modus: Konzentriert sich auf Aminosäuresequenzen und berechnet die Durchschnittliche Aminosäure-Identität (AAI).
Diese Vielseitigkeit ermöglicht es Forschern, die relevanteste Analyse für ihre Bedürfnisse auszuwählen.
Wie MANIAC ANI und AF berechnet
Im Genom-Modus teilt MANIAC Genome in kleinere, nicht überlappende Fragmente auf und verwendet das MMseqs2-Suchmodul, um ähnliche Sequenzen zwischen diesen Fragmenten und den vollständigen Genomen zu identifizieren. Eine Reihe von Parametern bestimmt, wie die Suche durchgeführt wird, einschliesslich Identitäts-Schwellenwerten und Abdeckungsmetriken.
Für jedes analysierte Genom-Paar berechnet MANIAC ANI als den durchschnittlichen Identitätswert der ausgerichteten Nukleotide. Es berücksichtigt beide Richtungen für jedes Genom-Paar, um einen einzigen ANI-Wert zu erhalten. Darüber hinaus berechnet es den AF, der den Anteil der Genome widerspiegelt, die während der Analyse ausgerichtet wurden.
Ausserdem priorisiert das Design von MANIAC Sensitivität und Genauigkeit durch sorgfältige Auswahl der Parameter, optimiert Suchvorgänge, um sicherzustellen, dass die Ergebnisse zuverlässig sind, selbst wenn man mit grossen Datensätzen arbeitet.
Die Skalierbarkeit von MANIAC
MANIAC ist darauf ausgelegt, umfangreiche genomische Datensätze zu verarbeiten, wodurch es in der Lage ist, Millionen von Genom-Paaren effizient zu verarbeiten. Erste Benchmarks zeigen, dass es ANI und AF auf demselben Niveau wie etablierte Goldstandardmethoden genau schätzen kann, während es schneller und anpassungsfähiger an verschiedene Arten von viralen Genomen ist.
Das Tool kombiniert Geschwindigkeit und Präzision, sodass Forscher grossangelegte Analysen durchführen können, die zuvor unpraktisch waren. Diese Fähigkeit ist besonders entscheidend im schnelllebigen Bereich der viralen Genomik, in dem ständig neue Sequenzen entdeckt werden.
Testen der Leistung von MANIAC
Um die Effektivität zu validieren, wurde die Leistung von MANIAC mit bekannten Tools wie pyani, fastANI und Mash anhand eines Datensatzes von Phagen-Genomen verglichen. Die Ergebnisse zeigten, dass MANIAC eine sehr hohe Korrelation mit den ANI-Schätzungen von pyani hatte und andere speed-orientierte Alternativen übertraf.
Die Forschung demonstrierte, dass MANIAC selbst bei Tests mit simulierten Daten konstant genaue Schätzungen lieferte, insbesondere für virale Genome mit einem ANI unter 80%. Das zeigt, dass man sich sowohl auf enge als auch auf weiter entfernte genetische Vergleiche verlassen kann.
Anwendung von MANIAC auf biologische Fragen
Nachdem die Effizienz und Präzision von MANIAC etabliert wurde, wurde es genutzt, um zwei wichtige Bereiche in der Virusforschung zu untersuchen:
-
Untersuchung des Vorhandenseins von ANI-Lücken in Phagen-Populationen: Das Tool wurde verwendet, um eine grosse Anzahl von Phagen-Genomen zu analysieren, um zu bestätigen, dass eine ANI-Lücke existiert, was auf signifikante evolutionäre Grenzen innerhalb von viralen Populationen hindeutet.
-
Taxonomische Klassifikation von viralen Gattungen: Durch die Untersuchung von ANI und AF wollten Forscher die Genauigkeit der Klassifikation neu identifizierter viral Gattungen verbessern und so ein besseres Verständnis und eine bessere Kategorisierung der viralen Vielfalt ermöglichen.
Beobachtungen aus ANI-Verteilungen
Die Analyse der ANI-Verteilungen unter den Phagen-Genomen zeigte ein bimodales Muster mit einer ausgeprägten ANI-Lücke zwischen 78% und 85%. Das deutet auf evolutionäre Diskontinuitäten hin, ähnlich wie in bakteriellen Populationen, aber angepasst an die einzigartigen Dynamiken der viralen Evolution.
Darüber hinaus hebt die Präsenz vieler hoher ANI-, aber niedriger AF-Paare die Bedeutung hervor, sowohl Metriken bei der taxonomischen Klassifizierung zu berücksichtigen, da genetischer Mosaizismus einfache Zuordnungen komplizieren kann.
Fazit
MANIAC stellt einen bedeutenden Fortschritt im Bereich der viralen Genomik dar. Indem es eine effiziente Möglichkeit bietet, ANI und AF zu berechnen, erlaubt es Forschern, tiefer in die Beziehungen zwischen viralen Arten einzutauchen. Die Fähigkeit des Tools, riesige Datensätze zu verarbeiten und präzise Schätzungen zu liefern, positioniert es als eine wesentliche Ressource für zukünftige Forschungen in der Virologie und mikrobiellen Genomik.
Zusammengefasst verbessert MANIAC nicht nur das Studium der viralen Genetik, sondern trägt auch zum breiteren Verständnis bei, wie virale Arten klassifiziert und miteinander verwandt sind. Während laufende Bemühungen die virale Taxonomie verfeinern, werden Werkzeuge wie MANIAC eine entscheidende Rolle dabei spielen, klarere Grenzen und Klassifikationen in der vielfältigen Welt der Viren zu etablieren.
Titel: Exploration of the genetic landscape of bacterial dsDNA viruses reveals an ANI gap amidst extensive mosaicism
Zusammenfassung: Average Nucleotide Identity (ANI) is a widely used metric to estimate genetic relatedness, especially in microbial species delineation. While ANI calculation has been well optimised for bacteria and closely related viral genomes, accurate estimation of ANI below 80%, particularly in large reference datasets, has been challenging due to a lack of accurate and scalable methods. To bridge this gap, here we introduce MANIAC, an efficient computational pipeline optimised for estimating ANI and alignment fraction (AF) in viral genomes with divergence around ANI of 70%. Using a rigorous simulation framework, we demonstrate MANIACs accuracy and scalability compared to existing approaches, even to datasets of hundreds-of-thousands of viral genomes. Applying MANIAC to a curated dataset of complete bacterial dsDNA viruses revealed a multimodal ANI distribution, with a distinct gap around 80%, akin to the bacterial ANI gap ([~]90%) but shifted, likely due to viral-specific evolutionary processes such as recombination dynamics and mosaicism. We then evaluated ANI and AF as predictors of genus-level taxonomy using a logistic regression model. We found that this model has strong predictive power (PR-AUC=0.981), but that it works much better for virulent (PR-AUC=0.997) than temperate (PR-AUC=0.847) bacterial viruses. This highlights the complexity of taxonomic classification in temperate phages, known for their extensive mosaicism, and cautions against over-reliance on ANI in such cases. MANIAC can be accessed under https://github.com/bioinf-mcb/MANIAC. ImportanceWe introduce a novel computational pipeline called MANIAC, designed to accurately assess Average Nucleotide Identity (ANI) and alignment fraction (AF) between diverse viral genomes, scalable to datasets of over 100k genomes. Through the use of computer simulations and real data analyses, we show that MANIAC could ac- curately estimate genetic relatedness between pairs of viral genomes around 60-70% ANI. We applied MANIAC to investigate the question of ANI discontinuity in bacterial dsDNA viruses, finding evidence for an ANI gap, akin to the one seen in bacteria but around ANI of 80%. We then assessed the ability of ANI and AF to predict taxonomic genus boundaries, finding its strong predictive power in virulent, but not in temperate phages. Our results suggest that bacterial dsDNA viruses may exhibit an ANI threshold (on average around 80%) above which recombination helps maintain population cohesiveness, as previously argued in bacteria.
Autoren: Rafal J Mostowy, W. Ndovie, J. Havranek, J. Koszucki, J. Leconte, L. Chindelevitch, E. M. Adriaenssens
Letzte Aktualisierung: 2024-12-07 00:00:00
Sprache: English
Quell-URL: https://www.biorxiv.org/content/10.1101/2024.04.23.590796
Quell-PDF: https://www.biorxiv.org/content/10.1101/2024.04.23.590796.full.pdf
Lizenz: https://creativecommons.org/licenses/by-nc/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an biorxiv für die Nutzung seiner Open-Access-Interoperabilität.