Simple Science

Scienza all'avanguardia spiegata semplicemente

# La biologia # Bioinformatica

Presentiamo MANIAC: Un Nuovo Strumento per la Genomica Virale

MANIAC migliora la misurazione dell'ANI per l'analisi del genoma virale.

Rafal J Mostowy, W. Ndovie, J. Havranek, J. Koszucki, J. Leconte, L. Chindelevitch, E. M. Adriaenssens

― 7 leggere min


MANIAC Trasforma MANIAC Trasforma l'Analisi del Genoma Virale virus. efficiente la parentela genetica tra Nuovo strumento calcola in modo
Indice

L'Identità Nucleotidica Media (ANI) è un metodo usato per misurare quanto siano strettamente correlati diversi microrganismi, come batteri e virus. Confrontando specifiche sequenze genetiche chiamate geni ortologhi, gli scienziati possono vedere quanti dei nucleotidi (i mattoni del DNA) siano gli stessi tra due organismi. Questa misura aiuta i ricercatori a capire la distanza evolutiva tra le specie, a guidare la tassonomia (la classificazione degli organismi) e ad aiutare in altre aree della ricerca microbica.

Anche se l'ANI è utile per i parenti stretti, le sue limitazioni significano che non sempre fornisce distanze evolutive accurate per organismi che non sono molto strettamente correlati. Tuttavia, l'ANI è diventato uno strumento chiave in vari settori della ricerca microbica, giocando un ruolo significativo nella classificazione delle specie, nel rilevamento di eventi di trasferimento genico tra organismi e nell'aiuto agli studi di metagenomica.

L'Evoluzione delle Tecniche di Misurazione dell'ANI

Inizialmente, i ricercatori usavano strumenti come BLAST per identificare i geni ortologhi, che comportava l'allineamento delle sequenze di DNA per determinare la somiglianza genetica. Tuttavia, man mano che le tecnologie di sequenziamento di nuova generazione progredivano, il numero di genomi microbici disponibili per lo studio cresceva. Di conseguenza, i metodi tradizionali diventavano meno pratici a causa dell'enorme quantità di potenza computazionale richiesta.

Sono emersi nuovi strumenti, permettendo agli scienziati di eseguire calcoli di ANI a coppie in modo più efficiente. Questi nuovi approcci possono essere divisi in due categorie principali: metodi basati su allineamento e metodi senza allineamento. I metodi basati su allineamento si basano ancora sulla ricerca di sequenze, ma hanno adottato strumenti aggiornati come MUMmer, che sono più veloci rispetto a BLAST, sebbene possano essere meno sensibili. D'altra parte, i metodi senza allineamento utilizzano sequenze brevi conosciute come k-mer per stimare direttamente l'ANI o identificare aree per un allineamento locale. Questi metodi sono molto più efficienti e possono gestire set di dati più grandi, ma potrebbero sacrificare un po' di accuratezza quando si tratta di genomi poco correlati.

Nonostante la popolarità dell'ANI nello studio dei batteri, il suo uso è stato meno comune nella ricerca virale. Tuttavia, negli ultimi anni, l'ANI ha cominciato a guadagnare terreno nella genomica virale per compiti come identificare nuovi virus, rimuovere il DNA batterico dalle sequenze virali, assegnare tassonomia a nuove ceppi virali e esaminare i confini genetici tra le popolazioni virali.

Differenze tra Genomi Batterici e Virali

Attualmente, la maggior parte degli strumenti per calcolare l'ANI è stata ottimizzata per i genomi batterici, funzionando meglio attorno a una soglia del 95% di ANI per la classificazione delle specie. Tuttavia, i genomi virali presentano sfide uniche a causa della loro maggiore variabilità nelle sequenze nucleotidiche, lunghezze più corte e mancanza di geni condivisi. Queste differenze possono rendere i metodi standard meno efficaci per i virus.

Esistono alcuni metodi specificamente progettati per analizzare i genomi virali, ma non forniscono una metrica chiara per la proporzione di somiglianza genetica tra i genomi allineati. Recentemente è stato proposto un nuovo strumento chiamato VIRIDIC, ma si basa molto su BLAST, limitando la sua scalabilità per analizzare set di dati più grandi.

Questo solleva la necessità di uno strumento che possa valutare la parentela genetica nei virus, tenendo conto delle caratteristiche uniche dei genomi virali, come:

  1. Sia ANI che frazione di allineamento (AF) per tenere conto della variabilità genetica.
  2. Capacità di misurare l'ANI a soglie più basse, come il 70%.
  3. Scalabilità per analizzare set di dati con migliaia o potenzialmente milioni di genomi virali.

Introduzione di MANIAC per la Genomica Virale

Per affrontare queste sfide, è stato sviluppato un nuovo approccio chiamato MANIAC (Calcolatore ANI Accurato basato su MMseqs2). MANIAC è progettato per misurare efficientemente sia l'ANI che l'AF tra coppie di genomi virali. Utilizza una combinazione di ricerca senza allineamento e tecniche basate su allineamento, garantendo sensibilità e velocità.

Lo strumento opera in tre modalità:

  1. Modalità Genoma: Analizza sequenze di genomi completi.
  2. Modalità Sequenza Codificante (CDS): Lavora con sequenze nucleotidiche da geni previsti.
  3. Modalità Proteina: Si concentra sulle sequenze di aminoacidi e calcola l'Identità Media degli Aminoacidi (AAI).

Questa versatilità consente ai ricercatori di scegliere l'analisi più rilevante per le loro esigenze.

Come MANIAC Calcola ANI e AF

Nella Modalità Genoma, MANIAC suddivide i genomi in frammenti più piccoli e non sovrapposti e utilizza il modulo di ricerca MMseqs2 per identificare sequenze simili tra questi frammenti e i genomi completi. Un insieme di parametri determina come viene effettuata la ricerca, comprese le soglie di identità e le metriche di copertura.

Per ogni coppia di genomi analizzati, MANIAC calcola l'ANI come l'identità media dei nucleotidi allineati. Considera entrambe le direzioni per ogni coppia di genomi per ottenere un singolo valore di ANI. Inoltre, calcola l'AF, che riflette la proporzione dei genomi allineati durante l'analisi.

Inoltre, il design di MANIAC prioritizza sensibilità e accuratezza attraverso una selezione attenta dei parametri, ottimizzando le ricerche per garantire che i risultati siano affidabili anche quando si lavora con grandi set di dati.

La Scalabilità di MANIAC

MANIAC è progettato per gestire ampi set di dati genomici, rendendolo capace di elaborare milioni di coppie di genomi in modo efficiente. I benchmark iniziali indicano che può stimare con precisione l'ANI e l'AF allo stesso livello dei metodi standard affermati, risultando anche più veloce e più adattabile a diversi tipi di genomi virali.

Lo strumento bilancia velocità e precisione, permettendo ai ricercatori di condurre analisi su larga scala che prima erano impraticabili. Questa capacità è particolarmente cruciale nel campo in rapida evoluzione della genomica virale, dove nuove sequenze vengono continuamente scoperte.

Testare le Prestazioni di MANIAC

Per convalidare la sua efficacia, le prestazioni di MANIAC sono state confrontate con strumenti ben noti come pyani, fastANI e Mash utilizzando un set di dati di genomi di fagi. I risultati hanno mostrato che MANIAC aveva una correlazione molto alta con le stime di ANI di pyani, superando altre alternative focalizzate sulla velocità.

La ricerca ha dimostrato che anche quando testato contro dati simulati, MANIAC forniva stime accurate, in particolare per genomi virali con ANI sotto l'80%. Questo indica che può essere considerato affidabile per confronti genetici sia ravvicinati che più distanti.

Applicare MANIAC a Domande Biologiche

Stabilita la sua efficienza e precisione, MANIAC è stato utilizzato per esplorare due aree chiave nella ricerca virale:

  1. Indagare l'Esistenza di Gap di ANI nelle Popolazioni di Fagi: Lo strumento è stato utilizzato per analizzare un gran numero di genomi di fagi per confermare che esiste un gap di ANI, suggerendo confini evolutivi significativi all'interno delle popolazioni virali.

  2. Classificazione Tassonomica di Generi Virali: Esaminando ANI e AF, i ricercatori miravano a migliorare l'accuratezza della classificazione di nuovi generi virali identificati, facilitando una migliore comprensione e categorizzazione della diversità virale.

Osservazioni dalle Distribuzioni di ANI

L'analisi delle distribuzioni di ANI tra i genomi di fagi ha rivelato un pattern bimodale, con un gap di ANI distinto situato tra il 78% e l'85%. Questo suggerisce discontinuità evolutive, simili ai risultati nelle popolazioni batteriche ma adattate alle dinamiche uniche dell'evoluzione virale.

Inoltre, la presenza di molte coppie ad alta ANI ma bassa AF evidenzia l'importanza di considerare entrambe le metriche nella classificazione tassonomica, poiché il mosaico genetico può complicare le assegnazioni dirette.

Conclusione

MANIAC rappresenta un passo significativo avanti nel campo della genomica virale. Offrendo un mezzo efficiente per calcolare l'ANI e l'AF, consente ai ricercatori di esplorare più a fondo le relazioni tra le specie virali. La capacità dello strumento di gestire ampi set di dati fornendo stime precise lo posiziona come una risorsa fondamentale per la futura ricerca in virologia e genomica microbica.

In sintesi, MANIAC non solo migliora lo studio della genetica virale, ma contribuisce anche a una comprensione più ampia di come le specie virali siano classificate e correlate tra loro. Man mano che gli sforzi continuano a perfezionare la tassonomia virale, strumenti come MANIAC giocheranno un ruolo cruciale nell'istituire confini e classificazioni più chiari nel variegato mondo dei virus.

Fonte originale

Titolo: Exploration of the genetic landscape of bacterial dsDNA viruses reveals an ANI gap amidst extensive mosaicism

Estratto: Average Nucleotide Identity (ANI) is a widely used metric to estimate genetic relatedness, especially in microbial species delineation. While ANI calculation has been well optimised for bacteria and closely related viral genomes, accurate estimation of ANI below 80%, particularly in large reference datasets, has been challenging due to a lack of accurate and scalable methods. To bridge this gap, here we introduce MANIAC, an efficient computational pipeline optimised for estimating ANI and alignment fraction (AF) in viral genomes with divergence around ANI of 70%. Using a rigorous simulation framework, we demonstrate MANIACs accuracy and scalability compared to existing approaches, even to datasets of hundreds-of-thousands of viral genomes. Applying MANIAC to a curated dataset of complete bacterial dsDNA viruses revealed a multimodal ANI distribution, with a distinct gap around 80%, akin to the bacterial ANI gap ([~]90%) but shifted, likely due to viral-specific evolutionary processes such as recombination dynamics and mosaicism. We then evaluated ANI and AF as predictors of genus-level taxonomy using a logistic regression model. We found that this model has strong predictive power (PR-AUC=0.981), but that it works much better for virulent (PR-AUC=0.997) than temperate (PR-AUC=0.847) bacterial viruses. This highlights the complexity of taxonomic classification in temperate phages, known for their extensive mosaicism, and cautions against over-reliance on ANI in such cases. MANIAC can be accessed under https://github.com/bioinf-mcb/MANIAC. ImportanceWe introduce a novel computational pipeline called MANIAC, designed to accurately assess Average Nucleotide Identity (ANI) and alignment fraction (AF) between diverse viral genomes, scalable to datasets of over 100k genomes. Through the use of computer simulations and real data analyses, we show that MANIAC could ac- curately estimate genetic relatedness between pairs of viral genomes around 60-70% ANI. We applied MANIAC to investigate the question of ANI discontinuity in bacterial dsDNA viruses, finding evidence for an ANI gap, akin to the one seen in bacteria but around ANI of 80%. We then assessed the ability of ANI and AF to predict taxonomic genus boundaries, finding its strong predictive power in virulent, but not in temperate phages. Our results suggest that bacterial dsDNA viruses may exhibit an ANI threshold (on average around 80%) above which recombination helps maintain population cohesiveness, as previously argued in bacteria.

Autori: Rafal J Mostowy, W. Ndovie, J. Havranek, J. Koszucki, J. Leconte, L. Chindelevitch, E. M. Adriaenssens

Ultimo aggiornamento: 2024-12-07 00:00:00

Lingua: English

URL di origine: https://www.biorxiv.org/content/10.1101/2024.04.23.590796

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.04.23.590796.full.pdf

Licenza: https://creativecommons.org/licenses/by-nc/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Articoli simili