Simple Science

Scienza all'avanguardia spiegata semplicemente

# La biologia# Biologia evolutiva

Avanzamenti nella classificazione dei virus prokaryoti

Nuovi strumenti migliorano la classificazione dei virus procarioti usando l'analisi genetica.

― 8 leggere min


Classificare i virusClassificare i virusprocariotici in modoefficacecomprensione della tassonomia virale.vClassifier migliora rapidamente la
Indice

I virus procarioti sono agenti microscopici che infettano batteri e archaea. Sono le forme di vita più comuni sulla Terra e hanno un impatto enorme sugli ecosistemi. Questi virus aiutano a regolare le popolazioni di microbi, supportano la diversità genetica e giocano un ruolo vitale nell'evoluzione della vita. Quando attaccano e distruggono le cellule ospiti, liberano materia organica che nutre i cicli nutrienti. Questo processo è cruciale per mantenere l'equilibrio ecologico.

Nonostante la loro importanza, ci sono molti tipi diversi di virus procarioti, il che rende difficile classificarli. I vecchi metodi di classificazione di questi virus hanno avuto difficoltà a causa della mancanza di marcatori genetici affidabili e dell'alta diversità genetica tra i gruppi virali. Recentemente, nuovi metodi basati su computer per capire come classificare questi virus hanno mostrato che c'è una vasta varietà di batteriofagi (virus che infettano i batteri) e virus archeali.

Queste tecniche si concentrano principalmente sul contenuto genetico, le connessioni tra i virus, come i genomi si relazionano tra loro e le distanze tra i genomi virali. Strumenti come geNomad e vConTACT aiutano a classificare i virus procarioti a livello di famiglia e oltre. Per una classificazione più dettagliata, sono stati creati strumenti come vConTACT, GRAViTy, VICTOR, ViPTree e VirClust. vConTACT crea gruppi di proteine virali e analizza la condivisione dei geni, mentre GRAViTy guarda le caratteristiche del Genoma per l'analisi. VICTOR combina diversi approcci per classificare i virus e calcola le distanze tra i genomi. ViPTree costruisce alberi che mostrano come i virus sono correlati, e VirClust funziona senza bisogno di un riferimento, creando alberi basati sulle proteine.

Questi metodi si sono rivelati efficaci nello studio dei virus procarioti, ma ci sono ancora alcune sfide. Ad esempio, VICTOR è spesso lento e ha limiti su quanti genomi può analizzare, e potrebbe non riflettere completamente le relazioni tra i gruppi. Inoltre, vConTACT e GRAViTy non considerano le storie evolutive dei virus, che sono importanti per una corretta classificazione. Anche ViPTree e VirClust affrontano limitazioni nell'analisi di set di dati più ampi.

Per migliorare le assegnazioni a livello di specie, che sono essenziali per conoscere i ruoli specifici dei diversi virus, abbiamo bisogno di software migliori. Attualmente, non esiste un programma specificamente focalizzato sulla classificazione dei genomi virali trovati in campioni umani o ambientali, il che rende più difficile comprendere la tassonomia e l'ecologia virale.

L'importanza degli studi basati sul genoma

Studiare i genomi è fondamentale per capire le connessioni evolutive. Alcuni geni, noti come geni a copia singola, sono conservati e giocano un grande ruolo nella classificazione. Per i virus procarioti a DNA a doppia elica, questi geni a copia singola rimangono coerenti all'interno di specifici ranghi tassonomici, come famiglie e sottofamiglie. Questa coerenza suggerisce che i membri all'interno di una famiglia o sottogruppo condividono geni a copia singola simili, accennando a un modello universale nei ranghi tassonomici inferiori.

Abbiamo identificato marcatori a copia singola tra una vasta gamma di taxa virali, da generi a regni. Creando alberi basati su questi marcatori, abbiamo scoperto che le forme degli alberi spesso corrispondevano alle classificazioni stabilite dal Comitato Internazionale sulla Tassonomia dei Virus (ICTV) a livello di sottofamiglia e genere.

Utilizzando questo approccio, abbiamo creato vClassifier, uno strumento che classifica automaticamente i genomi virali basandosi su alberi di riferimento. vClassifier raggruppa i virus in base ai loro parenti all'interno di questi alberi, utilizzando l'identità nucleotidica media per assegnare classificazioni a livello di specie. Quando lo abbiamo confrontato con altri programmi, vClassifier ha mostrato prestazioni simili o migliori.

Selezione di taxa e marcatori

Per costruire il nostro set di dati, abbiamo utilizzato una versione specifica della tassonomia ICTV e selezionato genomi completi classificati dall'ICTV. Abbiamo raccolto 5.128 genomi virali provenienti da virus batterici e archeali, che coprono 212 diversi taxa e organizzati in otto ranghi tassonomici. Ci siamo concentrati su taxa con almeno 10 genomi disponibili per garantire risultati solidi.

Abbiamo poi cercato marcatori adatti in ogni taxon utilizzando un database di famiglie di geni virali. Dopo lo screening, abbiamo trovato un range da uno a 276 marcatori tra 203 taxa. I nostri criteri per la scelta dei marcatori includevano la loro presenza in almeno il 50% dei genomi in un taxon, una bassa occorrenza media per genoma e una lunghezza sufficiente delle proteine.

Allineamento delle sequenze e Analisi filogenetica

Per ogni taxon, abbiamo identificato i marcatori di geni a copia singola. La sequenza del gene con il punteggio migliore è stata scelta, e per eventuali marcatori con più risultati, è stato selezionato il punteggio migliore per l'analisi. Abbiamo affinato gli allineamenti e li abbiamo uniti in un unico allineamento di sequenze. Ci siamo poi concentrati sui genomi che rappresentavano una porzione significativa dell'allineamento per garantire un'analisi filogenetica robusta.

L'albero di riferimento finale è stato costruito dai dati affinati, e abbiamo utilizzato replicati bootstrap per confermare il supporto per i rami dell'albero. Attraverso questo processo, abbiamo generato 203 alberi filogenetici che rappresentavano le relazioni evolutive all'interno di ogni taxon.

Benchmarking e confronto con l'ICTV

Successivamente, abbiamo valutato il nostro metodo filogenetico rispetto alla classificazione dell'ICTV. Abbiamo definito gruppi filogenetici in base a quanti rappresentanti aveva ogni taxon, e misurato la monofilia valutando i valori bootstrap. L'accuratezza del nostro metodo è stata calcolata confrontando il numero di gruppi monofiletici con i gruppi totali in ogni taxon.

Per un'analisi approfondita a livello di sottofamiglia e genere, abbiamo confrontato vClassifier con altri strumenti che classificano i genomi virali. Ogni strumento è stato eseguito nelle condizioni predefinite, permettendoci di valutare come si abbinavano alla tassonomia ICTV.

Workflow di vClassifier

vClassifier può elaborare assemblaggi di genomi in un formato specifico. Predice geni e identifica marcatori a copia singola dai genomi di query. Le sequenze sono allineate, e vengono aggiunti spazi per i marcatori mancanti. L'ultimo passaggio è posizionare i genomi negli alberi di riferimento utilizzando un programma speciale.

Per assegnare le classificazioni, vClassifier verifica dove un genoma di query si colloca nell'albero di riferimento. Se tutti i genomi in un cluster appartengono alla stessa sottofamiglia o genere, il genoma di query viene posizionato lì. Le classificazioni a livello di specie dipendono dalla copertura dell'allineamento e dall'identità nucleotidica.

vClassifier è progettato per funzionare bene su server potenti e può classificare molti genomi in modo efficiente. Funziona meglio con genomi di alta qualità, portando a una maggiore accuratezza nelle classificazioni.

Prestazioni in diversi ambienti

Abbiamo testato l'efficacia di vClassifier su vari campioni virali, inclusi quelli provenienti da ambienti acquatici, sedimenti e suolo. Lo strumento ha mostrato alte percentuali di assegnazione, specialmente a livello di genere, con prestazioni migliori rispetto ad altri strumenti come vConTACT3. Questa efficienza indica che vClassifier può fornire classificazioni più accurate in vari contesti ambientali.

Variabilità nella distribuzione dei geni marcatori

I virus procarioti mostrano modelli evolutivi diversi, influenzando la conservazione dei marcatori genici. La maggior parte dei marcatori a gene singolo non è ampiamente condivisa tra i virus, il che limita la loro utilità filogenetica. I nostri risultati indicano che ci sono meno marcatori a copia singola nei ranghi tassonomici più alti, mentre nei ranghi inferiori ci sono set di marcatori specifici.

Nonostante l'assenza di geni a copia singola universali tra tutti i virus, il nostro studio sottolinea l'importanza di marcatori specifici per gli studi tassonomici. La presenza di molti marcatori nei ranghi tassonomici inferiori consente classificazioni più dettagliate e intuizioni sulle relazioni evolutive.

Alto accordo con la tassonomia ICTV

Abbiamo trovato un forte supporto per la classificazione dei virus a livello di famiglia e sottofamiglia, mostrando un alto accordo con gli standard ICTV. I nostri risultati indicano che molti taxa sono monofiletici, in particolare tra i virus dsDNA. Tuttavia, alcune famiglie hanno avuto tassi di concordanza più bassi, indicando la necessità di ulteriori affinamenti negli approcci di classificazione.

A livello di specie, abbiamo osservato tassi di congruenza più bassi rispetto agli altri ranghi, indicando informazioni limitate sui genomi virali classificati nel framework ICTV. Per migliorare la classificazione delle specie, abbiamo combinato l'analisi filogenetica con l'identità nucleotidica media, che si è rivelata un approccio di successo.

Conclusione

Abbiamo sviluppato vClassifier, uno strumento potente per classificare i virus basato su relazioni evolutive e confronti genetici. vClassifier ha dimostrato un alto livello di coerenza con le classificazioni ICTV e NCBI, rendendolo prezioso per la tassonomia virale. Sebbene abbia limiti riguardo la classificazione a livelli più elevati, aggiornamenti continui garantiranno che rimanga attuale.

In generale, questo lavoro migliora la nostra comprensione della tassonomia virale e dimostra la necessità di continui miglioramenti nei metodi di classificazione per tenere il passo con le conoscenze scientifiche in evoluzione, facilitando infine l'identificazione e la classificazione accurate dei virus in vari ambienti.

Fonte originale

Titolo: vClassifier: a toolkit for species-level classification of prokaryotic viruses

Estratto: As the most abundant and diverse biological entities, prokaryotic viruses play pivotal roles in ecological systems. Their taxonomic classification has been instrumental in elucidating their diversity and ecological functions. However, determination of viral taxonomy remains a considerable challenge. Recently developed approaches succeed in assignment of viral taxonomy at higher ranks, such as at the family level and above, but struggle at the subfamily level and below to the genus and species resolutions. Here, we describe the vClassifier toolkit, a phylogeny-informed methodology to provide species-level taxonomic assignments of viruses. We used single-copy marker genes relevant to specific taxa and reference phylogenetic trees for these groups which facilitates direct comparisons with the taxonomic framework of the International Committee on Taxonomy of Viruses (ICTV). Our method demonstrated significant congruence with the ICTV taxonomy, showing 84-91% alignment at the subfamily and genus levels. For species-level classification, our strategy was integrated with average nucleotide identity, yielding a high congruence rate of over 92% with the taxonomic data from the NCBI Virus database. Benchmarking comparisons revealed that vClassifier matches or surpasses other available tools regarding precision and classification success rates. By achieving objectivity and high levels of consistency, vClassifier streamlines the taxonomic categorization of prokaryotic viral genomes. Accurate assignments at the subfamily, genus, and species levels will significantly refine the taxonomic resolution of viruses, fostering a deeper understanding of viral diversity in microbiomes and ecosystems.

Autori: Karthik Anantharaman, K. Zhou, J. C. Kosmopoulos

Ultimo aggiornamento: 2024-06-02 00:00:00

Lingua: English

URL di origine: https://www.biorxiv.org/content/10.1101/2024.05.28.596318

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.05.28.596318.full.pdf

Licenza: https://creativecommons.org/licenses/by-nc/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili