Simple Science

Scienza all'avanguardia spiegata semplicemente

# La biologia# Genomica

DFAST_QC: Uno Strumento Chiave per la Validazione del Genoma

DFAST_QC assicura etichettature precise dei genomi per una migliore ricerca biologica.

― 6 leggere min


Validazione del genomaValidazione del genomacon lo strumento DFAST_QCnella ricerca.geniche precise per un'accuratezzaDFAST_QC garantisce etichettature
Indice

I database pubblici del genoma sono fondamentali nella ricerca biologica. Questi database conservano informazioni genetiche di vari organismi, il che aiuta gli scienziati a condurre studi in modo più efficiente. Dati accurati, compresi i dettagli su ogni genoma, sono cruciali. Quando i genomi vengono etichettati in modo errato, possono sorgere fraintendimenti e errori nella ricerca, il che può essere problematico quando gli scienziati usano queste informazioni per il loro lavoro.

Per garantire che i genomi abbiano le etichette tassonomiche corrette, il National Center for Biotechnology Information (NCBI) sta usando un metodo chiamato Average Nucleotide Identity (ANI) dal 2018. Questo metodo aiuta gli scienziati a confrontare la composizione genetica di due genomi e determinare se appartengono alla stessa specie. In generale, una somiglianza del 95% nella composizione genetica indica che due genomi provengono dalla stessa specie. I dati in questi database sono organizzati usando un sistema chiamato NCBI Taxonomy, che aiuta a mantenere coerenza nei nomi dei diversi organismi.

Che cos'è DFAST_QC?

DFAST_QC è uno strumento creato per convalidare i genomi nel DNA Data Bank of Japan (DDBJ), che è un membro della comunità globale di condivisione dei dati genetici. Questo strumento garantisce che i genomi inviati al DDBJ siano etichettati correttamente e siano di alta qualità. DFAST_QC può funzionare online attraverso il servizio web DFAST, che aiuta gli scienziati con l'annotazione del genoma e la sottomissione dei dati. Può anche essere usato su un computer personale come strumento autonomo.

DFAST_QC identifica rapidamente il gruppo tassonomico di un genoma usando la NCBI Taxonomy. Utilizza un metodo chiamato Mash per stimare la somiglianza e un altro strumento, Skani, per calcolare l'ANI in modo preciso. Inoltre, controlla la qualità dei genomi valutando quanto siano completi e se siano contaminati. Può anche confrontare i genomi con un database separato chiamato GTDB, che fornisce ulteriori informazioni per la classificazione.

Come funziona DFAST_QC

DFAST_QC utilizza un metodo a due fasi per controllare la tassonomia dei genomi, risparmiando tempo mantenendo l'accuratezza. Per usare DFAST_QC, gli scienziati devono solo fornire un semplice file FASTA, che è un formato per memorizzare sequenze di DNA. Nella prima fase, DFAST_QC calcola la distanza genetica usando MASH dai file di schizzo creati in base ai genomi di riferimento. Nella seconda fase, usa Skani per creare un file di schizzo più gestibile e accelera il processo. Dopo, viene calcolata l'ANI per determinare il gruppo tassonomico del genoma analizzato. Se disponibile, applica soglie ANI specifiche per diverse specie o predefinisce al 95%.

Per la valutazione della qualità, DFAST_QC utilizza uno strumento chiamato CheckM. Questo strumento valuta i livelli di completezza e contaminazione del genoma. Il set di marcatori per CheckM viene scelto automaticamente in base ai risultati del controllo tassonomico. DFAST_QC controlla anche la dimensione del genoma per assicurarsi che rientri nei range previsti. Se l'utente lo desidera, DFAST_QC può identificare le specie utilizzando il GTDB interrogando i suoi genomi rappresentativi.

Impostare i dati di riferimento

DFAST_QC si basa su due fonti principali per i dati di riferimento: NCBI Datasets e GTDB. I ricercatori possono accedere e gestire questi dati utilizzando script Python forniti con DFAST_QC.

Dati di riferimento da NCBI

DFAST_QC inizia raccogliendo metadati sulle assemblaggi genomici da GenBank, dove identifica ceppi tipo, che sono genomi di riferimento importanti. Filtra i genomi che non sono adatti in base a criteri specifici. Una volta selezionati i genomi, DFAST_QC li scarica e crea un database per memorizzare le informazioni sia dai metadati che dai dati di assemblaggio del genoma. Dopo, genera un file di schizzo consolidato usando MASH per prepararsi ai controlli tassonomici.

Dati di riferimento da GTDB

Per il GTDB, DFAST_QC scarica genomi rappresentativi insieme ai loro file di metadati. Imposta anche un database SQL progettato specificamente per ricerche efficaci all'interno del GTDB e crea un file di schizzo in modo simile a come fa per i dati NCBI.

Testare DFAST_QC

Per controllare quanto bene funzioni DFAST_QC, sono stati condotti una serie di test. I dati di riferimento utilizzati per questi test includevano oltre 22.000 genomi tipo da NCBI e oltre 113.000 genomi rappresentativi da GTDB. Sono stati creati due set di dati per valutare l'accuratezza di DFAST_QC. Il primo set di dati conteneva oltre 5.000 genomi non tipo selezionati casualmente da GenBank, mentre il secondo set consisteva in 10.000 genomi selezionati casualmente assemblati da dati di metagenoma.

Entrambi i set di dati sono stati elaborati utilizzando DFAST_QC con impostazioni standard. I risultati del primo set di dati hanno mostrato che DFAST_QC ha abbinato i nomi delle specie in quasi tutti i casi. Su 5.184 casi, sono stati segnalati solo quattro disallineamenti. Questi disallineamenti probabilmente derivano da etichettature errate dei genomi o inconsistenze nel sistema tassonomico. Molti dei casi disallineati erano comunque molto vicini alla specie corretta, indicando che DFAST_QC è piuttosto efficace nella sua identificazione.

Nel secondo set di dati, DFAST_QC ha mostrato coerenza con i risultati di un altro strumento, GTDB-Tk, confermando la sua affidabilità nell'identificazione a livello di specie.

Limitazioni e miglioramenti futuri

Sebbene DFAST_QC si sia dimostrato accurato quando è disponibile un genoma di riferimento, ha delle limitazioni. Per le specie che non hanno un genoma tipo sequenziato, DFAST_QC non può assegnare confidenzialmente un nome di specie. Questo è un problema significativo, poiché molte specie attualmente mancano di un genoma tipo sequenziato. Fortunatamente, questa situazione sta migliorando lentamente grazie a vari progetti di sequenziamento e crescenti raccomandazioni per depositare sequenze di genoma insieme a nuove descrizioni di specie.

La possibilità di cercare contro i genomi rappresentativi del GTDB può anche aiutare ad affrontare alcune di queste limitazioni, specialmente per i genomi che mancano di dati di riferimento sufficienti.

Confrontare DFAST_QC con altri strumenti

A differenza di altri strumenti di identificazione del genoma, DFAST_QC si concentra esclusivamente sull'assegnazione dei nomi delle specie e non fornisce un'analisi filogenetica dettagliata a livelli tassonomici più elevati. Questa scelta è intenzionale, poiché l'obiettivo principale di DFAST_QC è garantire l'etichettatura corretta dei genomi prima che vengano inviati ai database pubblici.

DFAST_QC è progettato per funzionare con risorse di calcolo limitate. Di solito richiede meno di 2 GB di memoria e può completare l'identificazione tassonomica in circa 30 secondi. Il software include un set minimo di dati di riferimento precompilati, il che lo rende più facile da installare su computer personali rispetto ad approcci che richiedono set di dati di riferimento estesi.

Conclusione

DFAST_QC è uno strumento essenziale per convalidare i genomi procarioti, assicurandosi che siano etichettati in modo accurato e di alta qualità. Utilizzando sia le tassonomie NCBI che GTDB per l'identificazione delle specie, supporta l'integrità dei dati genomici nella ricerca scientifica. Con la sua interfaccia intuitiva e la capacità di funzionare su macchine personali, DFAST_QC aiuta i ricercatori che potrebbero non essere familiari con gli strumenti da linea di comando, promuovendo così migliori pratiche di dati nella comunità scientifica. Il suo focus sulla valutazione accurata del genoma rafforza la sua importanza negli sforzi continui per migliorare l'affidabilità delle informazioni genomiche in vari campi di ricerca.

Fonte originale

Titolo: DFAST_QC: Quality Assessment and Taxonomic Identification Tool for Prokaryotic Genomes

Estratto: MotivationAccurate taxonomic assignments of genomic data are crucial across various biological databases. With a rapid increase in submitted genomes in recent years, ensuring precise classification is important to maintain database integrity. Mislabeled genomes can confuse researchers, hinder analyses, and produce false results. Therefore, there is a critical need for computationally efficient tools that ensure accurate taxonomic classification for data to be deposited into genomic databases. ResultsHere we introduce DFAST_QC, a quality control and taxonomic classification tool of prokaryotic genomes based on NCBI and GTDB taxonomies. We benchmarked DFAST_QCs performance against NCBI taxonomy assignments, showing high consistency with them. Our results demonstrate that DFAST_QC achieves high consistency to NCBI taxonomy classification. Availability and implementationDFAST_QC is implemented in Python and is available both as a web service (https://dfast.ddbj.nig.ac.jp/dqc) and as a stand-alone command line tool. The source code is available under the GPLv3 license at: https://github.com/nigyta/dfast_qc, and the conda package is also available from Bioconda. The data and scripts used for the benchmarking process are publicly available on GitHub (https://github.com/Mohamed-Elmanzalawi/DFAST_QC_Benchmark). [email protected] Supplementary informationSupplementary data are available at Bioinformatics online.

Autori: Yasuhiro Tanizawa, M. Elmanzalawi, T. Fujisawa, H. Mori, Y. Nakamura

Ultimo aggiornamento: 2024-07-24 00:00:00

Lingua: English

URL di origine: https://www.biorxiv.org/content/10.1101/2024.07.22.604526

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.07.22.604526.full.pdf

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili