DFAST_QC : Un Outil Clé pour la Validation du Génome
DFAST_QC garantit un étiquetage précis des génomes pour améliorer la recherche biologique.
― 8 min lire
Table des matières
Les bases de données génomiques publiques jouent un rôle crucial dans la recherche biologique. Ces bases de données stockent des infos génétiques de divers organismes, ce qui aide les scientifiques à mener des études plus efficacement. Des données précises, y compris les détails sur chaque génome, sont super importantes. Quand les génomes sont mal étiquetés, ça peut entraîner des malentendus et des erreurs dans la recherche, ce qui peut être problématique quand les scientifiques utilisent ces infos pour leur boulot.
Pour s'assurer que les génomes ont les bonnes étiquettes taxonomiques, le Centre National pour les Informations Biotechnologiques (NCBI) utilise une méthode appelée l'Identité Nucléotidique Moyenne (ANI) depuis 2018. Cette méthode aide les scientifiques à comparer la composition génétique de deux génomes et à déterminer s'ils appartiennent à la même espèce. En général, une similarité de 95 % dans la composition génétique indique que les deux génomes viennent de la même espèce. Les données dans ces bases sont organisées avec un système appelé Taxonomie NCBI, qui aide à maintenir la cohérence dans le nommage des différents organismes.
Qu'est-ce que DFAST_QC ?
DFAST_QC est un outil créé pour valider les génomes dans la Banque de Données ADN du Japon (DDBJ), qui fait partie de la communauté mondiale de partage des données génétiques. Cet outil s'assure que les génomes soumis au DDBJ sont correctement étiquetés et de haute qualité. DFAST_QC peut fonctionner en ligne grâce au service web DFAST, ce qui aide les scientifiques avec l'annotation des génomes et la soumission de données. Il peut aussi être utilisé sur un ordinateur personnel en tant qu'outil autonome.
DFAST_QC identifie rapidement le groupe taxonomique d'un génome en utilisant la Taxonomie NCBI. Il utilise une méthode appelée Mash pour estimer la similarité et un autre outil, Skani, pour calculer l'ANI avec précision. En plus, il vérifie la qualité des génomes en évaluant leur complétude et s'ils sont contaminés. Il peut aussi comparer les génomes à une base de données séparée appelée GTDB, qui fournit des infos supplémentaires pour la classification.
Comment fonctionne DFAST_QC
DFAST_QC utilise une méthode en deux étapes pour vérifier la taxonomie des génomes, ce qui fait gagner du temps tout en maintenant la précision. Pour utiliser DFAST_QC, les scientifiques n'ont qu'à fournir un simple fichier FASTA, qui est un format pour stocker des séquences ADN. Dans la première étape, DFAST_QC calcule la distance génétique en utilisant MASH à partir de fichiers de croquis créés sur la base de génomes de référence. Dans la deuxième étape, il utilise Skani pour créer un fichier de croquis plus gérable et accélérer le processus. Après ça, l'ANI est calculé pour déterminer le groupe taxonomique du génome en cours d'analyse. Si c'est disponible, il applique des seuils ANI spécifiques pour différentes espèces ou se base sur 95 % par défaut.
Pour l'évaluation de la qualité, DFAST_QC utilise un outil appelé CheckM. Cet outil évalue la complétude et les niveaux de contamination du génome. L'ensemble de marqueurs pour CheckM est automatiquement choisi en fonction des résultats de la vérification taxonomique. DFAST_QC vérifie aussi la taille du génome pour s'assurer qu'il se situe dans les plages attendues. Si l'utilisateur le souhaite, DFAST_QC peut identifier des espèces en utilisant GTDB en interrogeant ses génomes représentatifs.
Mise en place des données de référence
DFAST_QC repose sur deux sources principales pour les données de référence : les ensembles de données NCBI et GTDB. Les chercheurs peuvent accéder et gérer ces données à l'aide de scripts Python fournis avec DFAST_QC.
Données de référence de NCBI
DFAST_QC commence par rassembler des métadonnées sur les assemblages génomiques de GenBank, où il identifie souches types, qui sont des génomes de référence importants. Il filtre les génomes qui ne sont pas adaptés en fonction de critères spécifiques. Une fois les génomes sélectionnés, DFAST_QC les télécharge et crée une base de données pour stocker les infos provenant à la fois des métadonnées et des données d'assemblage du génome. Après ça, il génère un fichier de croquis consolidé utilisant MASH pour préparer les vérifications taxonomiques.
Données de référence de GTDB
Pour GTDB, DFAST_QC télécharge les génomes représentatifs ainsi que leurs fichiers de métadonnées. Il met aussi en place une base de données SQL spécifiquement conçue pour des recherches efficaces dans le GTDB et crée un fichier de croquis de la même manière qu'il le fait pour les données NCBI.
Test de DFAST_QC
Pour vérifier comment DFAST_QC fonctionne, une série de tests a été réalisée. Les données de référence utilisées pour ces tests comprenaient plus de 22 000 génomes types de NCBI et plus de 113 000 génomes représentatifs de GTDB. Deux ensembles de données ont été créés pour évaluer la précision de DFAST_QC. Le premier ensemble contenait plus de 5 000 génomes non-types sélectionnés au hasard de GenBank, tandis que le deuxième ensemble était composé de 10 000 génomes sélectionnés au hasard assemblés à partir de données de métagénomes.
Les deux ensembles de données ont été traités avec DFAST_QC selon les paramètres standards. Les résultats du premier ensemble ont montré que DFAST_QC correspondait aux noms d'espèces dans presque tous les cas. Sur 5 184 cas, seules quatre discordances ont été signalées. Ces discordances proviennent probablement d'un étiquetage incorrect des génomes ou d'incohérences dans le système taxonomique. Beaucoup des cas discordants étaient encore très proches de l'espèce correcte, indiquant que DFAST_QC est assez efficace dans son identification.
Dans le deuxième ensemble, DFAST_QC a montré une cohérence avec les résultats d'un autre outil, GTDB-Tk, confirmant sa fiabilité dans l'identification au niveau des espèces.
Limitations et améliorations futures
Bien que DFAST_QC se soit avéré précis quand un génome de référence est disponible, il a ses limites. Pour les espèces qui n'ont pas de génome type séquencé, DFAST_QC ne peut pas assigner de manière fiable un nom d'espèce. C'est un gros problème, car beaucoup d'espèces manquent actuellement d'un génome type séquencé. Heureusement, cette situation s'améliore lentement grâce à divers projets de séquençage et aux recommandations croissantes pour déposer les séquences génomiques en même temps que les descriptions de nouvelles espèces.
La capacité de rechercher contre les génomes représentatifs de GTDB peut aussi aider à régler certaines de ces limites, surtout pour les génomes qui manquent de données de référence suffisantes.
Comparaison de DFAST_QC avec d'autres outils
Contrairement à d'autres outils d'identification de génomes, DFAST_QC se concentre uniquement sur l'attribution de noms d'espèces et ne fournit pas d'analyse phylogénétique détaillée à des niveaux taxonomiques supérieurs. Ce choix est intentionnel, car l'objectif principal de DFAST_QC est de garantir le bon étiquetage des génomes avant qu'ils ne soient soumis aux bases de données publiques.
DFAST_QC est conçu pour fonctionner avec des ressources informatiques limitées. Il nécessite généralement moins de 2 Go de mémoire et peut effectuer l'identification taxonomique en environ 30 secondes. Le logiciel contient un ensemble minimal de données de référence pré-construites, ce qui le rend plus facile à installer sur des ordinateurs personnels par rapport aux approches nécessitant d'importants ensembles de données de référence.
Conclusion
DFAST_QC est un outil essentiel pour valider les génomes procaryotes, s'assurant qu'ils sont correctement étiquetés et de haute qualité. En utilisant à la fois les taxonomies NCBI et GTDB pour l'identification des espèces, il soutient l'intégrité des données génomiques dans la recherche scientifique. Avec son interface conviviale et sa capacité à fonctionner sur des machines personnelles, DFAST_QC aide les chercheurs qui ne sont pas familiers avec les outils en ligne de commande, donc favorise de meilleures pratiques de données dans la communauté scientifique. Son accent sur une évaluation précise des génomes renforce son importance dans les efforts continus pour améliorer la fiabilité des informations génomiques à travers divers domaines de recherche.
Titre: DFAST_QC: Quality Assessment and Taxonomic Identification Tool for Prokaryotic Genomes
Résumé: MotivationAccurate taxonomic assignments of genomic data are crucial across various biological databases. With a rapid increase in submitted genomes in recent years, ensuring precise classification is important to maintain database integrity. Mislabeled genomes can confuse researchers, hinder analyses, and produce false results. Therefore, there is a critical need for computationally efficient tools that ensure accurate taxonomic classification for data to be deposited into genomic databases. ResultsHere we introduce DFAST_QC, a quality control and taxonomic classification tool of prokaryotic genomes based on NCBI and GTDB taxonomies. We benchmarked DFAST_QCs performance against NCBI taxonomy assignments, showing high consistency with them. Our results demonstrate that DFAST_QC achieves high consistency to NCBI taxonomy classification. Availability and implementationDFAST_QC is implemented in Python and is available both as a web service (https://dfast.ddbj.nig.ac.jp/dqc) and as a stand-alone command line tool. The source code is available under the GPLv3 license at: https://github.com/nigyta/dfast_qc, and the conda package is also available from Bioconda. The data and scripts used for the benchmarking process are publicly available on GitHub (https://github.com/Mohamed-Elmanzalawi/DFAST_QC_Benchmark). [email protected] Supplementary informationSupplementary data are available at Bioinformatics online.
Auteurs: Yasuhiro Tanizawa, M. Elmanzalawi, T. Fujisawa, H. Mori, Y. Nakamura
Dernière mise à jour: 2024-07-24 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2024.07.22.604526
Source PDF: https://www.biorxiv.org/content/10.1101/2024.07.22.604526.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.