Nouvel outil améliore l'assemblage des génomes bactériens
Hybracter automatise l'assemblage du génome bactérien avec plus de précision pour les plasmides.
― 7 min lire
Table des matières
- Avancées dans la Technologie de Séquençage
- Le Besoin d'un Meilleur Outil
- Comment Fonctionne Hybracter
- Accent sur le Polissage
- Sélection des Bons Outils
- Évaluation par Rapport à d'Autres Outils
- L'Importance des Assemblages Précis
- Flux de Travail Rationalisé pour l'Efficacité
- Résoudre les Défis d'Assemblage
- Conclusion
- Source originale
- Liens de référence
Ces dernières années, les scientifiques se sont concentrés sur la compréhension des bactéries en reconstruisant leurs Génomes complets. Un génome, c’est l'ensemble du matériel génétique d'un organisme. Cependant, jusqu'à récemment, assembler ces génomes de zéro était souvent considéré comme trop difficile et coûteux, surtout pour les bactéries. C'était en grande partie à cause des anciennes méthodes de séquençage, qui ne pouvaient pas gérer certaines parties compliquées des génomes, y compris les régions avec des Séquences répétées ou un contenu élevé en GC (guanine-cytosine).
Avancées dans la Technologie de Séquençage
Depuis 2015, de nouvelles technologies ont vu le jour, permettant aux chercheurs de reconstituer des génomes entiers plus efficacement. Ces méthodes récentes, connues sous le nom de séquençage à longues lectures, permettent aux scientifiques de créer des génomes complets sans trop se reposer sur les anciennes méthodes. Au départ, les chercheurs utilisaient le séquençage à courtes lectures pour établir une structure de base du génome, puis la technologie à longues lectures pour compléter les zones plus compliquées.
Un des outils les plus utilisés pour ce processus est un programme en ligne de commande appelé Unicycler. Bien qu'il soit efficace, des défis subsistaient, surtout en matière d'exactitude et de récupération des Plasmides, qui sont de petits morceaux circulaires d'ADN pouvant être présents dans certaines bactéries.
Le Besoin d'un Meilleur Outil
De nombreux outils existants pour assembler les génomes bactériens ont des limites. Ils peinent souvent à gérer la récupération des plasmides efficacement, ce qui peut mener à des assemblages de génomes incomplets ou incorrects. De plus, certains outils négligent des facteurs importants comme l'orientation du génome et les avancées récentes dans les techniques de Polissage qui améliorent l'exactitude.
Conscients de ces problèmes, un nouvel outil appelé Hybracter a été développé. Cet outil vise à automatiser le processus de création d'assemblages de génomes bactériens presque parfaits en utilisant une approche à longue lecture en premier. Il permet aux utilisateurs de polir les génomes assemblés avec à la fois des longues et courtes lectures ou d’utiliser seulement les longues lectures.
Comment Fonctionne Hybracter
Hybracter adopte un flux de travail simple pour assembler les génomes bactériens. Au départ, il prend des séquences à longues lectures et les filtre pour s'assurer que seules les lectures de la meilleure qualité sont conservées. Les adaptateurs et contaminants sont retirés, et la qualité des séquences à courtes lectures restantes est vérifiée.
Après avoir préparé les lectures, la première étape consiste à assembler les séquences à longues lectures. Si suffisamment de contigs de qualité (séquences continues d'ADN) sont obtenus, ils sont marqués comme complets. S'ils ne répondent pas à la longueur requise, l'assemblage est qualifié d'incomplet.
Ensuite, si des échantillons complets sont reconnus, l'outil cible alors l'assemblage des plasmides en utilisant une méthode codée dans Plassembler. Tous les échantillons sont polis pour améliorer leur exactitude, avec des options pour spécifier comment ce polissage est réalisé en fonction des données de courtes lectures disponibles.
Accent sur le Polissage
Le polissage est une étape essentielle du processus d'assemblage. Il affine le génome assemblé pour réduire les erreurs et améliorer la qualité globale. Selon la profondeur des données de courtes lectures, différentes techniques de polissage sont appliquées pour s'assurer de la préservation de l'information la plus précise.
Si seules des longues lectures sont fournies, l'outil calcule la longueur moyenne des séquences codantes dans l'assemblage pour déterminer la qualité. Le meilleur tour de polissage basé sur les plus longues séquences codantes est choisi comme sortie finale.
Hybracter génère une variété de fichiers de sortie, y compris un résumé détaillé pour chaque génome assemblé, ainsi que des fichiers spécifiques pour les chromosomes et les plasmides. Cette sortie exhaustive aide les utilisateurs à comprendre et à suivre la qualité de leurs assemblages.
Sélection des Bons Outils
Les développeurs de Hybracter ont soigneusement choisi quels programmes inclure dans l'outil en fonction de leur précision et de leur rapidité. Pour l'assemblage à longues lectures, Flye a été sélectionné en raison de sa précision supérieure par rapport à d'autres options. Medaka a été intégré comme outil de polissage parce qu'il améliore efficacement la continuité des génomes assemblés.
De plus, trois programmes autonomes ont été développés spécifiquement pour Hybracter, y compris Plassembler pour l'assemblage des plasmides, Dnaapler pour la réorientation des chromosomes, et Pypolca pour le polissage des courtes lectures. Ensemble, ces programmes collaborent pour renforcer la robustesse du processus d'assemblage.
Évaluation par Rapport à d'Autres Outils
Pour mettre en avant les avantages de Hybracter, des chercheurs ont réalisé une série de benchmarks en le comparant à d'autres outils d'assemblage populaires. Ces tests ont impliqué une variété d’échantillons bactériens et visaient à évaluer l'exactitude de la récupération des chromosomes et de l'assemblage des plasmides.
Les résultats ont montré que Hybracter fournissait les assemblages de chromosomes les plus précis par rapport aux autres outils. Il a produit le moins d’erreurs, démontrant son efficacité pour générer des séquences de génomes de haute qualité.
Hybracter excelle également dans la récupération des plasmides. Il a constamment surpassé les autres outils dans l'identification et l'assemblage précis des plasmides durant le processus d'assemblage du génome.
L'Importance des Assemblages Précis
Des assemblages de génomes précis sont essentiels pour comprendre la biologie des bactéries. Ils peuvent éclairer sur le comportement, l'évolution et la réponse des bactéries aux changements environnementaux. Cette compréhension peut être cruciale dans divers domaines, y compris la médecine, les sciences environnementales et l'agriculture.
Par exemple, dans le domaine de la santé, des données génomiques précises peuvent aider à suivre la propagation des gènes de résistance aux antibiotiques parmi les populations bactériennes. En santé publique, cela peut aider lors d'enquêtes sur des épidémies en fournissant des informations génétiques précises sur les souches bactériennes impliquées.
Flux de Travail Rationalisé pour l'Efficacité
Hybracter a été conçu avec l'efficacité en tête. Grâce à son intégration avec Snakemake-un outil de gestion de flux de travail-Hybracter peut s'adapter pour traiter rapidement et efficacement de nombreux échantillons. Les utilisateurs peuvent personnaliser leurs paramètres pour optimiser l'allocation des ressources en fonction de leur configuration informatique, permettant ainsi un processus d'assemblage sur mesure.
Cette parallélisation permet aux utilisateurs de réaliser plusieurs assemblages simultanément, réduisant considérablement le temps nécessaire pour des projets à grande échelle.
Résoudre les Défis d'Assemblage
Bien que le séquençage à longues lectures ait apporté des avancées considérables dans l'assemblage des génomes, des défis restent. Les petits plasmides, par exemple, sont souvent difficiles à assembler avec précision. Cependant, Hybracter met en œuvre des algorithmes avancés pour relever ces défis, garantissant de meilleurs taux de récupération des petits plasmides par rapport aux méthodes précédentes.
De plus, en adoptant une approche à longues lectures en premier, Hybracter tire parti des forces des nouvelles technologies de séquençage, facilitant ainsi l'assemblage des régions génomiques compliquées.
Conclusion
En résumé, Hybracter représente un pas en avant dans le domaine de l'assemblage des génomes bactériens. En combinant les nouvelles technologies de séquençage avec des processus d'assemblage raffinés, il fournit aux chercheurs un outil puissant pour reconstruire avec précision les génomes bactériens, y compris les plasmides difficiles à récupérer.
Cet outil promet d'améliorer notre compréhension de la génétique microbienne et de contribuer à la recherche en santé, écologie et agriculture. À mesure que le domaine continue d'évoluer, il est probable que des outils comme Hybracter joueront un rôle de plus en plus important dans notre compréhension du monde microscopique.
Titre: Hybracter: Enabling Scalable, Automated, Complete and Accurate Bacterial Genome Assemblies
Résumé: Improvements in the accuracy and availability of long-read sequencing mean that complete bacterial genomes are now routinely reconstructed using hybrid (i.e. short- and long-reads) assembly approaches. Complete genomes allow a deeper understanding of bacterial evolution and genomic variation beyond single nucleotide variants (SNVs). They are also crucial for identifying plasmids, which often carry medically significant antimicrobial resistance (AMR) genes. However, small plasmids are often missed or misassembled by long-read assembly algorithms. Here, we present Hybracter which allows for the fast, automatic, and scalable recovery of near-perfect complete bacterial genomes using a long-read first assembly approach. Hybracter can be run either as a hybrid assembler or as a long-read only assembler. We compared Hybracter to existing automated hybrid and long-read only assembly tools using a diverse panel of samples of varying levels of long-read accuracy with manually curated ground truth reference genomes. We demonstrate that Hybracter as a hybrid assembler is more accurate and faster than the existing gold standard automated hybrid assembler Unicycler. We also show that Hybracter with long-reads only is the most accurate long-read only assembler and is comparable to hybrid methods in accurately recovering small plasmids. Data SummaryO_LIHybracter is developed using Python and Snakemake as a command-line software tool for Linux and MacOS systems. C_LIO_LIHybracter is freely available under an MIT License on GitHub (https://github.com/gbouras13/hybracter) and the documentation is available at Read the Docs (https://hybracter.readthedocs.io/en/latest/). C_LIO_LIHybracter is available to install via PyPI (https://pypi.org/project/hybracter/) and Bioconda (https://anaconda.org/bioconda/hybracter). A Docker/Singularity container is also available at https://quay.io/repository/gbouras13/hybracter. C_LIO_LIAll code used to benchmark Hybracter, including the reference genomes, is publicly available on GitHub (https://github.com/gbouras13/hybracter_benchmarking) with released DOI (https://zenodo.org/doi/10.5281/zenodo.10910108) available at Zenodo. C_LIO_LIThe subsampled FASTQ files used for benchmarking are publicly available at Zenodo with DOI (https://doi.org/10.5281/zenodo.10906937). C_LIO_LIAll super accuracy simplex ATCC FASTQ reads sequenced as a part of this study can be found under BioProject PRJNA1042815. C_LIO_LIAll Hall et al. fast accuracy simplex and super accuracy duplex ATCC FASTQ read files (prior to subsampling) can be found in the SRA under BioProject PRJNA1087001. C_LIO_LIAll raw Lermaniaux et al. FASTQ read files and genomes (prior to subsampling) can be found in the SRA under BioProject PRJNA1020811. C_LIO_LIAll Staphylococcus aureus JKD6159 FASTQ read files and genomes can be found under BioProject PRJNA50759. C_LIO_LIAll Mycobacterium tuberculosis H37R2 FASTQ read files and genomes can be found under BioProject PRJNA836783. C_LIO_LIThe complete list of BioSample accession numbers for each benchmarked sample can be found in Supplementary Table 1. C_LIO_LIThe benchmarking assembly output files are publicly available on Zenodo with DOI (https://doi.org/10.5281/zenodo.10906937). C_LIO_LIAll Pypolca benchmarking outputs and code are publicly available on Zenodo with DOI (https://zenodo.org/doi/10.5281/zenodo.10072192). C_LI Impact StatementComplete bacterial genome assembly using hybrid sequencing is a routine and vital part of bacterial genomics, especially for identification of mobile genetic elements and plasmids. As sequencing becomes cheaper, easier to access and more accurate, automated assembly methods are crucial. With Hybracter, we present a new long-read first automated assembly tool that is faster and more accurate than the widely-used Unicycler. Hybracter can be used both as a hybrid assembler and with long-reads only. Additionally, it solves the problems of long-read assemblers struggling with small plasmids, with plasmid recovery from long-reads only performing on par with hybrid methods. Hybracter can natively exploit the parallelisation of high-performance computing (HPC) clusters and cloud-based environments, enabling users to assemble hundreds or thousands of genomes with one line of code. Hybracter is available freely as source code on GitHub, via Bioconda or PyPi.
Auteurs: George Bouras, G. Houtak, R. R. Wick, V. Mallawaarachchi, M. J. Roach, B. Papudeshi, L. M. Judd, A. E. Sheppard, R. A. Edwards, S. Vreugde
Dernière mise à jour: 2024-04-11 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2023.12.12.571215
Source PDF: https://www.biorxiv.org/content/10.1101/2023.12.12.571215.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.