Avancées dans les techniques d'assemblage du génome
De nouvelles méthodes améliorent la précision du génome en utilisant des longues lectures de PacBio et Oxford Nanopore.
― 8 min lire
Table des matières
Les avancées récentes en technologie ont vraiment amélioré notre façon de voir les génomes, qui sont l'ensemble complet de l'ADN d'un organisme. Les longues lectures sont des séquences d'ADN beaucoup plus longues que les courtes lectures traditionnelles, et elles sont devenues super importantes pour créer des assemblages de génomes de haute qualité. Ces améliorations ont fixé de nouvelles normes pour la précision et la complétude des génomes de référence.
Des entreprises comme Pacific Biosciences (PacBio) et Oxford Nanopore sont à la pointe dans ce domaine. PacBio a développé une méthode appelée Circular Consensus Sequencing, qui permet d'obtenir des longues lectures de haute qualité avec un taux d'erreur en dessous de 1%. Ces lectures, connues sous le nom de PacBio HiFi, sont presque aussi précises que les lectures plus courtes produites par une autre entreprise, Illumina, mais elles sont beaucoup plus longues, avec une moyenne d'environ 15 kilobases.
Pendant ce temps, Oxford Nanopore a mis à jour sa technologie pour améliorer la qualité de ses lectures et leur permettre d'être séquencées plusieurs fois pour plus de précision. La longueur de leurs lectures peut même dépasser 100 kilobases. Ces avancées ont rendu possible l'assemblage de génomes sans avoir besoin de données supplémentaires pour peaufiner, ce qui était crucial dans les versions précédentes de leur technologie.
Importance des Assemblages Phasés
Traditionnellement, les assemblages de génomes fournissent une seule représentation d'un génome qui peut être composée de deux copies, une de chaque parent. Ça veut dire que des versions de chromosomes similaires, connues sous le nom d'Haplotypes, sont combinées en une seule séquence. Quand les génomes ont beaucoup de différences, ce processus peut mener à des résultats moins précis connus sous le nom d'assemblages pseudohaploïdes, qui peuvent inclure des duplications incorrectes.
Des niveaux élevés de différences entre les chromosomes soulèvent la question de savoir s'il vaut mieux les garder combinés ou les représenter séparément dans des assemblages phasés. Les assemblages phasés peuvent montrer les deux versions des chromosomes, offrant une représentation du génome plus complète. Les anciennes longues lectures n'étaient pas assez précises pour distinguer les erreurs des différents haplotypes. Cependant, les nouvelles longues lectures de haute précision ouvrent des possibilités pour produire ces assemblages phasés.
Certains outils d'assemblage sont spécialement conçus pour créer des assemblages phasés, mais il y a encore des lacunes dans notre capacité à séparer précisément les haplotypes.
Évaluation des Assemblages de Génomes
Pour savoir si un assemblage reflète avec précision un génome, il doit être évalué en profondeur. Les statistiques les plus simples à considérer sont la taille de l'assemblage et sa continuité. La taille d'un assemblage doit être proche de ce qu'on attend en fonction de la taille du génome de l'organisme. La continuité, qui mesure à quel point la séquence est complète, est souvent évaluée à l'aide d'une métrique appelée N50. Cela mesure la longueur du plus long fragment dans l'assemblage où la moitié de l'assemblage total est composée de fragments de cette longueur ou plus.
D'autres évaluations examinent la complétude de l'assemblage. Une méthode consiste à rechercher des gènes spécifiques, appelés Orthologues, qui devraient être présents une seule fois dans un assemblage. Des outils sont disponibles pour suivre ces orthologues et mesurer à quel point l'assemblage les représente complètement.
Évaluation des Assembleurs
Dans une étude récente, cinq outils d'assemblage différents ont été testés pour leur capacité à produire des assemblages phasés et collapsés de haute qualité. L'espèce examinée était Plectus sambesii, une espèce de ver très diversifiée. Les chercheurs ont pris des données d'assemblage précédentes et les ont comparées avec de nouvelles données de séquençage provenant des technologies PacBio HiFi et Oxford Nanopore.
Ils ont évalué les assemblages sur leur taille, leur continuité et leur complétude, et ont sélectionné les assemblages phasés les plus prometteurs pour une évaluation plus poussée. Une nouvelle méthodologie a été proposée pour évaluer ces assemblages phasés en collectant des statistiques pertinentes. Cela incluait la vérification du nombre d'orthologues spécifiques et l'analyse des séquences de longueurs spécifiques, connues sous le nom de K-mers.
L'étude a révélé que les longues lectures des deux technologies de séquençage pouvaient fournir des assemblages haploïdes et diploïdes complets. Les deux technologies ont montré une synergie, améliorant à la fois la continuité et la complétude des assemblages.
Techniques de Séquençage
De l'ADN de haute qualité a été extrait de l'espèce cible en utilisant des protocoles spécifiques pour le séquençage PacBio et Nanopore. La bibliothèque PacBio a été préparée et séquencée, tandis que la bibliothèque Nanopore a également été préparée avec son propre kit et séquencée en utilisant une autre configuration.
Un contrôle de qualité pour les lectures de séquençage a été effectué pour garantir la précision et la longueur des lectures. La taille du génome et les niveaux de différences ont été estimés à l'aide d'outils spécialisés. Ces informations ont aidé à guider le processus d'assemblage.
Processus d'Assemblage
Le processus d'assemblage pour les lectures des deux technologies impliquait l'utilisation de divers outils d'assemblage avec des paramètres spécifiques. Différentes combinaisons de paramètres d'assemblage ont été testées pour produire les meilleurs résultats pour les lectures PacBio HiFi et Nanopore.
Les assemblages ont ensuite été évalués pour détecter une contamination potentielle provenant de bactéries, car cette espèce peut en avoir ingéré pendant son alimentation. Les graphiques d'assemblage ont été examinés pour des structures circulaires caractéristiques des génomes bactériens. Une analyse supplémentaire a confirmé la présence de contamination bactérienne.
Évaluation des Assemblages Initiaux
Les assemblages initiaux ont montré des longueurs et des complétudes variées. Cependant, ils ont largement dépassé la taille génomique haploïde attendue. Certains assembleurs ont produit des tailles de génome plus petites par rapport à d'autres qui excellaient en continuité.
Dans l'ensemble, beaucoup d'assemblages ont dépassé une métrique N50 de 1 Mb, suggérant une bonne performance. Les assemblages ont montré une complétude similaire en termes d'orthologues récupérés, mais des différences dans le nombre de duplications ont suggéré des niveaux variés de collapse à travers les outils testés.
Analyse des Assemblages Phasés
L'étude a examiné plus en profondeur comment les assemblages phasés séparaient les différentes versions de chromosomes. Divers outils ont montré un nombre élevé d'orthologues à deux copies, indiquant une bonne séparation des phases. L'analyse a également évalué la complétude des k-mers hétérozygotes et identifié combien de longues lectures soutenaient des changements de phase.
Cette analyse a révélé que certains assemblages avaient de bonnes performances, tandis que d'autres montraient plus d'erreurs dans la séparation des phases. Cependant, la plupart des assemblages n'ont pas montré de problèmes significatifs, indiquant leur correction globale.
Purification des Assemblages
Après avoir évalué les assemblages, les chercheurs ont purgé les haplotigs des données pour créer des assemblages collapsés. Cette étape est importante pour réduire la redondance et améliorer la qualité.
La plupart des assemblages ont atteint un faible nombre d'orthologues dupliqués après purification, plusieurs atteignant des valeurs N50 et N90 impressionnantes, démontrant une haute qualité et complétude.
Conclusion
La combinaison de longues lectures de haute précision de PacBio et Oxford Nanopore a considérablement amélioré les projets d'assemblage de génomes. Cette nouvelle approche permet d'obtenir des contigs et des échafaudages de meilleure qualité, qui peuvent servir de base solide pour de futurs projets d'assemblage, surtout pour des espèces moins étudiées.
Les résultats de l'étude illustrent les avantages d'utiliser les deux technologies de séquençage ensemble, conduisant à des assemblages de génomes plus précis et complets. En affinant les processus et en incluant des techniques supplémentaires, les chercheurs peuvent s'attendre à des aperçus encore plus détaillés des génomes complexes dans le futur.
Dans l'ensemble, ces avancées approfondissent non seulement notre connaissance scientifique, mais ouvrent aussi la voie à des applications potentielles en génétique, bioinformatique, et efforts de conservation.
Titre: Phasing or purging: tackling the genome assembly of a highly heterozygous animal species in the era of high-accuracy long reads
Résumé: The revolution of high-accuracy long reads offers unprecedented quality and contiguity in genome assembly. Pacific Biosciences (PacBio) and Oxford Nanopore Technologies have made significant strides in improving their sequencing technologies, yielding reads with error rates below 1% and lengths ranging from kilobases to megabases. These advancements have prompted the development of assembly tools tailored to leverage the enhanced accuracy of long reads. However, the challenge of collapsing haplotypes into high-quality haploid assemblies persists, especially for highly heterozygous genomes. This raises questions about the feasibility and desirability of phased assemblies versus collapsed haploid assemblies. To address these challenges, we benchmarked five assembly tools on ultra-low input PacBio HiFi and Nanopore R10.4 reads from the parthenogenetic nematode species Plectus sambesii. We propose a comprehensive methodology for assessing phased assemblies, repurposing existing evaluation programs to collect haplotype-relevant statistics. Our evaluation criteria include assembly size, contiguity, and completeness, with a focus on assessing the accuracy of phased assemblies by examining duplicated BUSCO orthologs and k -mer spectra. Additionally, we present strategies for generating collapsed assemblies by purging haplotigs. This study provides valuable insights and guidelines for generating high-quality phased and collapsed de novo genome assemblies from highly accurate long reads, particularly beneficial for non-model species genome assembly projects.
Auteurs: Nadège Guiglielmoni, P. H. Schiffer
Dernière mise à jour: 2024-06-17 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2024.06.16.599187
Source PDF: https://www.biorxiv.org/content/10.1101/2024.06.16.599187.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.