Simple Science

La science de pointe expliquée simplement

# Biologie# Bioinformatique

Avancées dans l'assemblage du génome avec l'outil RAFT

RAFT améliore l'assemblage du génome en réduisant les lacunes dans les séquences.

― 7 min lire


Assemblage de génomeAssemblage de génomeréimaginé avec RAFTqualité du séquençage génomique.RAFT réduit les lacunes et améliore la
Table des matières

Construire des modèles précis des génomes humains est un gros boulot en génétique. Les scientifiques galèrent souvent à créer des séquences génomiques complètes, surtout quand il s'agit d'obtenir le tableau complet des deux versions d'un génome de chaque personne. Des travaux récents ont essayé de créer ces séquences complètes, appelées assemblages telomère-à-télomère (T2T), en utilisant des techniques de séquençage avancées. Le défi, c'est de produire des génomes de haute qualité qui montrent clairement les variations entre les deux versions.

Technologies de séquençage

Les technologies de séquençage modernes, comme celles de Pacific Biosciences et Oxford Nanopore, aident les scientifiques à récolter de longs morceaux de code ADN, super importants pour créer ces modèles génomiques précis. Ces techniques fournissent des segments d'ADN plus longs que celles des anciennes méthodes, ce qui facilite le regroupement du génome entier. Plus les morceaux sont longs, mieux c'est pour avoir une image complète sans rater des détails importants.

Processus d'Assemblage du Génome

Assembler un génome à partir de ces lectures implique plusieurs étapes. D'abord, les scientifiques cherchent des chevauchements entre les différents morceaux d'ADN. Ensuite, ils corrigent les erreurs dans les lectures. Après ça, ils construisent un graph qui relie ces lectures en fonction des correspondances. Enfin, ils identifient des chemins à travers ce graph pour recréer la séquence du génome.

Mais, quand il s'agit de simplifier le graph, ça peut devenir compliqué. Certaines lectures peuvent s'insérer complètement dans d'autres, ce qui peut entraîner leur suppression. Ça peut couper involontairement des connexions importantes nécessaires pour former une représentation complète et précise du génome. Du coup, les scientifiques ont identifié ce processus comme un gros souci dans l'assemblage du génome.

Gaps d'Assemblage

Quand des lectures sont supprimées, des gaps peuvent apparaître dans l'assemblage, que les scientifiques appellent gaps d'assemblage. Ces gaps se produisent souvent dans des zones où la variation génétique entre les deux versions d'un génome est faible. Donc, quand une version est couverte par une lecture plus longue, les lectures de l'autre version peuvent être perdues. Ça peut créer des gaps dans la séquence finale, ce qui est problématique pour un assemblage précis.

Solutions Précédentes

Les chercheurs ont proposé plusieurs méthodes pour résoudre le problème des gaps d'assemblage. Certains algorithmes font certaines suppositions sur la longueur des lectures ou la quantité de couverture fournie par le processus de séquençage. Ces approches ne tiennent pas toujours dans le séquençage réel, surtout pour des génomes complexes avec de fortes répétitions.

Certains des outils créés pour récupérer ces lectures importantes fonctionnent dans des cas simples mais échouent dans des scénarios plus compliqués. D'autres dépendent de lectures extrêmement longues pour sauver des données mais ne sont pas toujours disponibles.

Calcul des Gaps d'Assemblage

Comprendre à quelle fréquence les gaps d'assemblage se produisent peut aider les chercheurs à faire de meilleurs choix sur les stratégies de séquençage. En analysant différents setups de séquençage, les scientifiques peuvent estimer la probabilité d'apparition de gaps dans leurs données. Cela peut guider les décisions sur les méthodes de séquençage à utiliser pour des génomes particuliers.

Une méthode développée à cet effet fonctionne en simulant le processus de séquençage et en analysant le résultat. Elle peut aider à prédire où les gaps d'assemblage sont les plus susceptibles de se produire et à identifier les facteurs qui contribuent à ces gaps.

Introduction de RAFT

Pour réduire encore les gaps d'assemblage, un nouvel outil appelé RAFT a été développé. Cet outil raccourcit les longues lectures d'ADN en morceaux de longueur égale, créant une distribution de longueur de lecture plus uniforme. En faisant ça, RAFT vise à éviter la suppression de lectures importantes qui ont déjà causé des gaps d'assemblage.

RAFT évalue l'alignement des lectures et ne supprime que les zones des lectures qui sont très répétitives. L'objectif est de garder les lectures qui aident à relier les régions complexes du génome tout en simplifiant la distribution globale de la longueur des lectures.

Processus RAFT

Dans le flux de travail RAFT, les scientifiques commencent avec de longues lectures vérifiées et des informations d'alignement. Le processus consiste à identifier des portions de lectures qui peuvent être fragmentées tout en conservant celles qui couvrent des zones complexes ou répétitives. Cette double approche assure que les lectures qui pourraient aider à combler des gaps dans le génome restent intactes, tandis que d'autres sont réduites à la taille.

Après que RAFT a traité les lectures, elles sont ensuite transmises à un outil d'assemblage de génome pour créer la représentation finale du génome. Ce flux de travail mis à jour s'est avéré efficace pour réduire les gaps d'assemblage et améliorer la qualité globale du génome.

Tester l'Efficacité de RAFT

Pour évaluer la performance de RAFT, les chercheurs ont mené des expériences en utilisant à la fois des ensembles de données simulées et réelles. Ils ont mesuré le nombre de gaps d'assemblage restant après le traitement avec l'outil RAFT par rapport aux méthodes traditionnelles. Dans les simulations, RAFT a considérablement réduit le nombre de gaps. Lorsqu'il a été testé sur des ensembles de données réelles, RAFT a aussi montré des améliorations dans la continuité du génome assemblé.

Résultats de l'Évaluation

Les résultats de l'évaluation ont indiqué qu'utiliser RAFT en combinaison avec des outils d'assemblage de génome existants mène à un meilleur assemblage qui minimise les gaps. En comparant des ensembles de données générés par des méthodes standards à ceux traités avec RAFT, les chercheurs ont trouvé que la nouvelle méthode produisait des assemblages avec des segments plus longs et moins d'interruptions.

L'efficacité en temps d'exécution de RAFT est aussi à noter. Bien qu'il nécessite un temps de traitement supplémentaire par rapport aux méthodes d'assemblage de base, les bénéfices en termes de qualité d'assemblage en font un ajout précieux aux flux de travail de séquençage de génomes.

Conclusion

L'assemblage des génomes à partir de données de séquençage présente un défi complexe, surtout quand il faut résoudre les variations entre deux séquences haplotypiques. L'introduction de RAFT offre une solution pratique au problème des gaps d'assemblage causés par des suppressions de lectures contenues. En créant des lectures de longueur uniforme et en conservant des segments importants, RAFT améliore la qualité globale de l'assemblage du génome.

En avançant, les progrès continus dans les technologies de séquençage et les méthodes d'assemblage vont probablement contribuer à des modèles encore plus précis d'informations génétiques. Des outils comme CGProb et RAFT sont des étapes dans la bonne direction qui aident les scientifiques à s'attaquer aux limitations actuelles de l'assemblage du génome, menant à des génomes plus robustes et continus.

Source originale

Titre: Telomere-to-telomere assembly by preserving contained reads

Résumé: Automated telomere-to-telomere (T2T) de novo assembly of diploid and polyploid genomes remains a formidable task. A string graph is a commonly used assembly graph representation in the overlap-based algorithms. The string graph formulation employs graph simplification heuristics, which drastically reduce the count of vertices and edges. One of these heuristics involves removing the reads contained in longer reads. However, this procedure is not guaranteed to be safe. In practice, it occasionally introduces gaps in the assembly by removing all reads that cover one or more genome intervals. The factors contributing to such gaps remain poorly understood. In this work, we mathematically derived the frequency of observing a gap near a germline and a somatic heterozygous variant locus. Our analysis shows that (i) an assembly gap due to contained read deletion is an order of magnitude more frequent in Oxford Nanopore reads than PacBio HiFi reads due to differences in their read-length distributions, and (ii) this frequency decreases with an increase in the sequencing depth. Drawing cues from these observations, we addressed the weakness of the string graph formulation by developing the RAFT assembly algorithm. RAFT addresses the issue of contained reads by fragmenting reads and producing a more uniform readlength distribution. The algorithm retains spanned repeats in the reads during the fragmentation. We empirically demonstrate that RAFT significantly reduces the number of gaps using simulated datasets. Using real Oxford Nanopore and PacBio HiFi datasets of the HG002 human genome, we achieved a twofold increase in the contig NG50 and the number of haplotype-resolved T2T contigs compared to Hifiasm.

Auteurs: Chirag Jain, S. S. Kamath, M. Bindra, D. Pal

Dernière mise à jour: 2024-03-12 00:00:00

Langue: English

Source URL: https://www.biorxiv.org/content/10.1101/2023.11.07.565066

Source PDF: https://www.biorxiv.org/content/10.1101/2023.11.07.565066.full.pdf

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires