Graphasing : Faire avancer l'analyse des haplotypes ADN
Une nouvelle méthode améliore l'étude des haplotypes d'ADN pour de meilleures découvertes génétiques.
― 8 min lire
Table des matières
- Différentes approches du phasage
- Introduction du Graphasing
- Comment se fait le Graphasing ?
- Évaluation de la performance du Graphasing
- Comparaison des différentes méthodes de phasage
- Évaluation de la précision du phasage
- Qualité structurelle et complétude
- Scalabilité et qualité d'entrée
- Métriques de performance
- Conclusion
- Source originale
- Liens de référence
Beaucoup d'organismes vivants, comme les humains, ont deux copies de leur ADN, une de chaque parent. Chaque version de cet ADN s'appelle un haplotype. Pour étudier complètement l'ADN d'un organisme, les chercheurs doivent comprendre comment ces deux copies diffèrent. Ce processus s'appelle le Phasage.
Quand les scientifiques examinent l'ADN pour étudier des maladies ou comment les espèces changent au fil du temps, connaître les détails des Haplotypes les aide à voir des motifs. Certains gènes importants montrent des différences selon l'haplotype sur lequel ils se trouvent, ce qui signifie que le même gène peut se comporter différemment selon son origine.
Créer une image complète de l'ADN qui montre clairement ces haplotypes est un travail important mais difficile. La technologie de Séquençage de l'ADN utilisée influence comment les chercheurs peuvent distinguer les deux copies d'ADN. Des longueurs de lecture plus longues des machines de séquençage permettent aux scientifiques de mieux relier les morceaux d'ADN, mais ils font toujours face à des défis, surtout quand les séquences d'ADN se répètent ou contiennent des erreurs.
Récemment, de nouvelles technologies ont amélioré la longueur des séquences d'ADN lues par les machines. Certaines peuvent lire plus de 100 000 bases d'ADN à la fois. Cependant, ces longueurs ne garantissent toujours pas une vue complète des deux haplotypes. D'autres étapes et données sont nécessaires pour créer une image complète.
Différentes approches du phasage
En utilisant des séquences d'ADN plus courtes, les chercheurs alignent souvent les séquences à un génome de référence, qui est comme une carte de l'ADN. Des outils comme WhatsHap et HapCut2 aident à attribuer les différences au bon haplotype. Mais cette méthode peut rencontrer des difficultés quand l'ADN est très similaire ou se répète souvent.
Pour éviter des problèmes, certains chercheurs créent une nouvelle référence à partir des données non phasées. Cette méthode aide à éliminer certaines erreurs qui surviennent lors de l'alignement avec un génome de référence classique. Des outils comme PGAS et DipASM utilisent cette approche, ce qui peut créer des haplotypes plus précis en ajoutant des données de différentes techniques.
Une autre approche utilise l'ADN des parents pour identifier plus facilement les différences. Dans cette méthode, les scientifiques associent directement les segments d'ADN appartenant à chaque parent. Bien que cette méthode soit puissante, elle nécessite des ressources supplémentaires, car trois échantillons doivent être séquencés, ce qui peut coûter cher.
Plutôt que de trier les lectures d'ADN avant de les analyser, certains chercheurs ont commencé à travailler directement avec la structure de l'assemblage. Cette méthode utilise à la fois les informations de séquence d'ADN et des signaux supplémentaires pour produire des haplotypes. Divers outils, y compris les nouvelles machines de lecture longue, peuvent intégrer des données de différentes sources pour fournir de meilleurs résultats.
Introduction du Graphasing
Le Graphasing est une méthode nouvelle qui aide à phaser et organiser les haplotypes humains en utilisant un échantillon d'ADN. Cette méthode combine des données d'un type spécifique de séquençage, appelé Strand-seq, pour s'aligner correctement avec le processus d'assemblage. Elle garantit que les chercheurs peuvent séparer avec précision les haplotypes et créer des séquences d'ADN complètes.
Le processus commence par l'alignement des lectures de Strand-seq avec l'assemblage, qui est une collection de segments d'ADN. Ensuite, il regroupe ces segments par chromosome, corrige les confusions d'orientation et regroupe les lectures les plus utiles pour améliorer la clarté de l'assemblage. Enfin, il passe les haplotypes à travers le graphe organisé pour phaser et structurer l'ensemble de la séquence.
Comment se fait le Graphasing ?
Le Graphasing fonctionne en suivant quelques étapes principales :
- Alignement des lectures : Il commence par aligner les lectures des bibliothèques Strand-seq avec les unités d'assemblage.
- Regroupement des unitigs : Ensuite, il regroupe ces unités par chromosome pour rassembler des segments similaires.
- Correction d'orientation : Tout segment qui est inversé ou mal orienté est corrigé.
- Regroupement des lectures : Les lectures pertinentes sont regroupées pour fournir des informations plus claires sur les haplotypes.
- Filtrage des haplotypes : La dernière étape consiste à passer les haplotypes à travers le graphe d'assemblage ombragé pour produire des appels précis et organiser l'ADN.
Évaluation de la performance du Graphasing
L'efficacité du Graphasing est comparée à d'autres méthodes qui utilisent des données familiales ou différentes techniques de séquençage. Les chercheurs ont construit des assemblages pour deux génomes humains spécifiques, en comparant comment les haplotypes ont été créés en utilisant le Graphasing par rapport à d'autres méthodes.
La performance de chaque méthode est évaluée en fonction de la complétude et de la continuité des séquences résultantes, mesurées par des valeurs comme N50 et auN. Ces valeurs indiquent combien d'ADN est organisé et connecté en un seul morceau.
Les résultats ont montré que toutes les méthodes produisaient des haplotypes solides, mais le Graphasing générait des séquences qui étaient tout aussi bonnes, sinon meilleures, que les méthodes basées sur des trios.
Comparaison des différentes méthodes de phasage
L'étude a impliqué la comparaison des résultats de diverses méthodes de phasage pour voir comment elles se comportaient. Lorsqu'évalué par rapport à des assemblages de référence de haute qualité, la méthode Graphasing semblait produire des séquences avec des niveaux de complétude similaires.
Lorsque les chercheurs ont examiné de près comment le Graphasing fonctionnait avec seulement un petit nombre d'entrées de haute qualité, ils ont constaté que même si une partie de la qualité d'entrée était inférieure, les résultats restaient solides. Cela indique que le Graphasing peut gérer efficacement différentes qualités d'entrée.
Évaluation de la précision du phasage
La précision du phasage a été évaluée à l'aide d'outils qui mesurent à quel point les haplotypes construits correspondent aux séquences d'ADN attendues. Les résultats ont montré que le Graphasing a bien performé, produisant des haplotypes avec des taux d'erreur très faibles par rapport à d'autres méthodes.
Grâce à une analyse graphique, les chercheurs pouvaient également voir à quel point les haplotypes construits correspondaient aux motifs parentaux attendus. Moins il y avait de confusion entre les segments d'ADN parentaux, meilleure était la précision du phasage.
Qualité structurelle et complétude
Une autre évaluation des assemblages a été faite en regardant combien de gènes étaient couverts et s'il y avait des erreurs structurelles. Les chercheurs ont trouvé que la plupart des méthodes de phasage obtenaient des assemblages de haute qualité avec peu de problèmes structurels.
La présence de gènes manquants a été évaluée, révélant que les assemblages NA24385 ont extrêmement bien capturé la complétude des gènes. Les résultats globaux suggèrent que la méthode Graphasing se distingue par la fourniture d'haplotypes complets avec peu de composants manquants.
Scalabilité et qualité d'entrée
Une caractéristique importante du Graphasing est sa capacité à rester efficace avec des qualités d'entrée variables. Lorsque les chercheurs ont créé des ensembles de bibliothèques Strand-seq qui mélangeaient des échantillons de haute et de basse qualité, ils ont découvert qu même avec des entrées de moindre qualité, le Graphasing avait un bon accord avec les séquences de référence.
Cette flexibilité rend le Graphasing utile pour les chercheurs qui n'ont pas toujours accès à des données de séquençage de haute qualité. Ça encourage des applications plus larges dans différents contextes de recherche sans avoir besoin de ressources extensives.
Métriques de performance
Les chercheurs ont également évalué combien de temps le processus de Graphasing prenait et combien de mémoire il nécessitait pendant l'assemblage. Le temps d'exécution global et l'utilisation de la mémoire étaient jugés raisonnables par rapport à d'autres méthodes d'assemblage.
En utilisant un profilage soigné, la méthode Graphasing a montré un équilibre entre performance et utilisation des ressources, ce qui en fait un choix attrayant pour des études plus larges impliquant l'assemblage du génome.
Conclusion
Le Graphasing représente une avancée importante dans le domaine de l'assemblage de génomes, surtout pour les organismes diploïdes. Avec un accent croissant sur la compréhension des variations génétiques au sein des populations et des maladies, avoir une méthode fiable pour générer des haplotypes précis jouera un rôle crucial dans la recherche future.
Le design modulaire du Graphasing permet de l'adapter à différents flux de travail d'assemblage, améliorant son utilisation. En fournissant à la fois des génomes phasés et des annotations, il ouvre la voie à des analyses supplémentaires, aidant à clarifier les relations et variations génétiques complexes.
À mesure que les technologies de séquençage continuent de progresser, des méthodes comme le Graphasing seront essentielles pour suivre ces changements, garantissant que les chercheurs peuvent explorer des paysages génétiques complexes avec plus de précision et d'efficacité.
Titre: Phasing Diploid Genome Assembly Graphs with Single-Cell Strand Sequencing
Résumé: Haplotype information is crucial for biomedical and population genetics research. However, current strategies to produce de-novo haplotype-resolved assemblies often require either difficult-to-acquire parental data or an intermediate haplotype-collapsed assembly. Here, we present Graphasing, a workflow which synthesizes the global phase signal of Strand-seq with assembly graph topology to produce chromosome-scale de-novo haplotypes for diploid genomes. Graphasing readily integrates with any assembly workflow that both outputs an assembly graph and has a haplotype assembly mode. Graphasing performs comparably to trio-phasing in contiguity, phasing accuracy, and assembly quality, outperforms Hi-C in phasing accuracy, and generates human assemblies with over 18 chromosome-spanning haplotypes.
Auteurs: Peter Ebert, M. Henglin, M. Ghareghani, W. Harvey, D. Porubsky, S. Koren, E. E. Eichler, T. Marschall
Dernière mise à jour: 2024-06-20 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2024.02.15.580432
Source PDF: https://www.biorxiv.org/content/10.1101/2024.02.15.580432.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.