Comparer les constructions génomiques : GRCh37 vs. GRCh38
Les chercheurs comparent les constructions de génome GRCh37 et GRCh38, révélant des différences clés dans la détection des variants.
Nicholas K. Wang, Nicholas Wiltsie, Helena K. Winata, Sorel Fitz-Gibbon, Alfredo E. Gonzalez, Nicole Zeltser, Raag Agrawal, Jieun Oh, Jaron Arbet, Yash Patel, Takafumi N. Yamaguchi, Paul C. Boutros
― 7 min lire
Table des matières
Retour en 2001, les scientifiques ont fini de rassembler la première version du génome humain, qui est comme notre mode d'emploi génétique. Depuis, ils ont trouvé et corrigé des milliers d'erreurs, identifié des zones qui varient d'un individu à l'autre, et inclus une plus grande diversité de personnes dans l'étude. Du coup, ils ont créé plusieurs versions mises à jour ou "versions" de ce génome, mais il y a un hic : chacune de ces versions a sa propre façon de numéroter les sections. Pense à ça comme avoir différentes éditions d'un livre, mais chaque édition a ses propres numéros de page.
Bien que ces nouvelles versions soient généralement plus précises, faire adopter tout ça par tout le monde en recherche et en médecine prend du temps. Une des grosses raisons de ce changement lent, c'est que ça coûte de l'argent et du temps de mettre à jour les systèmes informatiques qui gèrent ces données. Quand les chercheurs veulent utiliser les nouvelles versions, ils doivent souvent réaligner toutes leurs données de séquençage, ce qui signifie stocker beaucoup de données brutes et faire des calculs plutôt lourds. Pour gagner du temps et de l'argent, les scientifiques ont créé des outils pour changer ou "transférer" les coordonnées génomiques d'une version à une autre, un peu comme convertir une recette des unités métriques aux unités impériales.
Cependant, ces outils pratiques étaient principalement conçus pour gérer des morceaux de génome qui sont plus grands que des mutations individuelles. Quand ils sont utilisés pour déplacer des variantes uniques d'une version à une autre, des erreurs peuvent survenir, et ce n'est pas toujours clair quels types de problèmes ces erreurs provoquent, surtout pour des changements complexes dans nos gènes.
Le Grand Duel des Variantes : GRCh37 vs. GRCh38
Pour régler ça, les chercheurs ont décidé de comparer deux des versions de génome les plus populaires : GRCh37 et GRCh38. Ils ont analysé l'ADN de 50 paires de tumeurs et tissus normaux, en utilisant les mêmes outils et processus. En alignant les données de séquençage sur les deux versions, ils pouvaient voir quelles variantes étaient détectées sur chacune d'elles. Ensuite, ils ont converti les variantes trouvées dans GRCh37 en GRCh38 et les ont comparées.
Ils se sont penchés sur quatre types de changements génétiques : les variations classiques de nucléotides simples, les Variantes structurelles, les variantes de nucléotides simples somatiques qui apparaissent seulement dans les tissus tumoraux, et les variantes structurelles somatiques.
Ce qu'ils ont trouvé : Variantes Germinales vs. Somatiques
Quand ils ont compté les résultats, la plupart des changements génétiques réguliers trouvés étaient similaires entre les deux versions, avec plus de 93 % de chevauchement. Cependant, ils ont quand même découvert environ 166 700 variations spécifiques dans GRCh37 qui n'apparaissaient pas dans GRCh38. Pour les variations structurelles, les chiffres étaient plus bas, avec environ 900 changements uniques par individu. Analyser des données alignées sur GRCh38 montrait que les chercheurs identifiaient plus de ces variantes que dans GRCh37.
Pour les variantes somatiques, les choses se sont compliquées. Seulement environ 82 % des variantes de nucléotides simples et 53 % des variantes structurelles apparaissaient dans les deux versions, ce qui a entraîné pas mal de divergences. En moyenne, les chercheurs ont trouvé plus de 3 600 variantes somatiques uniques dans GRCh37 qui ne pouvaient pas être mises en correspondance avec GRCh38, tandis que GRCh38 révélait plus de ces changements dans l'ensemble.
Le Mystère de la Discordance
Pour aller plus loin, les chercheurs ont calculé à quelle fréquence les appels génétiques de chaque version étaient en désaccord. Ils ont examiné trois mesures différentes de précision et ont constaté que les désaccords pour les variantes génétiques régulières étaient beaucoup plus faibles que pour les somatiques. Par exemple, seulement environ 3,8 % des variantes de nucléotides simples régulières montraient un désaccord, tandis que le taux de désaccord pour les variantes de nucléotides simples somatiques s'élevait à presque 26 %.
Cette prétendue discordance suggère que si les chercheurs s'en tiennent à GRCh37 pour leur analyse, ils pourraient manquer des mutations somatiques cruciales, un peu comme essayer de trouver Waldo dans la mauvaise édition de "Où est Waldo ?" Les chercheurs ont aussi noté que différents types de variantes structurelles avaient des niveaux de désaccord variés. Par exemple, les suppressions et les insertions étaient souvent en accord, tandis que les duplications causaient de la confusion.
Variabilité dans le Génome
Les chercheurs ont aussi vérifié si les désaccords étaient espacés de manière aléatoire dans le génome. Ils ont découvert que certaines zones étaient définitivement plus problématiques que d'autres. Une section du génome, en particulier, avait beaucoup de variabilité, avec 16 784 changements génétiques mais aussi un taux de désaccord élevé.
D'autres facteurs ont ajouté à la complexité de la compréhension de ces résultats. Par exemple, les divergences dans les variantes de nucléotides simples somatiques avaient tendance à être liées à des scores de qualité plus bas mais à un contenu en GC plus élevé. Les chercheurs ont aussi remarqué que le niveau de couverture, qui indique combien de fois une partie donnée du génome a été séquencée, influençait ces désaccords.
Validation
Faux Positifs etLa plupart des différences détectées pourraient probablement s'expliquer par des erreurs dans les processus de détection des variantes. En utilisant le séquençage profond ciblé, les chercheurs ont tenté de valider leurs découvertes. Ils ont découvert que les variantes confirmées comme étant précises avaient un taux de validation de plus de 93 %. Cependant, ils ont constaté que beaucoup des variantes uniques de chaque version étaient plus susceptibles d'être des faux positifs, avec environ 34,6 % des variantes spécifiques à GRCh37 et 51,3 % des variantes spécifiques à GRCh38 étant validées.
Présentation de StableLift : Un Nouvel Outil
À la lumière de toutes ces découvertes, les scientifiques ont introduit un nouvel outil appelé StableLift. Cette approche d'apprentissage machine utilise plein de caractéristiques de données pour calculer la probabilité qu'une variante donnée apparaisse à travers différentes versions de génome. Les chercheurs ont entraîné StableLift sur des données des mêmes 50 paires tumeur-normale puis l'ont validé sur d'autres ensembles de données.
StableLift a bien performé, surtout avec les variantes de nucléotides simples régulières, montrant un haut niveau de précision. Il a pu écarter beaucoup des appels de variantes problématiques, rendant les analyses plus nettes et fiables. Les chercheurs ont aussi appliqué StableLift aux variantes structurelles et ont trouvé des résultats tout aussi impressionnants.
Conclusion : Un Appel à la Prudence
Cette étude éclaire des points importants sur la façon dont les chercheurs gèrent les données à travers différentes versions de génome. Bien qu'il soit plus facile d'utiliser la dernière version de génome, beaucoup utilisent encore l'ancienne GRCh37, ce qui peut parfois mener à des conclusions trompeuses.
À mesure que le domaine génétique continue d'évoluer, en passant de références de génome linéaires à des modèles plus complexes, gérer les divergences deviendra encore plus crucial. Avec des outils comme StableLift, les chercheurs peuvent mieux naviguer dans ces défis, réduisant les erreurs et comprenant mieux les variations génétiques dans notre mode d'emploi biologique.
Alors, la prochaine fois que quelqu'un mentionne le génome humain, souviens-toi : c'est beaucoup comme cuisiner. Tu as besoin de la bonne recette, des bons ingrédients, et parfois, tu dois savoir quelle édition du livre de recettes tu utilises !
Titre: StableLift: Optimized Germline and Somatic Variant Detection Across Genome Builds
Résumé: Reference genomes are foundational to modern genomics. Our growing understanding of genome structure leads to continual improvements in reference genomes and new genome "builds" with incompatible coordinate systems. We quantified the impact of genome build on germline and somatic variant calling by analyzing tumour-normal whole-genome pairs against the two most widely used human genome builds. The average individual had a build-discordance of 3.8% for germline SNPs, 8.6% for germline SVs, 25.9% for somatic SNVs and 49.6% for somatic SVs. Build-discordant variants are not simply false-positives: 47% were verified by targeted resequencing. Build-discordant variants were associated with specific genomic and technical features in variant- and algorithm-specific patterns. We leveraged these patterns to create StableLift, an algorithm that predicts cross-build stability with AUROCs of 0.934 {+/-} 0.029. These results call for significant caution in cross-build analyses and for use of StableLift as a computationally efficient solution to mitigate inter-build artifacts.
Auteurs: Nicholas K. Wang, Nicholas Wiltsie, Helena K. Winata, Sorel Fitz-Gibbon, Alfredo E. Gonzalez, Nicole Zeltser, Raag Agrawal, Jieun Oh, Jaron Arbet, Yash Patel, Takafumi N. Yamaguchi, Paul C. Boutros
Dernière mise à jour: 2024-11-03 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2024.10.31.621401
Source PDF: https://www.biorxiv.org/content/10.1101/2024.10.31.621401.full.pdf
Licence: https://creativecommons.org/licenses/by-nc/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.