Comprendre la variation du nombre de copies dans les génomes humains
Une étude révèle des variations de copies de gènes et leurs impacts sur la santé.
― 9 min lire
Table des matières
Les génomes humains montrent souvent des changements dans le nombre de copies de certains gènes. Ces changements peuvent se produire de deux manières principales : des duplications, où des copies supplémentaires d’un gène sont créées, et des suppressions, où des copies sont perdues. Ensemble, ces changements sont appelés Variation du nombre de copies (VNC). Jusqu'à 10 % des gènes codant des protéines dans le génome humain peuvent varier en nombre de copies. Cette variation peut différer d'une population à l'autre et peut affecter divers traits, comme l'indice de masse corporelle, et des maladies comme le cancer et les problèmes cardiaques.
Bien que les VNC soient dispersées à travers le génome, certaines zones avec des séquences répétées, appelées duplications segmentaires, sont plus susceptibles de contribuer à ces variations. Ces changements fréquents dans les Copies de gènes donnent lieu à différentes familles ou groupes de gènes apparentés. Les processus qui causent des VNC peuvent également augmenter le risque de mutations dans ces zones de gènes. Cela peut entraîner des différences dans le fonctionnement des gènes, ce qui peut affecter la santé d'une personne ou son risque de développer certaines maladies, comme l'hypertension ou le diabète de type 2. Fait remarquable, beaucoup des gènes qui montrent des VNC sont spécifiques aux humains et sont étroitement liés aux fonctions cérébrales.
Cependant, il y a encore peu d'infos sur les variations des duplications de gènes qui ne correspondent pas à la référence standard, surtout en utilisant des méthodes de séquençage spécifiques qui analysent l'ADN. La plupart des outils actuels utilisés pour identifier les VNC se concentrent principalement sur le comptage du nombre de copies, plutôt que d'examiner les réelles différences génétiques. En plus, aligner les données séquencées sur un génome de référence peut introduire des erreurs et des biais.
Les avancées récentes dans la technologie de séquençage qui capture des molécules individuelles d’ADN ont permis de créer des catalogues détaillés de séquences de gènes provenant de populations diverses. Ces nouvelles méthodes aident à mieux identifier les VNC, mais cela peut encore être difficile en raison de la complexité des infos génétiques, surtout alors que les différentes populations évoluent au fil du temps.
Pour surmonter ces défis, une nouvelle méthode appelée ctyper a été développée. Cette méthode aide à analyser le nombre de copies de gènes en utilisant une grande base de données de séquences de gènes provenant de divers projets de génomes. En faisant cela, ctyper évite les biais qui viennent souvent d'une comparaison à un seul génome de référence et peut révéler des différences qui pourraient être manquées dans d'autres analyses. Grâce à ctyper, les chercheurs peuvent désormais étudier de grands ensembles de données génétiques plus efficacement, ce qui est particulièrement utile pour les biobanques qui collectent des infos génétiques d'énormes populations.
Allèles de Pangenome : Une Nouvelle Façon de Catégoriser les Gènes
En s'attaquant aux gènes qui montrent des VNC, les chercheurs ont travaillé pour les classer en groupes appelés allèles de pangenome. Cela implique d'examiner diverses séquences de gènes à travers différents individus et d'identifier des traits partagés. Avec l'aide de différentes assemblées de génomes, ces séquences sont organisées en allèles de pangenome (AP), qui représentent des segments de gènes contenant des variations. Chaque AP peut inclure le gène complet et ses éléments proches ou pourrait être des morceaux plus petits qui ont moins de chances de changer à cause de la recombinaison.
Dans le processus de création d'une base de données pour ces AP, les chercheurs en ont identifié des milliers. Les longueurs de ces AP peuvent varier, mais la plupart sont composées de gènes complets. Les chercheurs analysent ensuite ces AP pour voir comment ils diffèrent au sein et entre les catégories de gènes, ce qui aide à comprendre comment ces variations pourraient affecter la santé d’un individu.
Pour analyser des échantillons génétiques, ctyper compte les parties uniques de ces AP dans l'échantillon d'ADN et estime ensuite combien de copies et de variations sont présentes. Cette approche offre une méthode sophistiquée pour génotyper des gènes liés à certains traits ou maladies, permettant une représentation plus claire de la composition génétique d'un individu.
Comment Ctyper Fonctionne
Utiliser ctyper implique plusieurs étapes. Tout d'abord, les chercheurs rassemblent des infos génétiques provenant de grandes bases de données qui comprennent un large éventail d'assemblages de gènes. En comparant ces données, ils peuvent identifier des motifs dans les nombres de copies de gènes. La méthode ctyper traite ces informations pour générer une carte détaillée des copies de gènes présentes dans un échantillon donné.
Pour garantir la précision, ctyper a été testé sur divers ensembles de données, y compris le Projet des 1000 Génomes, qui comprend des données provenant de milliers d’individus. La méthode se concentre sur le contrôle de l'équilibre des copies de gènes et les compare à des séquences connues. Ce processus aide également à réduire les erreurs qui pourraient survenir pendant le traitement des données, surtout dans les régions du génome où les séquences de gènes sont répétées.
Dans des tests pratiques, ctyper a montré une grande précision. De nombreux génotypes correspondaient étroitement aux données génétiques existantes, prouvant qu'il peut identifier efficacement les variations dans les copies de gènes. L'approche permet aussi aux chercheurs d'analyser de grandes collections de données dans un délai raisonnable, ce qui la rend adaptée à la recherche axée sur la santé et la maladie.
Tendances et Diversité des Populations dans les Variations Génétiques
Quand on étudie comment ces variations génétiques apparaissent dans différentes populations, les chercheurs ont utilisé des techniques comme l'analyse en composantes principales (ACP). Cette analyse aide à visualiser comment différentes populations sont génétiquement liées en fonction de leurs nombres de copies de gènes. Elle montre souvent des clusters qui s'alignent avec des origines géographiques ou ethniques, indiquant comment des facteurs historiques et environnementaux façonnent la diversité génétique.
Les données ont révélé que certaines populations, surtout en Afrique, tendent à avoir un plus grand nombre de copies de gènes, ce qui peut être lié à des préférences alimentaires historiques ou d'autres facteurs de mode de vie. Par exemple, les variations des gènes associés à l’amylase, une enzyme liée à la digestion des glucides, se révèlent significativement différentes parmi les groupes.
Expression génétique et l’Impact
Perspectives sur l’Regarder au-delà des simples nombres de copies, comprendre comment ces variations influencent l'expression des gènes est essentiel. L'expression des gènes peut changer en fonction du nombre de copies présentes, et les variantes spécifiques peuvent avoir différents effets. Par exemple, des études ont montré que certaines copies de gènes peuvent entraîner des niveaux d'expression plus élevés, tandis que d'autres pourraient réduire la fonction.
La recherche s’est concentrée sur des gènes spécifiques, comme les gènes SMN, qui sont importants dans certaines maladies comme l'atrophie musculaire spinale. En analysant les niveaux d'expression par rapport aux nombres de copies de gènes, les scientifiques peuvent identifier quelles variations de gènes pourraient conduire à une susceptibilité ou à une résistance à la maladie.
De même, l’analyse du gène de l’amylase a montré que son expression peut être affectée par la présence de gènes voisins. Cette découverte peut aider à expliquer pourquoi certaines populations pourraient traiter les glucides différemment et cela peut mener à des avantages nutritionnels dans des environnements spécifiques.
Défis et Orientations Futures
Bien que des avancées significatives aient été réalisées dans la compréhension des VNC grâce à ctyper, il reste des défis à surmonter. D'abord, des méthodes supplémentaires sont nécessaires pour soutenir pleinement la détection de variations très petites. Les outils actuels ne fournissent également pas de scores de confiance pour les nombres de copies de gènes identifiés, laissant quelques questions sur l'exactitude sans réponse.
La complexité de l'analyse de données génétiques de haute dimension peut également entraver l'interprétation. À mesure que de nouveaux génomes de référence de haute qualité deviennent disponibles, l'utilisation de méthodes comme ctyper deviendra probablement de plus en plus précieuse pour les chercheurs cherchant à relier les variations génétiques aux traits et aux conditions.
En résumé, comprendre la variation du nombre de copies est crucial en génétique, car cela joue un rôle significatif dans la santé humaine et les maladies. Avec les avancées dans les technologies de séquençage et de nouvelles méthodes comme ctyper, les chercheurs sont mieux équipés pour analyser les détails complexes de la façon dont ces variations influencent les traits individuels à travers différentes populations. Ces recherches en cours promettent d'accroître notre compréhension de la génétique et de son impact sur la santé.
Titre: Genotyping sequence-resolved copy-number variation using pangenomes reveals paralog-specific global diversity and expression divergence of duplicated genes
Résumé: Copy-number variable (CNV) genes are important in evolution and disease, yet sequence variation in CNV genes is a blindspot for large-scale studies. We present a method, ctyper, that leverages pangenomes to produce copy-number maps with allele-specific sequences containing locally phased variants of CNV genes from NGS reads. We extensively characterized accuracy and efficiency on a database of 3,351 CNV genes including HLA, SMN, and CYP2D6 as well as 212 non-CNV medically-relevant challenging genes. The genotypes capture 96.5% of underlying variants in new genomes, requiring 0.9 seconds per gene. Expression analysis of ctyper genotypes explains more variance than known eQTL variants. Comparing allele-specific expression quantified divergent expression on 7.94% of paralogs and tissue-specific biases on 4.7% of paralogs. We found reduced expression of SMN-1 converted from SMN-2, which potentially affects diagnosis of spinal muscular atrophy, and increased expression of a duplicative translocation of AMY2B. Overall, ctyper enables biobank-scale genotyping of CNV and challenging genes.
Auteurs: Mark Chaisson, W. Ma
Dernière mise à jour: 2024-10-24 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2024.08.11.607269
Source PDF: https://www.biorxiv.org/content/10.1101/2024.08.11.607269.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.