Les défis de la recherche génétique dans l'ascendance mixte
Explique comment la diversité des origines complique les études génétiques et les méthodes d'analyse.
― 8 min lire
Table des matières
- Le Problème de l’Ascendance Mixte
- Méthodes pour Prendre en Compte la Diversité Ancestrale
- Outils pour l'Inférence Ancestrale
- Adapter la PCA pour l'Analyse Ancestrale
- Le Rôle du Déséquilibre de liaison
- Impact des Choix de Prétraitement
- L'Importance de Modèles Génétiques Précis
- Recommandations pour les Futures Recherches
- Conclusion
- Source originale
- Liens de référence
La recherche génétique regarde comment nos gènes nous relient à nos ancêtres. Beaucoup de gens aujourd’hui ont des origines mélangées, ce qui signifie que leurs gènes viennent de différents horizons. Ce mélange génétique peut affecter les études qui essaient de lier certains gènes à des traits de santé ou des maladies. Quand les chercheurs étudient des populations mélangées, ils font souvent face à des défis parce que leurs origines génétiques peuvent varier énormément. Cet article discute de l'importance de cette variabilité, de comment les chercheurs essaient d’en tenir compte et des méthodes utilisées.
Le Problème de l’Ascendance Mixte
L'ascendance mixte peut mener à des résultats trompeurs dans les études génétiques, surtout dans les études d'association à l'échelle du génome (GWAS). Les GWAS cherchent à trouver des connexions entre des gènes et des traits en examinant un grand nombre de variations génétiques. Quand une population a une ascendance diverse, cela peut brouiller la vraie relation entre gènes et traits. Ça veut dire que les chercheurs peuvent croire à tort que certains gènes sont liés à un trait alors qu'ils ne le sont pas.
Cette confusion survient parce que, dans les populations mélangées, la fréquence d'une variante génétique spécifique peut différer selon le contexte ancestral. Si une étude ne prend pas en compte ces différences, elle pourrait identifier à tort des associations qui n'existent pas réellement. Du coup, les populations mélangées sont souvent sous-représentées dans les études génétiques.
Méthodes pour Prendre en Compte la Diversité Ancestrale
Les chercheurs ont développé diverses stratégies pour gérer la diversité d'ascendance au sein des populations. Une des premières stratégies consistait à se concentrer sur des groupes avec des origines similaires, en limitant l'analyse à ceux qui partagent un même héritage. Une autre approche a impliqué d'ajuster les résultats des tests génétiques grâce à diverses corrections statistiques. Plus récemment, les chercheurs ont utilisé des modèles mixtes pour tenir compte des relations familiales proches et lointaines.
Une des stratégies les plus simples est d'inclure des infos d'ascendance estimées dans l'analyse comme un facteur fixe. Cette approche a pris de l'ampleur car elle peut réduire efficacement les résultats trompeurs dans les études. Les chercheurs déduisent souvent cette ascendance par des méthodes d'analyse qui examinent des similitudes génétiques avec différents groupes ancestraux.
Outils pour l'Inférence Ancestrale
Il existe plusieurs outils pour estimer l’ascendance globale des individus. Ces modèles examinent la probabilité que des variantes génétiques spécifiques apparaissent dans diverses populations ancestrales. En utilisant ces modèles, les chercheurs peuvent estimer la contribution génétique de différents groupes ancestraux au génome d'un individu.
Cependant, ces méthodes peuvent avoir des inconvénients. D'une part, les chercheurs doivent spécifier à l’avance combien de populations ancestrales ils s'attendent à trouver dans les données. De plus, beaucoup de ces méthodes dépendent d’avoir des données de référence de chaque groupe ancestral étudié. Souvent, les analyses se font à un large niveau géographique, comme comparer des populations de différents continents. Ça peut occulter des distinctions plus fines au sein des populations.
L'analyse en composantes principales (PCA) est une autre technique qui est devenue un choix populaire parmi les chercheurs. La PCA est une méthode non supervisée qui ne nécessite pas de données de référence préexistantes. Elle peut capturer des détails plus fins dans la structure de la population, permettant aux chercheurs d'analyser l'ascendance plus précisément.
Adapter la PCA pour l'Analyse Ancestrale
La PCA fonctionne en transformant les données en un nouvel ensemble de variables, connues sous le nom de composantes principales (PCs). Les premières PCs représentent généralement l'ascendance globale, tandis que les suivantes peuvent ne pas avoir de lien clair avec l'ascendance. Les chercheurs peuvent utiliser ces PCs pour mesurer les différences génétiques dans une population et ajuster ces différences dans leurs études.
Lors de l'utilisation de la PCA, les chercheurs doivent décider combien de PCs inclure dans leurs modèles. Cette décision peut être complexe car inclure trop de PCs peut mener à des résultats qui ne représentent pas exactement la composition ancestrale de la population. Choisir le bon nombre de PCs est crucial pour capturer la vraie ascendance génétique sans introduire de résultats trompeurs.
Le Rôle du Déséquilibre de liaison
Un défi avec la PCA est que les PCs peuvent parfois capter des motifs qui ne reflètent pas l'ascendance mais plutôt des caractéristiques génétiques locales influencées par l'héritage des gènes. C'est ce qu'on appelle le déséquilibre de liaison (LD). Quand des variantes génétiques sont héritées ensemble plus souvent que prévu, ça peut créer des associations qui induisent en erreur les chercheurs.
Pour améliorer la précision de la PCA, certains chercheurs recommandent de retirer les SNPS (polymorphismes à un seul nucléotide) qui sont en forte LD les uns avec les autres avant de lancer l'analyse. Cette étape de prétraitement vise à s'assurer que les PCs reflètent la vraie ascendance plutôt que des similitudes génétiques aléatoires. Cependant, exclure simplement des SNPs basés sur des régions de LD élevé n'a pas toujours montré une amélioration de la situation.
Impact des Choix de Prétraitement
Le processus de prétraitement des données génétiques peut influencer fortement les résultats de la PCA. Les décisions sur quels SNPs exclure et comment réaliser le nettoyage du LD peuvent mener à des résultats différents en termes de représentation de l'ascendance globale par les PCs. Par exemple, si les chercheurs excluent trop de variantes, ils risquent de perdre des infos précieuses nécessaires pour capturer correctement la structure de la population.
À l'inverse, inclure trop de variantes sans un bon filtrage peut permettre à des caractéristiques génétiques locales non désirées de façonner les PCs. Ça peut mener à une compréhension trompeuse de l'ascendance au sein de l'échantillon. Donc, équilibrer le nombre de variantes incluses tout en s'assurant d'une représentation précise de l'ascendance est un aspect clé des études génétiques.
L'Importance de Modèles Génétiques Précis
Quand les chercheurs ne tiennent pas compte de la diversité ancestrale, ça peut mener à des associations erronées dans leurs résultats. Par exemple, si les PCs capturent des caractéristiques génétiques locales plutôt que l'ascendance globale, ça peut déformer l'association entre les variantes génétiques et les traits de santé. Les chercheurs ont trouvé qu'inclure ces PCs trompeurs dans des modèles analytiques augmente les taux de faux positifs - identifier incorrectement une association génétique quand aucune connexion réelle n'existe.
Ce problème est particulièrement marqué dans les populations mélangées. Les chercheurs ont montré que les PCs de plus haut ordre, s'ils sont inclus dans les modèles sans validation appropriée, peuvent capter des caractéristiques génomiques locales sans lien avec l'ascendance globale. Quand les PCs captent des signaux de nombreuses régions du génome, ça peut créer un biais de collision, augmentant la probabilité de trouver des associations trompeuses.
Recommandations pour les Futures Recherches
À l'avenir, il est crucial pour les chercheurs étudiant des populations mélangées d'adopter une approche prudente lors de la sélection des PCs pour leurs analyses. Ils devraient prioriser la confirmation que les PCs reflètent vraiment l'ascendance globale et non juste des artefacts génomiques locaux. Cela inclut d'examiner la corrélation entre les PCs et les chargements de SNPs à travers le génome.
De plus, les chercheurs sont encouragés à partager leurs méthodologies de manière transparente. Cela inclut de détailler les étapes de prétraitement effectuées, le nombre de PCs choisis, et la raison de ces choix. Une telle clarté peut aider à reproduire les études et à construire de meilleurs modèles pour comprendre les traits génétiques.
Conclusion
Comprendre l'ascendance est central pour mener des recherches génétiques précises, surtout dans des populations avec des origines génétiques diverses. Avec les bons outils et une prise en compte attentive de l'ascendance, les chercheurs peuvent réduire le risque de résultats trompeurs. Alors que la recherche génétique continue d'évoluer, l'accent devrait rester sur le développement de méthodes qui capturent adéquatement les complexités de l'ascendance mixte, garantissant que les découvertes reposent sur des représentations précises de la diversité génétique. En priorisant ces pratiques, les chercheurs peuvent mieux identifier les véritables liens entre génétique et résultats de santé, profitant finalement à notre compréhension de la génétique humaine.
Titre: Adjusting for principal components can induce spurious associations in genome-wide association studies in admixed populations
Résumé: Principal component analysis (PCA) is widely used to control for population structure in genome-wide association studies (GWAS). Top principal components (PCs) typically reflect population structure, but challenges arise in deciding how many PCs are needed and ensuring that PCs do not capture other artifacts such as regions with atypical linkage disequilibrium (LD). In response to the latter, many groups suggest performing LD pruning or excluding known high LD regions prior to PCA. However, these suggestions are not universally implemented and the implications for GWAS are not fully understood, especially in the context of admixed populations. In this paper, we investigate the impact of pre-processing and the number of PCs included in GWAS models in African American samples from the Womens Womens Health Initiative SNP Health Association Resource and two Trans-Omics for Precision Medicine Whole Genome Sequencing Project contributing studies (Jackson Heart Study and Genetic Epidemiology of Chronic Obstructive Pulmonary Disease Study). In all three samples, we find the first PC is highly correlated with genome-wide ancestry whereas later PCs often capture local genomic features. The pattern of which, and how many, genetic variants are highly correlated with individual PCs differs from what has been observed in prior studies focused on European populations and leads to distinct downstream consequences: adjusting for such PCs yields biased effect size estimates and elevated rates of spurious associations due to the phenomenon of collider bias. Excluding high LD regions identified in previous studies does not resolve these issues. LD pruning proves more effective, but the optimal choice of thresholds varies across datasets. Altogether, our work highlights unique issues that arise when using PCA to control for ancestral heterogeneity in admixed populations and demonstrates the importance of careful pre-processing and diagnostics to ensure that PCs capturing multiple local genomic features are not included in GWAS models. Author SummaryPrincipal component analysis (PCA) is a widely used technique in human genetics research. One of its most frequent applications is in the context of genetic association studies, wherein researchers use PCA to infer, and then adjust for, the genetic ancestry of study participants. Although a powerful approach, prior work has shown that PCA sometimes captures other features or data quality issues, and pre-processing steps have been suggested to address these concerns. However, the utility and downstream implications of this recommended preprocessing are not fully understood, nor are these steps universally implemented. Moreover, the vast majority of prior work in this area was conducted in studies that exclusively included individuals of European ancestry. Here, we revisit this work in the context of admixed populations--populations with diverse, mixed ancestry that have been largely underrepresented in genetics research to date. We demonstrate the unique concerns that can arise in this context and illustrate the detrimental effects that including principal components in genetic association study models can have when not implemented carefully. Altogether, we hope our work serves as a reminder of the care that must be taken--including careful pre-processing, diagnostics, and modeling choices--when implementing PCA in admixed populations and beyond.
Auteurs: Kelsey Grinde, B. L. Browning, A. P. Reiner, T. A. Thornton, S. R. Browning
Dernière mise à jour: 2024-04-03 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2024.04.02.587682
Source PDF: https://www.biorxiv.org/content/10.1101/2024.04.02.587682.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.