Os Desafios da Pesquisa Genética em Ancestrais Mistos
Explora como a ancestralidade mista complica os estudos genéticos e os métodos de análise.
― 8 min ler
Índice
- O Problema da Ancestralidade Mista
- Métodos para Lidar com a Diversidade Ancestral
- Ferramentas para Inferência de Ancestralidade
- Adaptando o PCA para Análise Ancestral
- O Papel do Desequilíbrio de Ligação
- Impacto das Escolhas de Pré-processamento
- A Importância de Modelos Genéticos Precisos
- Recomendações para Pesquisas Futuras
- Conclusão
- Fonte original
- Ligações de referência
A pesquisa genética olha pra como nossos genes nos conectam aos nossos ancestrais. Muita gente hoje tem uma ancestralidade mista, o que significa que seus genes vêm de diferentes origens. Essa mistura genética pode impactar estudos que tentam ligar certos genes a características de saúde ou doenças. Quando os pesquisadores estudam populações admistas, eles geralmente enfrentam desafios porque as origens genéticas podem variar bastante. Este artigo fala sobre por que essa variabilidade é importante, como os pesquisadores tentam levar isso em conta e quais métodos são usados.
O Problema da Ancestralidade Mista
Ancestralidade mista pode levar a resultados enganosos em estudos genéticos, especialmente em estudos de associação genômica ampla (GWAS). Os GWAS têm como objetivo encontrar conexões entre genes e características examinando um grande número de variações genéticas em genomas. Quando uma população tem ancestralidade diversa, isso pode confundir a verdadeira relação entre genes e características. Isso significa que os pesquisadores podem acreditar erroneamente que certos genes estão ligados a uma característica quando na verdade não estão.
Essa confusão acontece porque, em populações admistas, a frequência de uma variante genética específica pode ser diferente dependendo da origem ancestral. Se um estudo não considera essas diferenças, pode acabar identificando associações que na verdade nem existem. Por causa disso, populações admistas geralmente têm sido sub-representadas em estudos genéticos.
Métodos para Lidar com a Diversidade Ancestral
Os pesquisadores desenvolveram várias estratégias para lidar com a diversidade de ancestralidade nas populações. Uma das primeiras estratégias envolvia se concentrar em grupos com ancestrais semelhantes, limitando a análise àqueles que compartilham um fundo comum. Outra abordagem envolveu ajustar os resultados de testes genéticos usando diversas correções estatísticas. Mais recentemente, os pesquisadores têm usado modelos mistos para levar em conta tanto relações familiares próximas quanto distantes.
Uma das estratégias mais simples é incluir informações estimadas de ancestralidade na análise como um fator fixo. Esse ajuste ganhou popularidade porque pode reduzir efetivamente resultados enganosos nos estudos. Os pesquisadores costumam inferir essa ancestralidade através de métodos de análise que observam semelhanças genéticas com diferentes grupos ancestrais.
Ferramentas para Inferência de Ancestralidade
Existem várias ferramentas disponíveis para estimar a ancestralidade global em indivíduos. Esses modelos analisam a probabilidade de variantes genéticas específicas aparecerem em várias populações ancestrais. Usando esses modelos, os pesquisadores conseguem estimar a contribuição genética de diferentes grupos ancestrais para o genoma de um indivíduo.
No entanto, esses métodos podem ter algumas desvantagens. Por um lado, os pesquisadores precisam especificar antes quantas populações ancestrais esperam encontrar nos dados. Além disso, muitos desses métodos dependem de ter dados de referência de cada grupo ancestral que está sendo estudado. Muitas vezes, as análises são feitas em um nível geográfico amplo, como comparar populações de diferentes continentes. Isso pode ignorar distinções mais finas dentro das populações.
A análise de componentes principais (PCA) é outra técnica que se tornou uma escolha popular entre os pesquisadores. PCA é um método não supervisionado que não requer dados de referência pré-existentes. Ele pode capturar detalhes mais sutis na estrutura populacional, permitindo que os pesquisadores analisem a ancestralidade de forma mais precisa.
Adaptando o PCA para Análise Ancestral
O PCA funciona transformando os dados em um novo conjunto de variáveis, conhecidas como componentes principais (PCs). Os primeiros PCs geralmente representam a ancestralidade geral, enquanto os posteriores podem não ter uma conexão clara com a ancestralidade. Os pesquisadores podem usar esses PCs para medir as diferenças genéticas em uma população e ajustar para essas diferenças em seus estudos.
Ao usar o PCA, os pesquisadores precisam escolher quantos PCs incluir em seus modelos. Essa decisão pode ser complexa, porque incluir muitos PCs pode levar a resultados que não representam com precisão a composição ancestral da população. Escolher o número certo de PCs é crucial para capturar a verdadeira ancestralidade genética sem introduzir resultados enganosos.
O Papel do Desequilíbrio de Ligação
Um desafio com o PCA é que os PCs às vezes podem capturar padrões que não refletem a ancestralidade, mas sim características genéticas locais que foram influenciadas por como os genes são herdados. Isso é conhecido como desequilíbrio de ligação (LD). Quando variantes genéticas são herdadas juntas mais frequentemente do que se esperava, pode criar associações que enganam os pesquisadores.
Para melhorar a precisão do PCA, alguns pesquisadores recomendam remover SNPS (polimorfismos de nucleotídeo único) que estão em alto LD uns com os outros antes de rodar a análise. Esse passo de pré-processamento visa garantir que os PCs reflitam a verdadeira ancestralidade, em vez de semelhanças genéticas aleatórias. No entanto, simplesmente excluir SNPs com base em regiões conhecidas de alto LD não tem mostrado consistentemente resolver o problema.
Impacto das Escolhas de Pré-processamento
O processo de pré-processamento de dados genéticos pode influenciar bastante os resultados do PCA. Decisões sobre quais SNPs excluir e como realizar a poda de LD podem levar a diferentes resultados em termos de quão bem os PCs representam a ancestralidade global. Por exemplo, se os pesquisadores excluírem muitas variantes, podem acabar perdendo informações valiosas que são necessárias para capturar a estrutura populacional com precisão.
Por outro lado, incluir muitas variantes sem uma filtragem adequada pode permitir que características genéticas locais indesejadas moldem os PCs. Isso pode levar a uma compreensão enganosa da ancestralidade dentro da amostra. Assim, equilibrar o número de variantes incluídas enquanto garante uma representação precisa da ancestralidade é um aspecto crucial dos estudos genéticos.
A Importância de Modelos Genéticos Precisos
Quando os pesquisadores não levam em conta a diversidade ancestral, isso pode levar a associações espúrias em seus resultados. Por exemplo, se os PCs capturam características genéticas locais em vez da ancestralidade global, isso pode distorcer a associação entre variantes genéticas e características de saúde. Os pesquisadores descobriram que incluir esses PCs enganosos em modelos analíticos leva a taxas inflacionadas de falsos positivos-identificando incorretamente uma associação genética quando nenhuma conexão real existe.
Esse problema é especialmente significativo em populações admistas. Os pesquisadores mostraram que PCs de ordem superior, se incluídos em modelos sem validação apropriada, podem capturar características genômicas locais não relacionadas à ancestralidade geral. Quando os PCs capturam sinais de muitas regiões do genoma, isso pode criar um viés de colisor, que aumenta a probabilidade de encontrar associações espúrias.
Recomendações para Pesquisas Futuras
Seguindo em frente, é crucial que os pesquisadores que estudam populações admistas adotem uma abordagem cuidadosa ao selecionar PCs para suas análises. Eles devem priorizar a confirmação de que os PCs realmente refletem a ancestralidade global e não apenas artefatos genômicos locais. Isso inclui examinar a correlação entre PCs e cargas de SNPs em todo o genoma.
Além disso, os pesquisadores são encorajados a compartilhar suas metodologias de forma transparente. Isso inclui detalhar os passos de pré-processamento realizados, o número de PCs escolhidos e a razão por trás dessas escolhas. Tal clareza pode ajudar na replicação de estudos e na construção de melhores modelos para entender características genéticas.
Conclusão
Entender a ancestralidade é central para conduzir pesquisas genéticas precisas, especialmente em populações com históricos genéticos diversos. Com as ferramentas certas e uma consideração cuidadosa da ancestralidade, os pesquisadores podem reduzir o risco de resultados enganosos. À medida que a pesquisa genética continua a evoluir, a ênfase deve permanecer no desenvolvimento de métodos que captem adequadamente as complexidades da ancestralidade mista, garantindo que as descobertas sejam baseadas em representações precisas da diversidade genética. Priorizando essas práticas, os pesquisadores podem identificar melhor as verdadeiras ligações entre genética e resultados de saúde, beneficiando nossa compreensão da genética humana.
Título: Adjusting for principal components can induce spurious associations in genome-wide association studies in admixed populations
Resumo: Principal component analysis (PCA) is widely used to control for population structure in genome-wide association studies (GWAS). Top principal components (PCs) typically reflect population structure, but challenges arise in deciding how many PCs are needed and ensuring that PCs do not capture other artifacts such as regions with atypical linkage disequilibrium (LD). In response to the latter, many groups suggest performing LD pruning or excluding known high LD regions prior to PCA. However, these suggestions are not universally implemented and the implications for GWAS are not fully understood, especially in the context of admixed populations. In this paper, we investigate the impact of pre-processing and the number of PCs included in GWAS models in African American samples from the Womens Womens Health Initiative SNP Health Association Resource and two Trans-Omics for Precision Medicine Whole Genome Sequencing Project contributing studies (Jackson Heart Study and Genetic Epidemiology of Chronic Obstructive Pulmonary Disease Study). In all three samples, we find the first PC is highly correlated with genome-wide ancestry whereas later PCs often capture local genomic features. The pattern of which, and how many, genetic variants are highly correlated with individual PCs differs from what has been observed in prior studies focused on European populations and leads to distinct downstream consequences: adjusting for such PCs yields biased effect size estimates and elevated rates of spurious associations due to the phenomenon of collider bias. Excluding high LD regions identified in previous studies does not resolve these issues. LD pruning proves more effective, but the optimal choice of thresholds varies across datasets. Altogether, our work highlights unique issues that arise when using PCA to control for ancestral heterogeneity in admixed populations and demonstrates the importance of careful pre-processing and diagnostics to ensure that PCs capturing multiple local genomic features are not included in GWAS models. Author SummaryPrincipal component analysis (PCA) is a widely used technique in human genetics research. One of its most frequent applications is in the context of genetic association studies, wherein researchers use PCA to infer, and then adjust for, the genetic ancestry of study participants. Although a powerful approach, prior work has shown that PCA sometimes captures other features or data quality issues, and pre-processing steps have been suggested to address these concerns. However, the utility and downstream implications of this recommended preprocessing are not fully understood, nor are these steps universally implemented. Moreover, the vast majority of prior work in this area was conducted in studies that exclusively included individuals of European ancestry. Here, we revisit this work in the context of admixed populations--populations with diverse, mixed ancestry that have been largely underrepresented in genetics research to date. We demonstrate the unique concerns that can arise in this context and illustrate the detrimental effects that including principal components in genetic association study models can have when not implemented carefully. Altogether, we hope our work serves as a reminder of the care that must be taken--including careful pre-processing, diagnostics, and modeling choices--when implementing PCA in admixed populations and beyond.
Autores: Kelsey Grinde, B. L. Browning, A. P. Reiner, T. A. Thornton, S. R. Browning
Última atualização: 2024-04-03 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2024.04.02.587682
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.04.02.587682.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.