Simple Science

Ciência de ponta explicada de forma simples

# Biologia# Genética

Estimando Ancestralidade: Desafios e Novos Métodos

Uma visão geral das abordagens para estimar a ancestralidade a partir de dados genéticos.

Carola Sophia Heinzel, F. Baumdicker, P. Pfafffelhuber

― 7 min ler


Desafios na Estimativa deDesafios na Estimativa deAncestraisancestralidade genética.complexidades das estimativas deNovas metodologias enfrentam as
Índice

Inferir a ancestralidade de uma pessoa a partir das informações genéticas dela é um desafio e tanto. Esse processo é importante em áreas como encontrar pessoas desaparecidas, estudar a história humana, investigações forenses e esforços de conservação. Existem dois tipos principais de métodos usados para estimar a ancestralidade: métodos baseados em modelo e métodos sem modelo.

Os métodos baseados em modelo usam modelos estatísticos para analisar dados genéticos e dar estimativas sobre a ancestralidade. Exemplos desses métodos são o STRUCTURE e o ADMIXTURE. Embora sejam úteis, os pesquisadores precisam ter cuidado ao interpretar os resultados, já que esses modelos nem sempre refletem corretamente a estrutura populacional em todos os casos.

Por outro lado, os métodos sem modelo usam técnicas diferentes, como a Análise de Componentes Principais, para estimar a ancestralidade sem depender muito de um modelo específico. Também tem pesquisa rolando sobre o uso de redes neurais para inferir locais geográficos com base em dados genéticos, oferecendo uma alternativa aos métodos tradicionais baseados em modelo.

Um desafio nesse campo é determinar o número de populações ancestrais a serem consideradas ao estimar a ancestralidade. Isso pode impactar muito os resultados. Alguns pesquisadores sugerem manter esse número o mais baixo possível para evitar complicações e imprecisões. É sabido que rodar modelos como o STRUCTURE várias vezes pode resultar em estimativas diferentes devido à variabilidade nos resultados, que muitas vezes é causada por troca de rótulos ou padrões de co-clustering.

Além disso, diferentes execuções desses modelos podem gerar saídas variadas, complicando ainda mais a interpretação das estimativas de ancestralidade. Isso levou ao desenvolvimento de algoritmos que ajudam na análise das saídas e na resolução de problemas de troca de rótulos.

Foi observado que as ancestralidades estimadas podem ser significativamente influenciadas pela escolha dos Marcadores Genéticos utilizados. Os pesquisadores costumam focar em selecionar marcadores informativos sobre ancestralidade, que são mais informativos que outros. Usando um número menor desses marcadores, eles conseguem reduzir o esforço necessário para a análise.

Quando se trata de estimar a ancestralidade, existem dois cenários principais. Um é quando as frequências alélicas são conhecidas de antemão, que é chamado de configuração supervisionada. O outro cenário, que este artigo vai focar, é quando essas frequências precisam ser estimadas, referida como configuração não supervisionada.

Estimar frequências alélicas é essencial para melhorar estratégias de pesquisa, especialmente em estudos familiares. Nesse contexto, o estudo vai usar estimadores de máxima verossimilhança para estimar tanto frequências alélicas quanto ancestralidade juntos, o que exige fixar o número de populações ancestrais.

Encontrar o número certo de populações ancestrais é um problema comum nesse campo. Normalmente, os modelos costumam sugerir duas populações, mas quando o número aumenta, eles podem levar a suposições imprecisas. Experimentos mostraram que usar modelos para muitas populações pode ser impraticável, já que frequentemente resultam em resultados pouco confiáveis.

Além disso, foi observado que diferentes execuções dos modelos podem fornecer estimativas diferentes, frequentemente atribuídas à troca de rótulos. Padrões diversos em agrupamentos individuais também podem levar a resultados variados. Estimativas de máxima verossimilhança não únicas são bem conhecidas na teoria estatística, que sugere que múltiplas soluções podem gerar a mesma verossimilhança.

Como resposta à não unicidade inerente desses estimadores, os pesquisadores desenvolveram métodos para analisar melhor as saídas. Eles visam resolver essas incertezas explorando sistematicamente as várias possibilidades de estimativas de ancestralidade.

Uma das maneiras de melhorar a confiabilidade dessas estimativas é garantir que haja marcadores de alta qualidade suficientes com diferenças significativas de frequência entre as populações. Isso ajuda a restringir a faixa de possíveis estimativas de ancestralidade e a torná-las mais credíveis.

O foco deste estudo é investigar o conjunto completo de possíveis estimativas de ancestralidade, dado um único Estimador de Máxima Verossimilhança. Ele descreve um método que permite aos pesquisadores entender melhor a faixa dessas estimativas e avaliar as diferenças com base nas frequências alélicas e nas ancestralidades inferidas.

O método, chamado EMALAM, é projetado para explorar toda a gama de estimativas de máxima verossimilhança com base nos dados genéticos dados. Usando dados genéticos de grandes projetos, como o Projeto 1000 Genomas, os pesquisadores podem aplicar suas descobertas e demonstrar as consequências de estimativas não únicas.

Na prática, aplicar esse método envolve explorar dados de diferentes populações enquanto se consideram vários marcadores. Os pesquisadores vão analisar um número menor de marcadores cuidadosamente escolhidos para tornar suas descobertas mais gerenciáveis e relevantes.

Ao examinar os resultados de diferentes populações, os pesquisadores podem ver diferenças significativas entre as ancestralidades estimadas. O método EMALAM revela uma ampla gama de estimativas que vão além das produzidas pelos modelos padrão. Essa faixa mais ampla indica que há mais incerteza nas estimativas de ancestralidade do que se pensava inicialmente.

Por exemplo, ao examinar os dados genéticos de indivíduos de várias populações européias, os pesquisadores podem ver que as diferenças nas estimativas de ancestralidade são substanciais. Isso indica que a mesma pontuação de verossimilhança pode surgir de diferentes valores de ancestralidade, tornando a interpretação dos resultados mais complexa.

O estudo também destaca que em cenários onde as frequências alélicas são similares entre as populações, a faixa de possíveis estimativas de ancestralidade pode se expandir significativamente. Isso reforça a importância de selecionar marcadores informativos e populações com antecedentes genéticos distintos para alcançar estimativas confiáveis.

No contexto de múltiplas populações, usar o EMALAM permite que os pesquisadores encontrem estimativas extremas, mas igualmente prováveis, em vez de se contentarem apenas com os modos apresentados pelos modelos padrão. Assim, eles podem ter uma visão melhor do pleno panorama das estimativas de ancestralidade.

Um aspecto crítico para conseguir estimativas precisas de ancestralidade está na presença de marcadores e indivíduos âncora. Marcadores âncora são alelos que estão fixos em uma população, mas variam em outras, enquanto indivíduos âncora possuem ancestralidade quase exclusivamente de um grupo. A importância deles é crucial, já que a ausência desses âncoras frequentemente leva a uma faixa ampliada de estimativas de ancestralidade.

Assim, os pesquisadores são incentivados a considerar esses aspectos ao analisar dados genéticos. O estudo sugere que mesmo usar um número vasto de marcadores não garante resultados significativos, a menos que incluam marcadores específicos que forneçam mais informações.

Em conclusão, as complexidades de estimar a ancestralidade a partir de dados genéticos exigem uma consideração cuidadosa dos métodos e marcadores utilizados. Ao abordar a questão das estimativas de máxima verossimilhança não únicas e explorar a gama completa de possibilidades com métodos como o EMALAM, os pesquisadores vão, em última análise, melhorar a confiabilidade de suas estimativas de ancestralidade. Este trabalho é um passo importante para entender melhor a diversidade genética humana e a ancestralidade.

Fonte original

Título: Revealing the range of maximum likelihood estimates in the admixture model.

Resumo: Many ancestry inference tools, including STRUCTURE and ADMIXTURE, rely on the admixture model to infer both, allele frequencies p and individual admixture proportions q for a collection of individuals relative to a set of hypothetical ancestral populations. We show that under realistic conditions the likelihood in the admixture model is typically flat in some direction around a maximum likelihood estimate (MLE) [Formula]. In particular, the maximum likelihood estimator is non-unique and there is a complete spectrum of possible estimates. Common inference tools typically identify only a few points within this spectrum. We provide an algorithm which computes the set of equally likely [Formula], when starting from [Formula]. It is analytic for K = 2 ancestral populations and numeric for K > 2. We apply our algorithm to data from the 1000 genomes project, and show that inter-European estimators of q can come with a large set of equally likely possibilities. In general, markers with large allele frequency differences between populations in combination with individuals with concentrated admixture proportions lead to small areas with a flat likelihood. Our findings imply that care must be taken when interpreting results from STRUCTURE and ADMIXTURE if populations are not separated well enough.

Autores: Carola Sophia Heinzel, F. Baumdicker, P. Pfafffelhuber

Última atualização: 2024-10-20 00:00:00

Idioma: English

Fonte URL: https://www.biorxiv.org/content/10.1101/2024.10.18.619150

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.10.18.619150.full.pdf

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes