Simple Science

Ciência de ponta explicada de forma simples

# Biologia# Genética

Apresentando o deepKin: Um Novo Método para Medir Relações Genéticas

deepKin melhora como avaliamos relacionamentos genéticos usando dados de SNP.

― 8 min ler


deepKin: Avançando adeepKin: Avançando aAnálise de RelaçõesGenéticasSNP.de parentesco genético usando dadosNovo método deepKin melhora a avaliação
Índice

Entender como as pessoas estão relacionadas é mega importante em estudos de genética e saúde pública. Isso é especialmente crucial quando os pesquisadores analisam vários Marcadores Genéticos em todo o genoma, um processo conhecido como estudos de associação genômica (GWAS). Eles também medem o risco para certos traços ou doenças usando uma ferramenta chamada escore de risco poligênico (PRS). Antigamente, os cientistas olhavam para árvores genealógicas para estimar quão próximas as pessoas eram. Esse método dá uma boa ideia das semelhanças genéticas esperadas. Mas, com o aumento dos dados genéticos de polimorfismos de nucleotídeo único (SNPS), os pesquisadores agora podem calcular relações genéticas reais com base em dados reais.

Essa mudança para usar dados de SNP enfrenta alguns desafios. Diferentes métodos de medição de SNPs, junto com a forma como os dados são verificados quanto à qualidade, podem gerar confusão. Assim, entender as relações que vêm dos dados de SNP pode ser complicado.

Métodos para Medir Relações Genéticas

Existem diferentes maneiras de estimar quão próximas as pessoas são usando dados de SNP. Alguns métodos usam abordagens de máxima verossimilhança, enquanto outros usam estimadores baseados em momentos. Embora os estimadores baseados em momentos não sejam tão precisos, eles são mais rápidos e fáceis de calcular. Ao longo dos anos, alguns fatores foram estudados que afetam como medimos a parentesco. Um estudo investigou como as relações podem variar devido a amostragem genética aleatória e ligação genética.

Atualmente, muitos pesquisadores usam medidas baseadas em SNPs em estudos populacionais, mas não tem havido tanto foco em quão essas medidas variam. As diferenças nos dados de SNP devido a relações podem impactar bastante a capacidade de detectar pares que são próximos em comparação com os que não são.

Números de corte estáticos são frequentemente usados para decidir se duas amostras são relacionadas. Isso pode levar a erros, como falsos positivos, quando a variação nas estimativas é ignorada. Se os pesquisadores apenas confiam em cortes fixos sem considerar como os dados se comportam, eles podem rotular pares de maneira errada como relacionados.

Apresentando o DeepKin: Uma Nova Abordagem

O novo método, chamado deepKin, oferece uma forma nova de medir parentesco usando dados de SNP. Essa ferramenta é diferente dos métodos anteriores porque fornece informações sobre a variação amostral que vem com o cálculo de parentesco. Com essa nova abordagem, o deepKin pode ajudar os pesquisadores a entender se as diferenças no parentesco são significativas.

O deepKin se concentra em três conceitos principais na estimativa de parentesco:

  1. Estabelece um valor crítico para dividir parentesco significativo de insignificante.
  2. Identifica o número mínimo de marcadores genéticos necessários para identificar um tipo específico de parente.
  3. Mostra quanto poder estatístico pode ser ajustado com base no grau de parentesco que está sendo testado.

A equipe por trás do deepKin testou através de simulações e dados reais, mostrando sua eficácia. Eles também disponibilizaram o deepKin para os pesquisadores como um pacote R.

Entendendo os Métodos do DeepKin

Um objetivo central deste estudo é definir o nível de variação para parentesco genético baseado em momentos. O deepKin usa uma abordagem semelhante à do método KING original, mas com fatores de escala diferentes. Os pesquisadores podem criar matrizes para descrever relações genéticas com base em valores genotípicos.

O estimador KING calcula parentesco usando fórmulas específicas, mas suas estimativas representam apenas metade do parentesco real esperado. Para esclarecer comparações, os pesquisadores muitas vezes dobram as estimativas do KING.

No entanto, medir a similaridade genética real pode resultar em valores que vão de 0 a 1. Isso significa que muitos fatores podem influenciar os resultados, e entender a variação amostral é crucial para a estimativa.

Inferindo Parentesco com DeepKin

O deepKin fornece um método para os pesquisadores testarem se pares de indivíduos são relacionados. Ao examinar relações sob uma perspectiva estatística, o deepKin pode calcular escores z e valores p correspondentes com base em distribuições empíricas anteriores. Se os pesquisadores definirem um nível de significância, o deepKin pode definir um valor crítico para tirar conclusões sobre parentesco.

Embora os escores de parentesco possam variar continuamente, pode ser útil agrupá-los em categorias para facilitar a análise. O deepKin permite avaliar uma relação observada contra graus de parentesco pré-definidos usando testes estatísticos.

O método envolve dois parâmetros principais: tamanho da amostra e número efetivo de marcadores. No final, o deepKin busca melhorar como as relações genéticas são inferidas, fornecendo diretrizes que ajudam os pesquisadores a tomar decisões informadas.

Diretrizes para Usar o DeepKin

Os pesquisadores podem seguir algumas diretrizes principais ao usar o deepKin:

  1. Escolha os Marcadores com Sabedoria: Eles podem apontar o número mínimo efetivo de marcadores necessários para detectar relações específicas. Focando apenas nas variantes necessárias, os pesquisadores podem economizar tempo e reduzir custos.

  2. Entenda o Poder Estatístico: Uma vez definido o nível de significância, os pesquisadores podem determinar quanto poder poderia ser melhorado ou comprometido com base no número de marcadores disponíveis. Essencialmente, aumentar marcadores efetivos pode aumentar as chances de identificar relações importantes.

A Importância do Número Efetivo de Marcadores

O número efetivo de marcadores, muitas vezes chamado de "me", é significativo na estimativa de parentesco através do deepKin. Ele descreve a correlação genética média entre diferentes variantes. Os pesquisadores podem calcular esse número, mas fazê-lo diretamente pode ser custoso em termos de poder computacional.

Para resolver essa questão, dois estimadores são propostos. O primeiro é um estimador baseado em GRM, que analisa elementos fora da diagonal da matriz de relações genéticas. O segundo é um estimador baseado em randomização, que melhora a eficiência iterando por um número definido de testes.

Em simulações, os pesquisadores validam a eficácia do deepKin usando ambos os estimadores para demonstrar precisão estatística.

Validando a Variância

A validação metódica da abordagem do deepKin envolve focar em modelos de locus único e múltiplo. Os pesquisadores testaram quão bem os resultados esperados se alinham com os dados observados em vários cenários para confirmar a robustez de suas descobertas.

As simulações demonstram que o método deepKin captura efetivamente relações verdadeiras, garantindo confiabilidade em diferentes graus de parentesco.

Aplicações do Mundo Real: UK Biobank

Em uma aplicação prática, os pesquisadores aplicaram o deepKin em um grande conjunto de dados do UK Biobank, que incluía informações de mais de 3.000 participantes. Eles examinaram múltiplos conjuntos de SNPs com características diferentes para entender o impacto de diferentes marcadores genéticos.

Fazendo isso, os pesquisadores puderam observar como o deepKin se saiu em tarefas de classificação, encontrando correlações entre diferentes graus de parentesco. Foi confirmado que, à medida que os marcadores efetivos aumentavam, o deepKin se tornava mais confiável na classificação de relações.

Além disso, o deepKin explicou as relações dentro do conjunto de dados do UK Biobank, destacando indivíduos relacionados e suas conexões com base em localizações geográficas. Isso adicionou profundidade ao entendimento de como a estrutura populacional pode influenciar as relações genéticas.

Principais Descobertas e Conclusões

As diferenças entre o deepKin e métodos anteriores, como o KING, estão na capacidade do deepKin de considerar elementos faltantes, como a variação amostral, e assim melhorar a inferência estatística. Uma compreensão completa da variação amostral está diretamente ligada à eficácia da inferência de parentesco.

Além disso, o número efetivo de marcadores desempenha um papel crítico, permitindo que os pesquisadores ajustem suas análises para resultados ótimos. Isso, por sua vez, pode influenciar como os pesquisadores avaliam as relações, especialmente ao considerar frequências alélicas em conjuntos de SNPs.

Os pesquisadores sugerem mais estudos para refinar as suposições feitas nos modelos e incentivam a remoção de variantes de baixa frequência para evitar resultados enganosos.

No geral, o deepKin oferece uma nova abordagem para a análise de relações genéticas que pode ser usada em várias áreas, incluindo genética e aplicações forenses. Ele traz um novo nível de precisão e rigor para entender como as pessoas estão relacionadas com base em dados genéticos.

Fonte original

Título: DeepKin: precise estimation of in-depth relatedness and its application in UK Biobank

Resumo: Accurately estimating relatedness between samples is crucial in genetics and epidemiological analysis. Using genome-wide single nucleotide polymorphisms (SNPs), it is now feasible to measure realized relatedness even in the absence of pedigree. However, the sampling variation in SNP-based measures and factors affecting method-of-moments relatedness estimators have not been fully explored, whilst static cut-off thresholds have traditionally been employed to classify relatedness levels for decades. Here, we introduce the deepKin framework as a moment-based relatedness estimation and inference method that incorporates data-specific cut-off threshold determination. It addresses the limitations of previous moment estimators by leveraging the sampling variance of the estimator to provide statistical inference and classification. Key principles in relatedness estimation and inference are provided, including inferring the critical value required to reject the hypothesis of unrelatedness, which we refer to as the deepest significant relatedness, determining the minimum effective number of markers, and understanding the impact on statistical power. Through simulations, we demonstrate that deepKin accurately infers both unrelated pairs and relatives with the support of sampling variance. We then apply deepKin to two subsets of the UK Biobank dataset. In the 3K Oxford subset, tested with four sets of SNPs, the SNP set with the largest effective number of markers and correspondingly the smallest expected sampling variance exhibits the most powerful inference for distant relatives. In the 430K British White subset, deepKin identifies 212,120 pairs of significant relatives and classifies them into six degrees. Additionally, cross-cohort significant relative ratios among 19 assessment centers located in different cities are geographically correlated, while within-cohort analyses indicate both an increase in close relatedness and a potential increase in diversity from north to south throughout the UK. Overall, deepKin presents a novel framework for accurate relatedness estimation and inference in biobank-scale datasets. For biobank-scale application we have implemented deepKin as an R package, available in the GitHub repository (https://github.com/qixininin/deepKin).

Autores: Guo-Bo Chen, Q.-X. Zhang, D. Jayasinghe, S. H. Lee, H. Xu

Última atualização: 2024-05-01 00:00:00

Idioma: English

Fonte URL: https://www.biorxiv.org/content/10.1101/2024.04.30.591647

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.04.30.591647.full.pdf

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes