Presentamos deepKin: Un Nuevo Método para Medir la Relación Genética
deepKin mejora la forma en que evaluamos las relaciones genéticas usando datos de SNP.
― 8 minilectura
Tabla de contenidos
- Métodos para Medir Relaciones Genéticas
- Introduciendo DeepKin: Un Nuevo Enfoque
- Entendiendo los Métodos de DeepKin
- Inferencia de Relaciones con DeepKin
- Pautas para Usar DeepKin
- La Importancia del Número Efectivo de Marcadores
- Validando la Varianza
- Aplicaciones del Mundo Real: UK Biobank
- Hallazgos Clave y Conclusiones
- Fuente original
- Enlaces de referencia
Entender cómo están relacionados los individuos entre sí es muy importante en estudios de genética y salud pública. Específicamente, esto es crucial cuando los investigadores analizan muchos Marcadores Genéticos en todo el genoma, un proceso conocido como estudios de asociación a nivel de genoma (GWAS). Los investigadores también miden el riesgo de ciertos rasgos o enfermedades usando una herramienta llamada puntuación de riesgo poligénico (PRS). Tradicionalmente, los científicos veían los árboles genealógicos para estimar qué tan estrechamente relacionados están las personas. Este método da una buena idea de las similitudes genéticas esperadas. Sin embargo, con el aumento de datos genéticos de polimorfismos de un solo nucleótido (SNPS), los investigadores ahora pueden calcular relaciones genéticas reales basadas en datos concretos.
Este cambio hacia el uso de datos SNP enfrenta algunos desafíos. Diferentes métodos para medir SNPs, junto con cómo se revisan los datos por calidad, pueden generar confusión. Por lo tanto, averiguar las relaciones que provienen de los datos SNP puede ser complicado.
Métodos para Medir Relaciones Genéticas
Hay diferentes formas de estimar qué tan relacionados están las personas usando datos SNP. Algunos métodos utilizan enfoques de máxima verosimilitud, mientras que otros usan estimadores basados en momentos. Aunque los estimadores basados en momentos pueden no ser tan precisos, son más rápidos y fáciles de calcular. A lo largo de los años, se han estudiado algunos factores que afectan cómo medimos la Relación. Un estudio investigó cómo las relaciones pueden variar debido al muestreo genético aleatorio y al enlace genético.
Actualmente, muchos investigadores utilizan medidas basadas en SNP en estudios poblacionales, pero no ha habido tanto enfoque en cuánto varían estas medidas. Las diferencias en los datos SNP debido a las relaciones pueden impactar significativamente la capacidad de detectar pares que están estrechamente relacionados en comparación con aquellos que no lo están.
A menudo se utilizan números de corte estáticos para decidir si dos muestras están relacionadas. Esto puede llevar a errores, como falsos positivos, cuando se ignora la variación en las estimaciones. Si los investigadores solo se basan en cortes fijos sin considerar cómo se comportan los datos, podrían etiquetar incorrectamente a pares como relacionados.
Introduciendo DeepKin: Un Nuevo Enfoque
El nuevo método, llamado deepKin, ofrece una forma fresca de medir la relación usando datos SNP. Esta herramienta es diferente de los métodos anteriores porque proporciona información sobre la variación de muestreo que viene con el cálculo de la relación. Al usar este nuevo enfoque, deepKin puede ayudar a los investigadores a entender si las diferencias en la relación son significativas.
DeepKin se enfoca en tres conceptos clave al estimar la relación:
- Establece un valor crítico para dividir la relación significativa de la insignificante.
- Identifica el número mínimo de marcadores genéticos necesarios para detectar un tipo específico de pariente.
- Muestra cuánto poder estadístico puede ajustarse según el grado de relación que se esté probando.
El equipo detrás de deepKin lo probó a través de simulaciones y datos reales, mostrando su efectividad. También hicieron que deepKin estuviera disponible para investigadores como un paquete de R.
Entendiendo los Métodos de DeepKin
Un objetivo central de este estudio es definir el nivel de variación para la relación genética basada en momentos. DeepKin utiliza un enfoque similar al del método KING original, pero con diferentes factores de escala. Los investigadores pueden crear matrices para describir las relaciones genéticas basadas en valores genotípicos.
El estimador KING calcula la relación usando fórmulas específicas, pero sus estimaciones solo representan la mitad de la relación real esperada. Para aclarar comparaciones, los investigadores a menudo duplican las estimaciones de KING.
Sin embargo, medir la similitud genética real puede dar valores de 0 a 1. Esto significa que hay muchos factores que podrían influir en los resultados, y entender la variación de muestreo es crucial para la estimación.
Inferencia de Relaciones con DeepKin
DeepKin proporciona un método para que los investigadores prueben si pares de individuos están relacionados. Al examinar relaciones desde una perspectiva estadística, DeepKin puede calcular puntuaciones z y valores p correspondientes basados en distribuciones empíricas anteriores. Si los investigadores establecen un nivel de significancia, deepKin puede definir un valor crítico para sacar conclusiones sobre la relación.
Mientras que las puntuaciones de relación pueden variar continuamente, puede ser útil agruparlas en categorías para un análisis más fácil. DeepKin permite la evaluación de una relación observada contra grados de relación predefinidos usando pruebas estadísticas.
El método involucra dos parámetros principales: tamaño de la muestra y número efectivo de marcadores. En última instancia, deepKin busca mejorar cómo se infieren las relaciones genéticas proporcionando pautas que ayuden a los investigadores a tomar decisiones informadas.
Pautas para Usar DeepKin
Los investigadores pueden seguir un par de pautas clave al usar deepKin:
Elige Marcadores Con Sabiduría: Pueden señalar el número mínimo efectivo de marcadores requeridos para detectar relaciones específicas. Al enfocarse solo en las variantes necesarias, los investigadores pueden ahorrar tiempo y reducir costos.
Entiende el Poder Estadístico: Una vez establecido el nivel de significancia, los investigadores pueden determinar cuánto poder podría mejorarse o comprometerse según el número de marcadores disponibles. Esencialmente, aumentar los marcadores efectivos puede aumentar las posibilidades de identificar relaciones importantes.
La Importancia del Número Efectivo de Marcadores
El número efectivo de marcadores, a menudo referido como "me", es significativo en la estimación de relaciones a través de deepKin. Describe la correlación genética promedio entre diferentes variantes. Los investigadores pueden calcular este número, pero hacerlo directamente puede ser costoso en términos de poder computacional.
Para abordar este problema, se proponen dos estimadores. El primero es un estimador basado en GRM, que observa elementos fuera de la diagonal de la matriz de relación genética. El segundo es un estimador basado en aleatorización, que mejora la eficiencia al iterar a través de un número fijo de ensayos.
En simulaciones, los investigadores validan la efectividad de deepKin utilizando ambos estimadores para demostrar precisión estadística.
Validando la Varianza
La validación metódica del enfoque de deepKin implica enfocarse tanto en modelos de un solo locus como en múltiples locus. Los investigadores probaron qué tan bien los resultados esperados se alinean con los datos observados en varios escenarios para confirmar la solidez de sus hallazgos.
Las simulaciones demuestran que el método deepKin captura efectivamente las verdaderas relaciones, asegurando fiabilidad a través de diferentes grados de relación.
Aplicaciones del Mundo Real: UK Biobank
En una aplicación práctica, los investigadores aplicaron deepKin a un gran conjunto de datos del UK Biobank, que incluía información de más de 3,000 participantes. Examinaron múltiples conjuntos de SNP con diferentes características para entender el impacto de diferentes marcadores genéticos.
Al hacer esto, los investigadores pudieron observar cómo deepKin se desempeñaba en tareas de clasificación, encontrando correlaciones entre diferentes grados de relación. Se confirmó que a medida que aumentaban los marcadores efectivos, deepKin se volvía más confiable en clasificar relaciones.
Además, deepKin explicó las relaciones dentro del conjunto de datos del UK Biobank, destacando individuos relacionados y sus conexiones basadas en ubicaciones geográficas. Esto añadió profundidad a la comprensión de cómo la estructura poblacional puede influir en las relaciones genéticas.
Hallazgos Clave y Conclusiones
Las diferencias entre deepKin y métodos anteriores, como KING, radican en la capacidad de deepKin para tener en cuenta elementos faltantes como la variación de muestreo y, por lo tanto, mejorar la inferencia estadística. Una comprensión completa de la variación de muestreo se relaciona directamente con la efectividad de la inferencia de relaciones.
Además, el número efectivo de marcadores juega un rol crítico, permitiendo a los investigadores ajustar sus análisis para obtener resultados óptimos. A su vez, esto puede influir en cómo los investigadores evalúan relaciones, particularmente al considerar frecuencias alélicas en los conjuntos de SNP.
Los investigadores sugieren más estudios para refinar las suposiciones hechas en los modelos y fomentar la eliminación de variantes de baja frecuencia para evitar resultados engañosos.
En general, deepKin ofrece un enfoque fresco para el análisis de relaciones genéticas que puede usarse en varios campos, incluidas la genética y aplicaciones forenses. Aporta un nuevo nivel de precisión y rigor a la comprensión de cómo están relacionados los individuos según los datos genéticos.
Título: DeepKin: precise estimation of in-depth relatedness and its application in UK Biobank
Resumen: Accurately estimating relatedness between samples is crucial in genetics and epidemiological analysis. Using genome-wide single nucleotide polymorphisms (SNPs), it is now feasible to measure realized relatedness even in the absence of pedigree. However, the sampling variation in SNP-based measures and factors affecting method-of-moments relatedness estimators have not been fully explored, whilst static cut-off thresholds have traditionally been employed to classify relatedness levels for decades. Here, we introduce the deepKin framework as a moment-based relatedness estimation and inference method that incorporates data-specific cut-off threshold determination. It addresses the limitations of previous moment estimators by leveraging the sampling variance of the estimator to provide statistical inference and classification. Key principles in relatedness estimation and inference are provided, including inferring the critical value required to reject the hypothesis of unrelatedness, which we refer to as the deepest significant relatedness, determining the minimum effective number of markers, and understanding the impact on statistical power. Through simulations, we demonstrate that deepKin accurately infers both unrelated pairs and relatives with the support of sampling variance. We then apply deepKin to two subsets of the UK Biobank dataset. In the 3K Oxford subset, tested with four sets of SNPs, the SNP set with the largest effective number of markers and correspondingly the smallest expected sampling variance exhibits the most powerful inference for distant relatives. In the 430K British White subset, deepKin identifies 212,120 pairs of significant relatives and classifies them into six degrees. Additionally, cross-cohort significant relative ratios among 19 assessment centers located in different cities are geographically correlated, while within-cohort analyses indicate both an increase in close relatedness and a potential increase in diversity from north to south throughout the UK. Overall, deepKin presents a novel framework for accurate relatedness estimation and inference in biobank-scale datasets. For biobank-scale application we have implemented deepKin as an R package, available in the GitHub repository (https://github.com/qixininin/deepKin).
Autores: Guo-Bo Chen, Q.-X. Zhang, D. Jayasinghe, S. H. Lee, H. Xu
Última actualización: 2024-05-01 00:00:00
Idioma: English
Fuente URL: https://www.biorxiv.org/content/10.1101/2024.04.30.591647
Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.04.30.591647.full.pdf
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.