Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ciencias de la Salud# Medicina Genética y Genómica

Avances en la estimación de correlaciones genéticas

Nuevo método mejora los intervalos de confianza para correlaciones genéticas usando datos simulados.

― 7 minilectura


Avances en CorrelaciónAvances en CorrelaciónGenéticade los rasgos genéticos.Nuevos métodos mejoran la comprensión
Tabla de contenidos

La correlación genética mide cómo están relacionados dos rasgos según su trasfondo genético compartido. Si dos rasgos tienen una alta correlación genética, significa que están influenciados por factores genéticos similares. Este concepto está relacionado con la heredabilidad, que analiza cuánto de las diferencias de un rasgo entre las personas se debe a la genética. La correlación genética se puede determinar utilizando datos de individuos o analizando estadísticas generales de grandes estudios llamados estudios de asociación a nivel genómico (GWAS).

Los investigadores hoy en día a menudo calculan Correlaciones Genéticas entre rasgos de salud y conductuales. Esto les ayuda a identificar cómo diferentes condiciones o comportamientos pueden estar conectados genéticamente. También estudian correlaciones genéticas a un nivel más localizado en el genoma para encontrar regiones específicas responsables de los rasgos.

Métodos para Estimar la Correlación Genética

Para estimar la correlación genética, los científicos a menudo se basan en datos a nivel individual, especialmente en poblaciones más pequeñas o diversas. Al hacer esto, utilizan modelos estadísticos para entender la relación entre los efectos genéticos en los rasgos. Los métodos comunes para estimar la correlación genética incluyen la Máxima Verosimilitud Restringida (REML) y enfoques más simples como el método de Haseman-Elston.

Sin embargo, al estimar estas correlaciones, los investigadores deben considerar que tanto la heredabilidad como las correlaciones genéticas tienen límites. La heredabilidad puede variar de 0 a 1, donde 0 significa ninguna influencia genética y 1 significa influencia genética completa. La correlación genética varía de -1 a 1. Esto significa que los métodos estándar para estimar Intervalos de Confianza pueden no funcionar bien si los valores están cerca de estos límites.

En el pasado, los investigadores han desarrollado formas de abordar estos desafíos. Un método fue un enfoque de bootstrap bloqueado que involucraba volver a muestrear datos, lo cual funcionó bien pero requería mucha computación, haciéndolo difícil de usar con grandes conjuntos de datos.

La Necesidad de un Nuevo Enfoque

Un foco de la investigación reciente ha sido crear una forma más eficiente de estimar intervalos de confianza para las correlaciones genéticas. Este nuevo método implica simular pares de rasgos y sus correlaciones usando datos genéticos existentes. Al hacer esto, los investigadores pueden crear intervalos de confianza más precisos que no dependen de aproximaciones tradicionales.

El proceso implica varios pasos. Primero, los investigadores simulan datos para pares de rasgos basados en valores asumidos para la heredabilidad y la correlación. Luego, estiman las correlaciones genéticas usando estos valores simulados. Finalmente, obtienen intervalos de confianza basados en la distribución de las correlaciones estimadas.

Implementando el Nuevo Método

El nuevo método consiste en varios pasos:

  1. Simulación de Datos: Para cada par de rasgos, los investigadores crean muchos resultados simulados basados en la heredabilidad y la correlación genética asumidas. Esto les ayuda a construir una estructura para la relación entre los rasgos.

  2. Estimación de la Correlación Genética: Usando los Datos simulados, calculan las correlaciones genéticas para cada par de rasgos.

  3. Construyendo una Distribución de Probabilidad: Una vez que tienen las correlaciones estimadas, crean una distribución de probabilidad para ayudar a identificar posibles valores para la correlación genética.

  4. Cálculo de Intervalos de Confianza: Luego construyen intervalos de confianza para la correlación genética basados en la distribución de probabilidad que crearon.

Este enfoque ha mostrado promesas en producir estimaciones e intervalos de confianza más confiables para las correlaciones genéticas, particularmente cuando se trabaja con grandes conjuntos de datos donde los métodos tradicionales pueden fallar.

El Estudio Jackson Heart

El Estudio Jackson Heart es un proyecto de investigación importante que se centra en la salud de las poblaciones afroamericanas. Incluye a más de 5,300 participantes y examina diversos factores de salud, incluyendo datos genéticos. Los investigadores han medido y analizado los niveles de más de 1,300 proteínas en los participantes del estudio.

Usando datos de este estudio, los investigadores pueden estimar correlaciones genéticas entre proteínas y explorar relaciones complejas entre ellas. Tienen que procesar cuidadosamente los datos para eliminar mediciones problemáticas y ajustar factores como la edad y el índice de masa corporal (IMC).

Estudios de Simulación en la Investigación

Los investigadores llevan a cabo estudios de simulación para probar la efectividad del nuevo método de intervalo de confianza. Al simular datos de la matriz de parentesco del Estudio Jackson Heart, pueden entender mejor qué tan bien funciona su método bajo diferentes condiciones.

Estas simulaciones ayudan a los investigadores a observar cómo diversos factores, como el número de participantes y las características de los rasgos, influyen en la precisión de las estimaciones de correlación genética.

Comparando Diferentes Métodos de Intervalo de Confianza

En su investigación, los científicos comparan varios enfoques para estimar intervalos de confianza. Analizan la probabilidad de cobertura, que mide con qué frecuencia la verdadera correlación genética cae dentro de los intervalos de confianza estimados.

Algunos métodos que comparan incluyen:

  • Percentiles de la Función de Masa de Probabilidad Empírica (PMF): Esto se basa en los datos simulados para derivar intervalos basados puramente en los resultados de las simulaciones.

  • Aproximación Beta: Este método utiliza una distribución beta para aproximar la PMF, ayudando a crear intervalos de confianza más suaves.

  • Transformación de Fisher: Este enfoque más antiguo asume que las correlaciones genéticas se pueden modelar como distribuciones normales, lo cual puede no ser siempre preciso.

  • Aproximación Normal usando GCTA: Este enfoque calcula correlaciones genéticas usando un paquete de software específico que emplea suposiciones de distribución normal.

Cada método tiene sus fortalezas y debilidades, especialmente cuando se trata de diferentes tamaños de muestra y características de los rasgos que se están estudiando.

Estimando Intervalos de Confianza y Valores P

Para determinar si la correlación genética es significativa, los investigadores utilizan el nuevo enfoque para calcular valores p. Establecen una hipótesis nula, que asume que no hay correlación, y una hipótesis alternativa, que asume que hay correlación.

Usando su método de intervalo de confianza, pueden estimar valores p para probar estas hipótesis. Si el intervalo de confianza no incluye cero, sugiere que hay una correlación genética significativa.

Hallazgos del Estudio Jackson Heart

Al aplicar su método al Estudio Jackson Heart, los investigadores encontraron valiosas ideas sobre las interacciones de las proteínas. Identificaron muchos pares de proteínas con fuertes correlaciones genéticas, descubriendo redes que pueden tener implicaciones para entender la salud y la enfermedad.

Al visualizar estas redes, los investigadores pueden ilustrar cómo diferentes proteínas interactúan entre sí según sus correlaciones genéticas. Esta información puede ayudar a guiar investigaciones futuras sobre cómo la genética influye en las condiciones de salud.

Conclusiones

El desarrollo de un nuevo enfoque de bootstrap paramétrico para estimar intervalos de confianza para correlaciones genéticas representa un avance significativo en la investigación genética. Al simular datos y usar distribuciones empíricas, los investigadores pueden obtener estimaciones e información más confiables que ayudan a clarificar las complejas relaciones entre rasgos.

El Estudio Jackson Heart proporciona un contexto valioso para aplicar este método, permitiendo a los investigadores explorar la base genética de la salud en las poblaciones afroamericanas. Los hallazgos de este estudio pueden llevar a una mejor comprensión e intervenciones potenciales para diversas condiciones de salud.

A medida que los investigadores continúan refinando sus métodos y explorando conjuntos de datos más grandes, la capacidad de estimar con precisión las correlaciones genéticas y su significancia sin duda mejorará nuestra comprensión de la genética y su impacto en la salud.

Fuente original

Título: A parametric bootstrap approach for computing confidence intervals for genetic correlations with application to genetically-determined protein-protein networks

Resumen: Genetic correlation refers to the correlation between genetic determinants of a pair of traits. When using individual-level data, it is typically estimated based on a bivariate model specification where the correlation between the two variables is identifiable and can be estimated from a covariance model that incorporates the genetic relationship between individuals, e.g., using a pre-specified kinship matrix. Inference relying on asymptotic normality of the genetic correlation parameter estimates may be inaccurate when the sample size is low, when the genetic correlation is close to the boundary of the parameter space, and when the heritability of at least one of the traits is low. We address this problem by developing a parametric bootstrap procedure to construct confidence intervals for genetic correlation estimates. The procedure simulates paired traits under a range of heritability and genetic correlation parameters, and it uses the population structure encapsulated by the kinship matrix. Heritabilities and genetic correlations are estimated using the close-form, method of moment, Haseman-Elston regression estimators. The proposed parametric bootstrap procedure is especially useful when genetic correlations are computed on pairs of thousands of traits measured on the same exact set of individuals. We demonstrate the parametric bootstrap approach on a proteomics dataset from the Jackson Heart Study.

Autores: Tamar Sofer, Y.-T. Tsai, Y. Hrytsenko, M. Elgart, U. Tahir, Z.-Z. Chen, J. G. Wilson, R. Gerszten

Última actualización: 2023-10-25 00:00:00

Idioma: English

Fuente URL: https://www.medrxiv.org/content/10.1101/2023.10.24.23297474

Fuente PDF: https://www.medrxiv.org/content/10.1101/2023.10.24.23297474.full.pdf

Licencia: https://creativecommons.org/licenses/by-nc/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a medrxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares