Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ciencias de la Salud # Epidemiología

Mejorando la investigación con EHRs y biobancos

Combinar datos genéticos y métodos avanzados ayuda a solucionar la falta de datos en la investigación de salud.

Bhramar Mukherjee, M. Salvatore, R. Kundu, J. Du, C. R. Friese, A. M. Mondul, D. A. Hanauer, H. Lu, C. L. Pearce

― 8 minilectura


EHRs y Biobancos: Una EHRs y Biobancos: Una Revolución en la Investigación faltantes en estudios de salud. Nuevos métodos abordan los datos
Tabla de contenidos

Los registros electrónicos de salud (EHRs) son versiones digitales de las historias médicas de los pacientes. Estos registros contienen un montón de información sobre la salud de la gente, tratamientos y resultados que los investigadores están usando cada vez más para estudiar tendencias de salud y mejorar la atención médica.

Un aspecto emocionante de los EHRs es su conexión con los Biobancos, que son colecciones de muestras biológicas e información de salud relacionada. Algunos biobancos ahora incluyen datos genéticos junto con los EHRs, ofreciendo a los investigadores una gama más amplia de información. Esta combinación puede llevar a conocimientos sobre la salud pública y el cuidado individual del paciente.

El Desafío de los Datos faltantes

Aunque los EHRs proporcionan datos valiosos, también presentan desafíos. Un problema significativo es la falta de datos. Cuando cierta información de salud no se registra o está ausente, puede llevar a conclusiones sesgadas. Los datos faltantes pueden ocurrir por varias razones, como si un paciente no asistió a una cita de seguimiento, si no se realizaron ciertas pruebas, o incluso si la entrada de datos fue defectuosa.

Los investigadores a menudo usan análisis de casos completos, lo que significa que solo incluyen pacientes con todos los datos necesarios. Sin embargo, este enfoque puede llevar a inexactitudes si los datos faltantes no son aleatorios. Por ejemplo, si los pacientes más sanos tienen más probabilidades de tener registros completos, podría distorsionar los resultados.

Los datos faltantes pueden caer en tres categorías:

  1. Faltantes Completamente al Azar (MCAR): Los datos faltantes son completamente aleatorios y no están relacionados con ninguna característica de los participantes.
  2. Faltantes al Azar (MAR): La probabilidad de datos faltantes se relaciona con datos observados pero no con los datos faltantes mismos.
  3. Faltantes No al Azar (MNAR): Los datos faltantes están relacionados con el valor de lo que falta, lo que hace que sea más complejo de manejar.

Manejo de los Datos Faltantes

Hay métodos para abordar los datos faltantes, siendo la Imputación Múltiple una solución popular. Esta técnica llena los valores faltantes varias veces para crear varios conjuntos de datos completos. Los investigadores luego analizan cada conjunto y combinan los resultados para obtener una estimación más precisa.

El éxito de estos métodos puede variar dependiendo del tipo de falta de datos. Por ejemplo, si los datos están faltantes de manera aleatoria, los análisis pueden seguir dando resultados fiables. Sin embargo, si los datos faltan de manera no aleatoria, estos métodos pueden tener problemas para proporcionar conclusiones precisas.

Datos Genéticos como Herramienta

Los biobancos a menudo incluyen información genética. Esto puede ser especialmente útil para manejar datos faltantes. Los investigadores pueden crear "Puntajes de Riesgo Poligénico" (PRS), que resumen la información genética relevante para rasgos o enfermedades específicas. Estos puntajes pueden ayudar a los investigadores a entender las relaciones entre los datos de salud y las predisposiciones genéticas.

Al aplicar PRS en los análisis, los investigadores podrían ajustar mejor la información faltante. Esto podría llevar a mejores estimaciones de cómo factores como el índice de masa corporal (IMC) se relacionan con resultados de salud, como los niveles de glucosa en sangre.

Sesgo de selección en Biobancos

Otra preocupación con los biobancos es el sesgo de selección. Esto ocurre cuando los individuos incluidos en el estudio no representan adecuadamente a la población general. Por ejemplo, si los investigadores solo reclutan pacientes que se someten a cirugía, pueden perder datos importantes de individuos que de otro modo estarían sanos.

Para abordar el sesgo de selección, los investigadores pueden usar métodos de ponderación. Estos métodos ajustan la sobre- o sub-representación de ciertos grupos dentro del estudio. Por ejemplo, si un grupo está subrepresentado en la muestra, los investigadores pueden asignar mayores pesos a sus observaciones en el análisis para reflejar su importancia.

Objetivos de Investigación

En esta investigación, buscamos investigar si combinar la imputación múltiple informada por PRS y la ponderación de muestras puede reducir los sesgos debido a datos faltantes en estudios de asociación. Nuestros objetivos incluyen:

  1. Evaluar si la imputación múltiple informada por PRS reduce significativamente el sesgo en el análisis.
  2. Evaluar el efecto combinado de la imputación informada por PRS y la ponderación de muestras en las estimaciones de asociaciones entre IMC y glucosa.

Resumen de Métodos

Para llevar a cabo nuestro estudio, realizamos simulaciones para probar diferentes escenarios de datos faltantes. Generamos poblaciones con diversas características, creamos conjuntos de datos y manipulamos datos faltantes para ver cómo funcionaban diferentes métodos bajo estas condiciones.

Miramos diferentes tamaños de muestra, incluyendo poblaciones pequeñas y grandes, y examinamos cómo cambiaron las tasas de sesgo y cobertura en varios enfoques. Esto involucró analizar datos con y sin PRS y aplicar pesos basados en probabilidades de selección.

Estudio de Caso: Iniciativa de Genómica de Michigan

Aplicamos nuestros métodos a datos del mundo real de la Iniciativa de Genómica de Michigan (MGI), un biobanco que recopila datos de salud y genéticos de un gran grupo de participantes. Nos enfocamos específicamente en adultos de 40 años o más sin un diagnóstico de diabetes.

En nuestro análisis de MGI, evaluamos la relación entre el IMC y los niveles de glucosa. Analizamos personas que se identificaron como blancos no hispanos y negros no hispanos por separado para ver si había diferencias en los resultados.

Hallazgos de las Simulaciones

Nuestras simulaciones revelaron que usar la imputación múltiple informada por PRS generalmente resultó en un menor sesgo, especialmente cuando los datos estaban faltando al azar (MAR). Tanto los enfoques ingenuos como los métodos ponderados mostraron que la imputación múltiple ayudó a mantener mejores tasas de cobertura y redujo el sesgo en la mayoría de los escenarios. Sin embargo, el rendimiento sufrió en condiciones de falta de datos no aleatorios (MNAR).

En casos donde tanto los datos de exposición como de resultado estaban faltando, todos los métodos tuvieron dificultades para mantener la validez. Aunque los análisis imputados por PRS tuvieron un rendimiento ligeramente mejor, aún lucharon por lograr resultados ideales en condiciones MNAR.

Hallazgos del Estudio de Caso

Cuando analizamos los datos de MGI, comparamos estimaciones del efecto del IMC en los niveles de glucosa utilizando varios métodos. Encontramos que tanto el análisis de casos completos como la imputación múltiple llevaron a estimaciones diferentes. Importante, incorporar pesos de muestra acercó las estimaciones a valores reportados en un punto de referencia de una encuesta nacional de salud.

Para los blancos no hispanos, la estimación de casos completos sin ponderar fue más baja de lo esperado, pero aplicar pesos mejoró significativamente la estimación. Para los negros no hispanos, encontramos pequeñas diferencias, sugiriendo que el sesgo de selección jugó un papel más significativo que los datos faltantes.

Implicaciones y Recomendaciones

Nuestros hallazgos destacan la necesidad de que los investigadores consideren tanto los datos faltantes como los sesgos de selección al analizar datos de biobancos vinculados a EHR. Aunque la imputación múltiple informada por PRS puede mejorar la precisión, especialmente en escenarios MAR, no es una solución mágica para condiciones MNAR.

Los investigadores deberían seguir explorando varios patrones de falta de datos y considerar estrategias adicionales, como análisis de sensibilidad, para comprender mejor los efectos de los datos faltantes. Además, los biobancos deberían proporcionar PRS y pesos apropiados para una mejor representación, permitiendo obtener resultados más fiables en futuros estudios.

Conclusión

Abordar los datos faltantes y el sesgo de selección es crítico para la fiabilidad de la investigación que usa biobancos vinculados a EHR. Al combinar métodos de imputación avanzados con información genética y pesos de muestreo apropiados, los investigadores pueden mejorar la precisión de sus hallazgos y contribuir a mejores resultados en atención médica. Seguir explorando estos métodos será esencial para mejorar la calidad de la investigación en salud e informar estrategias de salud pública.

Fuente original

Título: Reducing Information and Selection Bias in EHR-Linked Biobanks via Genetics-Informed Multiple Imputation and Sample Weighting

Resumen: Electronic health records (EHRs) are valuable for public health and clinical research but are prone to many sources of bias, including missing data and non-probability selection. Missing data in EHRs is complex due to potential non-recording, fragmentation, or clinically informative absences. This study explores whether polygenic risk score (PRS)-informed multiple imputation for missing traits, combined with sample weighting, can mitigate missing data and selection biases in estimating disease-exposure associations. Simulations were conducted for missing completely at random (MCAR), missing at random (MAR), and missing not at random (MNAR) conditions under different sampling mechanisms. PRS-informed multiple imputation showed generally lower bias, particularly when combined with sample weighting. For example, in biased samples of 10,000 with exposure and outcome MAR data, PRS-informed imputation had lower percent bias (3.8%) and better coverage rate (0.883) compared to PRS-uninformed (4.5%; 0.877) and complete case analyses (10.3%; 0.784) in covariate-adjusted, weighted, multiple imputation scenarios. In a case study using Michigan Genomics Initiative (n=50,026) data, PRS-informed imputation aligned more closely with a sample-weighted All of Us-derived benchmark than analyses ignoring missing data and selection bias. Researchers should consider leveraging genetic data and sample weighting to address biases from missing data and non-probability sampling in biobanks.

Autores: Bhramar Mukherjee, M. Salvatore, R. Kundu, J. Du, C. R. Friese, A. M. Mondul, D. A. Hanauer, H. Lu, C. L. Pearce

Última actualización: 2024-10-29 00:00:00

Idioma: English

Fuente URL: https://www.medrxiv.org/content/10.1101/2024.10.28.24316286

Fuente PDF: https://www.medrxiv.org/content/10.1101/2024.10.28.24316286.full.pdf

Licencia: https://creativecommons.org/licenses/by-nc/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a medrxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares

Visión por Computador y Reconocimiento de Patrones Sensores Pequeños y Aprendizaje Automático para la Conservación de la Fauna

Usando sensores chiquitos y modelos inteligentes para monitorear la vida salvaje de manera eficiente.

Emmanuel Azuh Mensah, Anderson Lee, Haoran Zhang

― 11 minilectura