Delphi: Una Nueva Forma de Estimar Puntuaciones de Riesgo Genético
Delphi usa aprendizaje profundo para mejorar las predicciones del puntaje de riesgo genético en diversas poblaciones.
― 9 minilectura
Tabla de contenidos
- Métodos para Estimar Puntajes de Riesgo Poligénico
- Desafíos con el PRS Actual
- El Potencial del Aprendizaje Profundo
- Intentos Anteriores con Aprendizaje Profundo
- Introduciendo Delphi
- El Marco Delphi
- GWAS y Manejo de Datos
- Aprendiendo a Modificar Efectos
- Comparación de Rendimiento
- Rendimiento en Diversas Etnicidades
- Observando Tendencias en la Modulación de Efectos
- Limitaciones y Direcciones Futuras
- Conclusión
- Fuente original
Muchos rasgos y enfermedades comunes vienen de una mezcla de pequeños cambios en nuestro ADN. Los científicos estudian estos cambios para entender cómo afectan la salud. Una manera de hacerlo es a través de estudios de asociación a nivel genómico, o GWAS. GWAS ayuda a los investigadores a encontrar conexiones entre cambios específicos en el ADN y ciertos rasgos.
Cuando se realiza un GWAS, proporciona dos piezas clave de información para cada cambio de ADN probado: el tamaño del efecto estimado, que indica cuánto impacto puede tener ese cambio, y un valor P, que muestra cuán fuerte es la conexión entre el cambio y el rasgo.
Los investigadores pueden usar esta información para crear un puntaje llamado puntaje de riesgo poligénico (PRS). Este puntaje suma los riesgos de muchos cambios en el ADN para dar una idea de cuán probable es que alguien tenga un cierto rasgo o enfermedad. El PRS puede ser útil para Prevención, diagnóstico y tratamiento en el cuidado de la salud.
Puntajes de Riesgo Poligénico
Métodos para EstimarEn la última década, los métodos para estimar el PRS han cambiado un montón. Al principio, se descubrió que incluso los cambios en el ADN que no parecían estadísticamente significativos podían añadir información valiosa para predecir rasgos. Los investigadores también encontraron que considerar cómo ciertos cambios en el ADN están relacionados entre sí puede mejorar la precisión de la predicción de estos puntajes.
Los avances más recientes en métodos estadísticos y biología han mejorado aún más el PRS. Por ejemplo, algunos métodos más nuevos pueden incorporar información sobre con qué frecuencia aparecen diferentes variantes de ADN en la población o tener en cuenta las funciones biológicas de estos cambios.
Sin embargo, estos métodos a menudo tienen limitaciones similares. Un problema significativo es que el efecto de un cambio en el ADN se trata generalmente como constante, lo cual puede no reflejar la realidad.
Desafíos con el PRS Actual
El PRS a menudo no funciona bien cuando se aplica a personas de diferentes antecedentes étnicos. Esto se debe en parte a las diferentes frecuencias de cambios en el ADN en varios grupos. Además, factores Genéticos y ambientales pueden complicar aún más estas predicciones. Debido a estos problemas, usar el PRS en medicina puede ser difícil, y se necesita más datos de poblaciones diversas para mejorar la precisión.
Para abordar estos desafíos, los investigadores han propuesto varias estrategias. Estas incluyen combinar resultados de diferentes estudios GWAS y centrarse en cambios importantes en el ADN que se sabe que tienen efectos significativos. Recientemente, algunos estudios también han mostrado que usar modelos más avanzados podría mejorar el rendimiento de la predicción.
El Potencial del Aprendizaje Profundo
El aprendizaje profundo es una técnica que puede identificar patrones complejos en grandes conjuntos de datos. En genética, se ha utilizado para varias tareas, como identificar variantes genéticas y analizar imágenes relacionadas con la genética. Algunos métodos de aprendizaje profundo explicables buscan ofrecer más información sobre los factores genéticos detrás de las enfermedades.
Un enfoque reciente implicó crear un gráfico de conocimiento para proporcionar explicaciones sobre cambios individuales en el ADN. Usar el aprendizaje profundo para predecir riesgos genéticos puede ofrecer beneficios únicos, especialmente ya que se ha demostrado que tener modelos más complejos puede mejorar la generalización. Esto es significativo para aplicar el PRS en poblaciones subrepresentadas.
Intentos Anteriores con Aprendizaje Profundo
Aunque ha habido intentos de usar aprendizaje profundo para estimar el PRS, los enfoques hasta ahora han usado en su mayoría redes poco profundas. Estos modelos a menudo trabajaron con un número limitado de cambios en el ADN y no mostraron mejoras significativas en la precisión de la predicción. Por ejemplo, un estudio logró una ligera mejora en las predicciones de riesgo de cáncer de mama usando una red neuronal, pero encontró que agregar más cambios de ADN no ayudó.
Otro estudio utilizó una pequeña red neuronal para mejorar las predicciones de riesgo para la enfermedad de Alzheimer en un cohorte limitada.
Introduciendo Delphi
Este documento presenta Delphi, un nuevo método que utiliza aprendizaje profundo para mejorar la estimación de puntajes de riesgo genéticos. Delphi aborda algunos de los desafíos que enfrentan los métodos tradicionales de PRS. Lo hace utilizando un modelo transformador moderno para capturar relaciones más complejas entre los cambios en el ADN.
A diferencia de los métodos anteriores, Delphi ajusta el impacto de los cambios en el ADN basado en varios factores, incluyendo sexo, etnia y otras mutaciones. Esta flexibilidad permite que el método refiné los efectos de los métodos PRS establecidos.
Los resultados iniciales usando Delphi en datos del Biobanco del Reino Unido han mostrado resultados prometedores. El modelo aumenta los efectos predichos de mutaciones significativas y demuestra mejor generalización a poblaciones diversas que otros enfoques probados.
El Marco Delphi
Delphi tiene un marco sencillo que involucra dos pasos principales. En el primer paso, los datos se dividen en conjuntos de entrenamiento, validación y prueba. Los investigadores utilizan técnicas estándar de PRS para estimar los efectos de las mutaciones, preparando los datos para un acceso rápido durante el entrenamiento.
El segundo paso implica entrenar un modelo basado en datos genéticos y Demográficos. Este modelo predice el fenotipo (rasgo) a partir de varios factores, mientras que otra red neuronal aprende a ajustar los tamaños de efecto individuales de las mutaciones. En última instancia, estos efectos ajustados se combinan para producir un PRS personalizado.
GWAS y Manejo de Datos
La investigación involucró analizar más de 485,000 sujetos, dividiéndolos en grupos de entrenamiento, validación y prueba. El conjunto de entrenamiento se utilizó para varios análisis, mientras que el conjunto de validación ayudó a refinar los modelos. El conjunto de prueba permaneció intacto hasta que se realizaron las evaluaciones finales.
En el estudio, solo se consideraron ciertos cambios en el ADN basados en criterios de calidad específicos. Varios métodos estadísticos ayudaron a identificar los mejores modelos para predecir rasgos basados en los datos genéticos.
Aprendiendo a Modificar Efectos
La siguiente fase se centra en individualizar los cambios de efecto. Similar al proceso de GWAS, se consideraron características como edad, sexo y otros factores genéticos. Se construyó un modelo separado para analizar estas variables y sentar las bases para la red neuronal.
La red neuronal creó variaciones únicas de los tamaños de efecto. Estos ajustes se sumaron a salidas adicionales para crear una predicción final.
Comparación de Rendimiento
Los investigadores evaluaron Delphi frente a tres métodos PRS establecidos para verificar su efectividad. Miraron cuánto de la varianza explicaba cada método para múltiples rasgos, y Delphi generalmente superaba a los otros métodos.
Al comparar los resultados de diferentes técnicas, Delphi mostró menos errores de predicción grandes en general. Esta tendencia fue particularmente notable para ciertos rasgos, como la altura, donde Delphi produjo resultados más consistentes.
Rendimiento en Diversas Etnicidades
Hubo un enfoque específico en el rendimiento de Delphi en sujetos con ascendencias no británicas blancas. A pesar de un tamaño de muestra más pequeño, Delphi mantuvo su ventaja sobre otros métodos en términos de varianza parcial explicada para varios rasgos.
Los hallazgos fueron alentadores, indicando que Delphi podría generalizar bien, incluso en poblaciones que anteriormente estaban subrepresentadas en estudios genéticos.
Observando Tendencias en la Modulación de Efectos
Los investigadores notaron tendencias interesantes en cómo Delphi ajustó los efectos de los cambios en el ADN. Tendía a reducir el impacto de cambios que tenían efectos mínimos mientras maximizaba el impacto de efectos más sustanciales. Esto podría informar futuros desarrollos de modelos.
También se observó que los tamaños de efecto podían variar enormemente dependiendo de los datos utilizados, añadiendo complejidad a la interpretación de estos hallazgos.
Limitaciones y Direcciones Futuras
La investigación reconoce algunas limitaciones, incluyendo los desafíos que plantea la alta dimensionalidad de los datos y el ruido potencial de incluir demasiados SNPs de efecto menor. Estos factores pueden complicar el proceso de entrenamiento y llevar a inconsistencias en las predicciones.
Además, aunque Delphi muestra promesas en mejorar las predicciones para varios rasgos, la necesidad de conjuntos de datos más amplios y un refinamiento continuo sigue siendo crucial. Hay una necesidad urgente de asegurar que los métodos PRS puedan funcionar bien en diversas poblaciones para mejorar su utilidad en entornos de atención médica.
Conclusión
Delphi representa un avance en la estimación de puntajes de riesgo genéticos, aprovechando técnicas de aprendizaje profundo para abordar desafíos que los métodos tradicionales han enfrentado. Al centrarse en las interacciones matizadas entre variantes genéticas y factores demográficos, proporciona un enfoque más personalizado para la estimación de riesgo genético.
Los estudios realizados usando Delphi subrayan su potencial para mejorar significativamente la predictibilidad en poblaciones diversas, convirtiéndolo en una herramienta valiosa en la investigación genética y aplicaciones clínicas. La exploración continua de sus capacidades será esencial para abordar las limitaciones existentes y mejorar la efectividad general de la predicción de riesgos genéticos.
Título: Deep Learning for Polygenic Risk Prediction
Resumen: Polygenic risk scores (PRS) are relative measures of an individuals genetic propensity to a particular trait or disease. Most PRS methods assume that mutation effects scale linearly with the number of alleles and are constant across individuals. While these assumptions simplify computation, they increase error, particularly for less-represented racial groups. We developed and provide Delphi (deep learning for phenotype inference), a deep-learning method that relaxes these assumptions to produce more predictive PRS. In contrast to other methods, Delphi can integrate up to hundreds of thousands of SNPs as input. We compare our results to a standard, linear PRS model, lasso regression, and a gradient-boosted trees-based method. We show that deep learning can be an effective approach to genetic risk prediction. We report a relative increase in the percentage variance explained compared to the state-of-the-art by 11.4% for body mass index, 18.9% for systolic blood pressure, 7.5% for LDL, 35% for C-reactive protein, 16.2% for height, 29.6 % for pulse rate; in addition, Delphi provides 2% absolute explained variance for blood glucose while other tested methods were non-predictive. Furthermore, we show that Delphi tends to increase the weight of high-effect mutations. This work demonstrates an effective deep learning method for modeling genetic risk that also showed to generalize well when evaluated on individuals from non-European ancestries.
Autores: Costa Georgantas, Z. Kutalik, J. Richiardi
Última actualización: 2024-07-16 00:00:00
Idioma: English
Fuente URL: https://www.medrxiv.org/content/10.1101/2024.04.19.24306079
Fuente PDF: https://www.medrxiv.org/content/10.1101/2024.04.19.24306079.full.pdf
Licencia: https://creativecommons.org/licenses/by-nc/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a medrxiv por el uso de su interoperabilidad de acceso abierto.