El papel de las puntuaciones poligénicas en la predicción de riesgo de salud
Los puntajes poligénicos ayudan a estimar el riesgo de enfermedades usando información genética.
― 8 minilectura
Tabla de contenidos
- El Proceso de Creación de PGS
- La Creciente Importancia de PGS
- Diferentes Métodos para Calcular PGS
- Un Nuevo Flujo de Trabajo: Prspipe
- Evaluación de Métodos de PGS
- Los Hallazgos de las Evaluaciones de PGS
- La Importancia de la Coincidencia de Ancestros
- El Rol de la Validación cruzada en el Desarrollo de PGS
- Desafíos en la Investigación de PGS
- Direcciones Futuras para la Investigación de PGS
- Conclusión
- Fuente original
- Enlaces de referencia
Los puntajes poligénicos (PGS) son herramientas que se usan para estimar el riesgo de una persona de desarrollar ciertas enfermedades basándose en su genética. Estos puntajes se calculan al analizar muchas pequeñas variaciones genéticas en el genoma y combinando sus efectos. Estudios que evalúan muchas variantes genéticas a la vez, conocidos como Estudios de Asociación del Genoma Completo (GWAS), han hecho posible crear estos puntajes. Usando PGS, los investigadores pueden mejorar modelos tradicionales que predicen el riesgo de enfermedad, que usualmente dependen de la historia familiar y de biomarcadores conocidos.
El Proceso de Creación de PGS
Crear PGS implica dos pasos principales. El primer paso utiliza datos disponibles públicamente para calcular los puntajes. En esta etapa, los investigadores recopilan información sobre variantes genéticas que están asociadas con rasgos o enfermedades específicas. Ajustan los puntajes según cómo se correlacionan estas variantes entre sí. Este ajuste es importante porque algunas variantes pueden estar relacionadas y su efecto combinado necesita ser considerado. Existen varios métodos para este ajuste, que pueden incluir técnicas estadísticas que ayudan a refinar las estimaciones de la contribución de cada variante al riesgo de enfermedad.
El segundo paso requiere acceso a datos a nivel individual, como información genética específica y registros de salud, para puntuar a las personas usando estos pesos derivados. Este enfoque permite a los investigadores calcular el riesgo para los individuos basándose en sus particularidades genéticas.
La Creciente Importancia de PGS
En los últimos años, PGS ha ganado popularidad por sus aplicaciones potenciales en medicina personalizada. Estos puntajes pueden informar estrategias de prevención de enfermedades, ayudar en ensayos clínicos y guiar decisiones de tratamiento. Los investigadores están interesados en integrar PGS con otra información relacionada con la salud para crear evaluaciones de riesgo más precisas.
A pesar del potencial de PGS, hay limitaciones. Muchos estudios que comparan diferentes métodos de PGS a menudo solo utilizan unos pocos rasgos o conjuntos de datos. Esto puede no dar una representación completa de cómo estos métodos funcionan en escenarios del mundo real, donde los datos pueden ser desordenados y menos organizados.
Diferentes Métodos para Calcular PGS
Se han desarrollado numerosos métodos para calcular los pesos de PGS a partir de datos de GWAS. Estos métodos no requieren acceso directo a datos a nivel individual, lo cual a menudo puede estar restringido por preocupaciones de privacidad. En cambio, utilizan estadísticas resumidas que agregan hallazgos de estudios más grandes.
Al crear PGS, los investigadores deben elegir parámetros o configuraciones adecuadas para sus modelos. Algunos métodos permiten configuraciones automáticas que no requieren datos de los participantes, mientras que otros pueden usar datos existentes para definir los mejores parámetros para puntuar.
Un Nuevo Flujo de Trabajo: Prspipe
Para simplificar el proceso de cálculo de PGS, se desarrolló un flujo de trabajo llamado prspipe. Este flujo de trabajo puede ejecutar automáticamente múltiples métodos de PGS basándose en estadísticas resumidas de GWAS. Incorpora varias técnicas en un solo marco que los investigadores pueden usar fácilmente.
El flujo de trabajo facilita el análisis procesando estadísticas resumidas, ejecutando cálculos de PGS y armonizando datos genéticos de diferentes fuentes. Esto significa que los investigadores pueden usar este flujo de trabajo para producir resultados más consistentes y confiables, lo que ayuda a evaluar y comparar diferentes métodos de PGS.
Evaluación de Métodos de PGS
Un aspecto importante de utilizar PGS es entender qué tan bien funcionan los diferentes métodos. Las evaluaciones han mostrado que diferentes métodos de puntuación pueden dar resultados variados, y algunos puntajes pueden tener un mejor rendimiento para ciertos rasgos que otros. Al realizar evaluaciones en varios conjuntos de datos y biobancos, los investigadores pueden obtener información sobre las fortalezas y debilidades de cada método de PGS.
En una evaluación grande, los investigadores compararon el rendimiento de varios métodos de PGS en diferentes rasgos. Se enfocaron en dos grupos principales de ancestro: europeo y sudasiático. Al observar el rendimiento de PGS en múltiples biobancos, los investigadores pudieron analizar cómo variaban los puntajes dentro y entre diferentes grupos.
Los Hallazgos de las Evaluaciones de PGS
Los resultados de las evaluaciones indicó que hay una variación considerable en el rendimiento de PGS entre diferentes métodos. Mientras que algunos métodos produjeron resultados fuertes de manera consistente, otros tuvieron éxito limitado, particularmente cuando se aplicaron a ciertos rasgos o conjuntos de datos. La evaluación enfatizó la necesidad de múltiples métodos para evaluar la confiabilidad de PGS antes de aplicarlos en escenarios del mundo real.
Curiosamente, el método de PGS en conjunto, que combina puntajes de varios métodos, tendía a tener un mejor rendimiento que los métodos individuales en general. Esto indica que usar una combinación de puntajes podría brindar una estimación más robusta del riesgo de enfermedad, en lugar de depender de un solo método.
La Importancia de la Coincidencia de Ancestros
Un factor esencial en el éxito de PGS es asegurarse de que los datos genéticos utilizados se alineen con la población que se está estudiando. La coincidencia de ancestros es crucial porque la variación genética puede diferir significativamente dentro de las poblaciones. Si los datos de referencia genética usados para crear PGS no coinciden con la ascendencia de las personas que se puntúan, los resultados pueden ser menos precisos.
En las evaluaciones, los investigadores se aseguraron de emparejar los datos genéticos según la ascendencia. Esta práctica mejoró la confiabilidad del análisis, lo que llevó a mejores estimaciones del riesgo de enfermedad. También destacó el hecho de que el rendimiento de PGS podría variar dependiendo del trasfondo genético de los individuos involucrados.
Validación cruzada en el Desarrollo de PGS
El Rol de laLa validación cruzada es una técnica utilizada para evaluar qué tan bien funciona un modelo particionando los datos en subconjuntos. Los investigadores pueden usar parte del conjunto de datos para entrenar el modelo y la otra parte para evaluar su rendimiento. Este proceso es particularmente importante en el desarrollo de PGS, ya que ayuda a identificar los mejores parámetros para puntuar mientras se mitiga el riesgo de ajustar el modelo excesivamente a datos específicos.
Las evaluaciones mostraron que usar validación cruzada a menudo llevó a un mejor rendimiento en PGS en comparación con usar ajustes automáticos. Permitió a los investigadores ajustar finamente sus modelos basándose en las especificidades de los datos, resultando en predicciones de riesgo más precisas.
Desafíos en la Investigación de PGS
A pesar del progreso en las metodologías de PGS, los investigadores aún enfrentan varios desafíos. Un problema significativo es la variabilidad en el rendimiento entre biobancos y métodos. Las diferencias en cómo se diagnostican las enfermedades, las variaciones en las estructuras poblacionales y las inconsistencias en cómo se recopilan los datos genéticos pueden afectar la precisión de PGS.
Además, el panorama de la investigación genética está en constante cambio, con nuevos métodos y herramientas desarrollándose regularmente. Como resultado, mantenerse al día con los últimos avances e integrarlos en marcos existentes puede ser un desafío.
Direcciones Futuras para la Investigación de PGS
A medida que PGS sigue ganando terreno en la medicina personalizada, los investigadores están buscando activamente formas de mejorar su confiabilidad y aplicabilidad. Hay una creciente necesidad de métodos y formatos de datos estandarizados para facilitar comparaciones entre diferentes enfoques de PGS.
Adicionalmente, los investigadores buscan mejorar los cálculos de PGS incorporando poblaciones más diversas en sus estudios. Esto puede ayudar a asegurar que los métodos de PGS sean aplicables en varios trasfondos genéticos y reducir disparidades en los resultados de salud.
Conclusión
Los puntajes poligénicos representan un paso significativo hacia entender las influencias genéticas en la salud y la enfermedad. Al combinar información genética con datos de salud, los investigadores pueden predecir mejor los riesgos individuales y adaptar estrategias de prevención en consecuencia. Sin embargo, la complejidad de los datos genéticos y la variabilidad entre diferentes métodos de puntuación requieren de pruebas y evaluaciones rigurosas.
A medida que el campo de la genética avanza, la integración de PGS en la práctica clínica promete mejorar nuestra comprensión de los riesgos de enfermedad, llevando a soluciones de atención médica más personalizadas y efectivas. Con la investigación y colaboración continuas, los beneficios potenciales de PGS pueden realizarse plenamente, allanando el camino para una nueva era en la medicina.
Título: Evaluation of polygenic scoring methods in five biobanks reveals greater variability between biobanks than between methods and highlights benefits of ensemble learning
Resumen: Methods to estimate polygenic scores (PGS) from genome-wide association studies are increasingly utilized. However, independent method evaluation is lacking, and method comparisons are often limited. Here, we evaluate polygenic scores derived using seven methods in five biobank studies (totaling about 1.2 million participants) across 16 diseases and quantitative traits, building on a reference-standardized framework. We conducted meta-analyses to quantify the effects of method choice, hyperparameter tuning, method ensembling and target biobank on PGS performance. We found that no single method consistently outperformed all others. PGS effect sizes were more variable between biobanks than between methods within biobanks when methods were well-tuned. Differences between methods were largest for the two investigated autoimmune diseases, seropositive rheumatoid arthritis and type 1 diabetes. For most methods, cross-validation was more reliable for tuning hyperparameters than automatic tuning (without the use of target data). For a given target phenotype, elastic net models combining PGS across methods (ensemble PGS) tuned in the UK Biobank provided consistent, high, and cross-biobank transferable performance, increasing PGS effect sizes ({beta}-coefficients) by a median of 5.0% relative to LDpred2 and MegaPRS (the two best performing single methods when tuned with cross-validation). Our interactively browsable online-results (https://methodscomparison.intervenegeneticscores.org/) and open-source workflow prspipe (https://github.com/intervene-EU-H2020/prspipe) provide a rich resource and reference for the analysis of polygenic scoring methods across biobanks.
Autores: Remo Monti, L. Eick, G. Hudjashov, K. Läll, S. Kanoni, B. N. Wolford, B. Wingfield, O. Pain, S. Wharrie, B. Jermy, A. McMahon, T. Hartonen, H. O. Heyne, N. Mars, Genes & Health Research Team, K. Hveem, M. Inouye, D. A. van Heel, R. Mägi, P. Marttinen, S. Ripatti, A. Ganna, C. Lippert
Última actualización: 2023-11-20 00:00:00
Idioma: English
Fuente URL: https://www.medrxiv.org/content/10.1101/2023.11.20.23298215
Fuente PDF: https://www.medrxiv.org/content/10.1101/2023.11.20.23298215.full.pdf
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a medrxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://methodscomparison.intervenegeneticscores.org/
- https://github.com/intervene-EU-H2020/GenoPred
- https://methodscomparison.intervenegeneticscores.org
- https://github.com/intervene-EU-H2020/prspipe/blob/main/resources/1kg/1KGPhase3_hm3_hg19_hg38_mapping_cached.tsv.gz
- https://github.com/intervene-EU-H2020/prspipe/blob/main/workflow/rules/1kg_hm3_processing.smk
- https://github.com/intervene-EU-H2020/prspipe/blob/main/workflow/rules/genotype_harmonization.smk
- https://hunt-db.medisin.ntnu.no/hunt-db/variablelist
- https://github.com/MathiasHarrer/dmetar/blob/master/R/mlm.variance.distribution.R
- https://github.com/intervene-EU-H2020/prspipe
- https://zenodo.org/doi/10.5281/zenodo.10012995
- https://github.com/intervene-EU-H2020/pgsCompaR
- https://github.com/intervene-EU-H2020/pgs-method-compare
- https://www.ebi.ac.uk/gwas/