Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ciencias de la Salud# Medicina Genética y Genómica

Avances en el cálculo de puntajes poligénicos para riesgos de salud

Nuevos métodos mejoran la eficiencia de los puntajes poligénicos para predecir resultados de salud.

― 7 minilectura


Eficiencia en el CálculoEficiencia en el Cálculode PuntuacionesPoligénicasen la predicción de la salud.Métodos mejorados aumentan la precisión
Tabla de contenidos

Los puntajes poligénicos (PGS) son herramientas que nos ayudan a entender cómo la genética influye en la salud y las enfermedades. Pueden mostrar cuán probable es que alguien desarrolle ciertas condiciones según su composición genética. Recientemente, ha habido interés en usar PGS en entornos médicos para predecir riesgos de salud.

Cómo se Crean los Puntajes Poligénicos

Hay dos formas principales de crear PGS. La primera empieza estudiando Marcadores Genéticos individuales a través de un proceso llamado Estudios de Asociación del Genoma Completo (GWAS). En este proceso, los investigadores miran los marcadores genéticos en muchas personas para encontrar aquellos vinculados a rasgos o enfermedades específicos. Después de identificar estos marcadores, los investigadores pueden refinar sus resultados considerando las relaciones entre diferentes marcadores genéticos, sus funciones y características específicas de la población. La ventaja de este método es que se puede hacer rápida y eficientemente, pero puede que no capture toda la información detallada sobre el genoma.

El segundo método implica usar técnicas avanzadas de Aprendizaje automático que analizan grandes cantidades de datos genéticos directamente. Este enfoque puede ofrecer una representación más precisa de las relaciones genéticas, pero requiere mucho más memoria y recursos de computadora. Por ejemplo, ejecutar estos algoritmos en un grupo grande de individuos puede ocupar hasta 800 gigabytes de memoria.

Mejoras en el Cálculo de Puntajes Poligénicos

Recientemente se ha trabajado en hacer que el cálculo de PGS sea más rápido y que demande menos recursos. Una mejora implica el uso de técnicas llamadas “reglas de filtrado” y “fuertes”, que ayudan a reducir la cantidad de características que se analizan y hacen que el proceso sea más eficiente. Por ejemplo, un nuevo método llamado Batch Screening Iterative Lasso (BASIL) ha mostrado ser un 20% más rápido en comparación con otros métodos.

En la investigación, los científicos utilizaron la estructura natural del genoma para acelerar los cálculos. Descubrieron que los marcadores genéticos distantes entre sí a menudo no están correlacionados. Esto significa que los investigadores pueden analizar secciones del genoma de manera independiente, lo que reduce significativamente el tiempo y los recursos necesarios para los cálculos.

Resultados del Nuevo Enfoque

Los resultados destacan que, a pesar de las aproximaciones en los cálculos, la mayor parte del poder predictivo se mantiene intacto, siendo el nuevo método alrededor de 500 veces más rápido que los métodos tradicionales. Esta mejora representa un avance significativo en cómo se pueden calcular PGS de manera eficiente.

Una tabla de hallazgos muestra qué tan bien funciona este nuevo enfoque en comparación con métodos tradicionales en varios conjuntos de datos, específicamente mirando diferentes Condiciones de salud. En muchos casos, ambos métodos produjeron resultados similares, lo que indica que son confiables para usar en predicciones médicas.

Eficiencia del Nuevo Método

El nuevo método de PGS muestra una eficiencia considerable en términos de tiempo y uso de memoria. Los métodos tradicionales a menudo requieren una gran cantidad de poder de computadora y tiempo. Por ejemplo, ejecutar un análisis típico de PGS podría tomar de 8 a 24 horas, utilizando hasta 700 gigabytes de memoria. En contraste, el enfoque de bloques puede reducir significativamente estas necesidades, llevando a un aumento de velocidad promedio de casi 470 veces mientras solo requiere una fracción de la memoria.

Varianza Explicada por Marcadores Genéticos

Los investigadores también examinaron cuánto de la variación en rasgos de salud podría ser explicada por marcadores genéticos. Al calcular una medida aproximada de varianza en cada ubicación genética, encontraron regiones clave donde la influencia genética es fuerte. Esto ayuda a identificar qué factores genéticos son más importantes para varias condiciones de salud.

Aplicaciones de los Puntajes Poligénicos

Los PGS se han desarrollado a partir de una mezcla de datos de encuestas, códigos médicos y resultados de pruebas de laboratorio. Cada rasgo de salud considerado en la investigación depende de una combinación de estos tipos de datos. Los investigadores se aseguran de filtrar valores poco probables para garantizar que los datos restantes sean precisos.

Además, notaron la ascendencia de los participantes en ambos biobancos incluidos en esta investigación. La ascendencia juega un papel en cómo se construyen y entienden los PGS. Al identificar antecedentes genéticos, los investigadores pueden adaptar mejor las predicciones a diferentes poblaciones.

Entrenamiento y Prueba de Puntajes Poligénicos

Para asegurarse de que los PGS sean confiables, los investigadores dividieron sus muestras en grupos de entrenamiento, validación y prueba. Esto significa que usaron un grupo para construir los modelos y otro para probarlos. Esta cuidadosa separación ayuda a confirmar que los resultados son sólidos y no solo específicos de un conjunto de datos.

El proceso de entrenamiento implica crear “fenotipos residuales”, que son versiones ajustadas de los rasgos de salud principales. Al controlar otros factores como la edad y el sexo, los investigadores pueden aislar mejor la influencia genética sobre la salud.

Marcadores Genéticos Candidatos

Después de determinar qué marcadores genéticos incluir, los investigadores realizaron un GWAS para clasificar estos marcadores según su potencial influencia en condiciones de salud. Esta clasificación ayuda a identificar los factores genéticos más relevantes a considerar en la creación de PGS.

Cada marcador considerado para inclusión tuvo que cumplir ciertos criterios para evitar depender de datos engañosos. En general, usar alrededor de 50,000 de los marcadores mejor clasificados puede generar PGS confiables, aunque para el método de bloques, la cantidad de marcadores relevantes puede variar por cromosoma.

Resultados de Diferentes Métodos

Probar el rendimiento de diferentes números de marcadores genéticos mostró que alrededor de 2,273 marcadores por cromosoma es el punto ideal para lograr los mejores resultados. Este número se alinea con los métodos tradicionales, lo que indica que los investigadores pueden lograr predicciones de alta calidad usando menos recursos.

El método de bloques también permite una comparación sencilla entre diferentes conjuntos de datos y ascendencias. Esto es alentador ya que sugiere que los efectos de diversos factores, como métodos de genotipado o diferencias poblacionales, pueden no influir demasiado en el resultado.

Direcciones Futuras para los Puntajes Poligénicos

Mirando hacia el futuro, hay espacio para más mejoras y exploraciones de los métodos PGS. Las técnicas de filtrado podrían integrarse en el enfoque de bloques para hacerlo aún más rápido. Al incorporar factores adicionales como influencias ambientales o interacciones entre genes y el ambiente, los investigadores pueden trabajar hacia predicciones más precisas.

Además, los beneficios potenciales de usar PGS en entornos clínicos son sustanciales. Hay un creciente cuerpo de evidencia que sugiere que estos puntajes pueden desempeñar un papel esencial en la identificación de individuos en alto riesgo de ciertas enfermedades, lo que lleva a una mejor detección temprana y potencialmente a una reducción de los costos de atención médica.

Conclusión

En resumen, el desarrollo de métodos eficientes para calcular puntajes poligénicos marca un paso significativo hacia adelante en la genética y la medicina. Al simplificar los cálculos y mantener la precisión, los investigadores pueden predecir mejor los riesgos de salud y mejorar los resultados para los pacientes. Aunque siguen existiendo desafíos en la implementación de estas herramientas en prácticas clínicas, la investigación continua ofrece esperanza para una mayor accesibilidad e impacto en el futuro.

Fuente original

Título: Efficient blockLASSO for Polygenic Scores with Applications to All of Us and UK Biobank

Resumen: We develop a "block" LASSO (blockLASSO) method for training polygenic scores (PGS) and demonstrate its use in All of Us (AoU) and the UK Biobank (UKB). BlockLASSO utilizes the approximate block diagonal structure (due to chromosomal partition of the genome) of linkage disequilibrium (LD). LASSO optimization is performed chromosome by chromosome, which reduces computational complexity by orders of magnitude. The resulting predictors for each chromosome are combined using simple re-weighting techniques. We demonstrate that blockLASSO is generally as effective for training PGS as (global) LASSO and other approaches. This is shown for 11 different phenotypes, in two different biobanks, and across 5 different ancestry groups (African, American, East Asian, European, and South Asian). The block approach works for a wide variety of pheno-types. In the past, it has been shown that some phenotypes are more/less polygenic than others. Using sparse algorithms, an accurate PGS can be trained for type 1 diabetes (T1D) using 100 single nucleotide variants (SNVs). On the other extreme, a PGS for body mass index (BMI) would need more than 10k SNVs. blockLasso produces similar PGS for phenotypes while training with just a fraction of the variants per block. For example, within AoU (using only genetic information) block PGS for T1D (1,500 cases/113,297 controls) reaches an AUC of 0.63{+/-}0.02 and for BMI (102,949 samples) a correlation of 0.21{+/-}0.01. This is compared to a traditional global LASSO approach which finds for T1D an AUC 0.65{+/-}0.03 and BMI a correlation 0.19{+/-}0.03. Similar results are shown for a total of 11 phenotypes in both AoU and the UKB and applied to all 5 ancestry groups as defined via an Admixture analysis. In all cases the contribution from common covariates - age, sex assigned at birth, and principal components - are removed before training. This new block approach is more computationally efficient and scalable than global machine learning approaches. Genetic matrices are typically stored as memory mapped instances, but loading a million SNVs for a million participants can require 8TB of memory. Running a LASSO algorithm requires holding in memory at least two matrices this size. This requirement is so large that even large high performance computing clusters cannot perform these calculations. To circumvent this issue, most current analyses use subsets: e.g., taking a representative sample of participants and filtering SNVs via pruning and thresholding. High-end LASSO training uses [~] 500 GB of memory (e.g., [~] 400k samples and [~] 50k SNVs) and takes 12-24 hours to complete. In contrast, the block approach typically uses [~] 200x (2 orders of magnitude) less memory and runs in [~] 500x less time.

Autores: Timothy G Raben, L. Lello, E. Widen, S. D. HSU

Última actualización: 2024-06-25 00:00:00

Idioma: English

Fuente URL: https://www.medrxiv.org/content/10.1101/2024.06.25.24309482

Fuente PDF: https://www.medrxiv.org/content/10.1101/2024.06.25.24309482.full.pdf

Licencia: https://creativecommons.org/licenses/by-nc/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a medrxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares