Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Biología# Genómica

Aprovechando el aprendizaje automático para el análisis demográfico

Nuevos métodos que usan aprendizaje automático mejoran el análisis de la historia demográfica a través de datos genéticos.

― 10 minilectura


Inferencia DemográficaInferencia DemográficaUsando Donnianálisis demográfico.Un enfoque rápido y eficiente para el
Tabla de contenidos

Usar información genética para rastrear la historia de las poblaciones se ha vuelto algo común en muchos estudios científicos. Los investigadores a menudo examinan cómo las personas y los animales se han movido por el mundo a lo largo del tiempo. Esto puede ayudarnos a entender de dónde venimos y cómo los diferentes grupos están relacionados entre sí. Ingresar datos genómicos permite a los científicos obtener información sobre patrones de migración y cambios poblacionales.

Una forma de analizar estos datos genéticos es observando el Espectro de Frecuencia Alélica (AFS). Esto es una manera de resumir cómo se presentan diferentes variantes genéticas en varias poblaciones. Al recopilar esta información, los investigadores pueden deducir cosas como tamaños de población, tasas de migración y cambios históricos.

Sin embargo, a medida que la cantidad de datos genéticos sigue creciendo, también lo hace el desafío de procesarlos de manera eficiente. Esto se debe a que analizar datos genéticos generalmente requiere una gran potencia computacional y tiempo. Por lo tanto, hay una necesidad urgente de nuevos métodos más rápidos para extraer información significativa de grandes conjuntos de datos genómicos.

¿Qué es el Espectro de Frecuencia Alélica (AFS)?

El espectro de frecuencia alélica es, en esencia, un resumen de la variación genética en una población. Representa cuántas veces aparecen diferentes variantes de un gen en múltiples individuos de esa población. Cada entrada en el AFS corresponde al número de polimorfismos de un solo nucleótido (SNPs), que son variaciones en un solo nucleótido que ocurren en una posición específica del genoma.

Por ejemplo, si una población tiene variantes que aparecen una vez (singleton) y otra población tiene algunas variantes que aparecen dos veces (doubletons), el AFS ayuda a contar estas ocurrencias. Este tipo de datos es particularmente útil porque puede ampliarse para analizar genomas completos, convirtiéndolo en una herramienta valiosa para investigadores que trabajan en genética poblacional.

La Importancia de la Historia demográfica

Entender la historia demográfica es crucial por muchas razones. Ayuda a los científicos a detectar la selección natural en poblaciones, relacionar datos genéticos con enfermedades específicas y encontrar áreas en el ADN donde ocurren eventos de recombinación. Debido a esto, capturar e interpretar con precisión la historia demográfica usando datos genéticos es esencial para una variedad de campos científicos.

Sin embargo, construir modelos confiables para la historia demográfica es complejo, ya que hay innumerables modelos y variaciones posibles. Muchos métodos computacionales pueden ser bastante exigentes en recursos, lo que requiere el desarrollo de velocidad y eficiencia en el procesamiento de datos.

Métodos Actuales de Análisis

Muchos métodos actuales se basan en resumir datos como un AFS. Estos métodos generalmente implican calcular la probabilidad de observar los datos bajo un modelo demográfico específico. Este modelo incluye parámetros como tamaños de población, tasas de migración y cuándo divergieron las poblaciones. El desafío es que calcular el AFS esperado es intensivo computacionalmente, especialmente al tratar con grandes conjuntos de datos genómicos.

Los avances recientes se han centrado en desarrollar algoritmos diseñados para acelerar el cálculo del AFS esperado. Sin embargo, la forma en que se almacenan y utilizan estos datos computados para el análisis a menudo ha sido pasada por alto. En la práctica, los investigadores generan miles de AFS esperados pero frecuentemente los desechan después de ejecutar cada proceso de optimización.

La idea es que si estos AFS pudieran ser almacenados y compartidos entre investigadores, se ahorraría tiempo y recursos. Muchas veces, los modelos demográficos populares se reutilizan en varios estudios, y esto podría agilizar significativamente el proceso de análisis.

Aprendizaje automático en Inferencia Demográfica

Para mejorar la situación, los investigadores están comenzando a mirar hacia el aprendizaje automático (ML). Usar ML permite a los científicos capturar la relación entre AFS y parámetros de la historia demográfica. En este contexto, se genera un conjunto de datos de entrenamiento, que incluye vectores de características (los datos AFS) y etiquetas (los parámetros demográficos).

Entrenar modelos de aprendizaje automático puede ser costoso computacionalmente, pero una vez entrenados, pueden hacer predicciones con un costo adicional mínimo. Estudios recientes han demostrado que modelos de aprendizaje automático como bosques aleatorios y redes neuronales pueden interpretar de manera efectiva los datos AFS para la selección de modelos demográficos y la inferencia de parámetros. Esto indica un cambio en la forma en que los investigadores están analizando los datos genéticos, buscando eficiencia y escalabilidad.

Presentando donni

La nueva forma de analizar la historia demográfica es donni, que significa Optimización Demográfica a través de Inferencia por Redes Neuronales. Donni es una extensión de métodos existentes que usan AFS para inferir la historia demográfica. Aprovecha el aprendizaje automático para acelerar el proceso de inferir parámetros demográficos.

Donni genera AFS y etiquetas demográficas correspondientes para entrenar redes. Una vez entrenadas, estas redes permiten a los investigadores inferir rápidamente los parámetros demográficos a partir de nuevos AFS sin tener que pasar por el largo proceso de optimización de probabilidad.

Donni admite varios parámetros demográficos, como tamaños de población, tasas de migración y tiempos de divergencia. Ha demostrado ser comparable en precisión a métodos anteriores mientras requiere significativamente menos recursos computacionales.

Cómo Funciona Donni

El flujo de trabajo de donni implica varios pasos. Primero, los investigadores especifican un modelo demográfico y dibujan conjuntos de parámetros dentro de un rango biológicamente relevante. Esto significa que crean AFS esperados para estos modelos, que se utilizan como datos de entrenamiento para las redes de aprendizaje automático.

Las redes están diseñadas para proporcionar tanto una estimación media del parámetro demográfico como su incertidumbre asociada. A diferencia de métodos anteriores, donde la Estimación de Incertidumbre recibió poca atención, donni se centra en proporcionar estas estimaciones para asegurar que los investigadores entiendan la fiabilidad de sus inferencias.

Varianza en el Entrenamiento de AFS

Un factor que puede afectar el rendimiento de donni es la varianza presente en los datos AFS. Dado que el AFS calculado a partir de observaciones reales contendrá un cierto nivel de variabilidad, entender cómo esto afecta el entrenamiento y desempeño de las redes de aprendizaje automático es esencial.

En experimentos iniciales, se descubrió que entrenar en AFS con niveles más bajos de varianza, o sin varianza en absoluto, llevó a una mejor precisión en diferentes casos de prueba. Esta conclusión guió las elecciones hechas durante el proceso de entrenamiento.

Comparación con Otros Métodos

Para evaluar el rendimiento de donni, se hicieron comparaciones con métodos tradicionales como dadi, que utiliza optimización de probabilidad. Durante la validación, donni demostró una precisión comparable en la inferencia de parámetros demográficos a través de varios modelos.

Lo que hace destacar a donni es su eficiencia. Mientras que optimizar parámetros demográficos a través de métodos tradicionales puede requerir recursos computacionales extensos y tiempo, las redes entrenadas de donni pueden generar estimaciones rápidamente y con menos potencia de cálculo. Esto podría ser particularmente beneficioso para investigadores que trabajan con grandes conjuntos de datos.

Estimación de Incertidumbre

Una característica esencial de donni es su capacidad para proporcionar estimaciones de incertidumbre para los parámetros inferidos. Esto es crucial, ya que algunos parámetros demográficos pueden ser difíciles de definir con precisión debido a señales superpuestas de diferentes modelos. Donni calcula intervalos de confianza basados en los resultados de las redes entrenadas que reflejan la variabilidad en los resultados.

Al entender la incertidumbre asociada con sus estimaciones, los investigadores pueden interpretar mejor sus hallazgos y evitar sacar conclusiones engañosas.

Manejo de Vínculos entre Alelos

Un desafío al analizar datos genéticos es gestionar variantes vinculadas. En las poblaciones, los genes ubicados cerca unos de otros en un cromosoma probablemente se heredan juntos durante el proceso de recombinación. Donni fue probado en datos que incluían vínculos, y demostró la capacidad de mantener precisión en la inferencia de parámetros incluso con niveles variables de vínculo.

Este aspecto asegura que donni pueda proporcionar información valiosa incluso en escenarios genéticos más complejos.

Aplicaciones Prácticas de Donni

La velocidad y eficiencia de donni lo hacen particularmente útil para investigadores que quieren analizar rápidamente escenarios demográficos con sus conjuntos de datos. Las redes entrenadas están disponibles para varios modelos demográficos, lo que permite estimaciones de parámetros rápidas en diferentes escenarios.

Los investigadores se benefician de la opción de generar modelos personalizados, que pueden ser compartidos dentro de la comunidad científica. Este enfoque colaborativo puede mejorar enormemente la rapidez con la que se derivan nuevos hallazgos a partir de datos genéticos.

Direcciones Futuras

Todavía hay problemas no resueltos en cuanto a cuán bien donni puede escalar con tamaños de muestra cada vez más grandes y modelos más complejos. La alta dimensionalidad involucrada en el AFS se convierte en un desafío al intentar sacar conclusiones válidas a partir de los datos.

Sin embargo, el enfoque tomado con donni representa un paso prometedor hacia la superación de estos desafíos. La integración de aprendizaje automático con el análisis tradicional de historia demográfica es un campo de estudio emocionante que podría dar lugar a más mejoras en investigaciones futuras.

Conclusión

En resumen, donni representa un avance significativo en la forma en que los investigadores pueden analizar la historia demográfica utilizando datos genéticos. Al utilizar el aprendizaje automático, ofrece una alternativa eficiente a los métodos tradicionales que a menudo enfrentan limitaciones de tiempo y computación.

Esto permite a los científicos inferir parámetros demográficos de manera rápida y precisa mientras proporciona valiosas estimaciones de incertidumbre. A medida que la investigación genética continúa expandiéndose, herramientas como donni jugarán un papel esencial en ayudar a los científicos a desentrañar los misterios de la historia poblacional.

Con desarrollos en curso y esfuerzos colaborativos dentro de la comunidad científica, hay un gran potencial para mejorar aún más la eficiencia y la comprensión en la inferencia demográfica, mejorando en última instancia nuestro conocimiento de la genética poblacional.

Fuente original

Título: Computationally efficient demographic history inference from allele frequencies with supervised machine learning

Resumen: Inferring past demographic history of natural populations from genomic data is of central concern in many studies across research fields. Previously, our group had developed dadi, a widely used demographic history inference method based on the allele frequency spectrum (AFS) and maximum composite likelihood optimization. However, dadis optimization procedure can be computationally expensive. Here, we developed donni (demography optimization via neural network inference), a new inference method based on dadi that is more efficient while maintaining comparable inference accuracy. For each dadi-supported demographic model, donni simulates the expected AFS for a range of model parameters then trains a set of Mean Variance Estimation neural networks using the simulated AFS. Trained networks can then be used to instantaneously infer the model parameters from future input data AFS. We demonstrated that for many demographic models, donni can infer some parameters, such as population size changes, very well and other parameters, such as migration rates and times of demographic events, fairly well. Importantly, donni provides both parameter and confidence interval estimates from input AFS with accuracy comparable to parameters inferred by dadis likelihood optimization while bypassing its long and computationally intensive evaluation process. donnis performance demonstrates that supervised machine learning algorithms may be a promising avenue for developing more sustainable and computationally efficient demographic history inference methods.

Autores: Ryan N Gutenkunst, L. N. Tran, C. K. Sun, T. J. Struck, M. Sajan

Última actualización: 2024-02-15 00:00:00

Idioma: English

Fuente URL: https://www.biorxiv.org/content/10.1101/2023.05.24.542158

Fuente PDF: https://www.biorxiv.org/content/10.1101/2023.05.24.542158.full.pdf

Licencia: https://creativecommons.org/licenses/by-nc/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares