Mejorando la investigación genómica a través de la augmentación filogenética
Los científicos usan secuencias homólogas para mejorar modelos de aprendizaje profundo en genómica.
― 7 minilectura
Tabla de contenidos
- El rol del Deep Learning en Genómica
- Desafíos con la disponibilidad de datos
- Técnicas de Aumento de Datos
- El poder de las secuencias homólogas
- Cómo funciona el aumento filogenético
- Beneficios del aumento filogenético
- Aplicaciones del mundo real
- Explorando el impacto de los hiperparámetros
- Conclusión
- Fuente original
En el mundo de la genética, entender cómo se comportan los genes en diferentes situaciones es vital. A los científicos les interesa especialmente cómo ciertas regiones del ADN, llamadas secuencias reguladoras, influyen en los genes. Estas secuencias reguladoras le dicen a los genes cuándo encenderse o apagarse, cuánto de una proteína producir y muchas otras tareas importantes.
El deep learning, un tipo de inteligencia artificial, ayuda a los científicos a hacer predicciones sobre estos comportamientos genéticos. Al entrenar modelos computacionales con grandes cantidades de datos, los investigadores pueden analizar aspectos del ADN que antes era difícil estudiar.
El rol del Deep Learning en Genómica
Los modelos de deep learning se han vuelto muy útiles para predecir cómo se comportarán las secuencias de ADN. Pueden prever cosas como cuán accesibles son ciertas partes del ADN, dónde se unirán proteínas llamadas factores de transcripción y cómo funcionan los potenciadores. Estas predicciones se evalúan usando conjuntos de prueba, que son distintos de los datos utilizados para enseñar a los modelos. Esta separación asegura que los modelos realmente estén aprendiendo y no solo memorizando los datos de entrenamiento.
Aún más importante, cuando estos modelos de deep learning detectan patrones biológicos en los datos, pueden ayudar a profundizar nuestro conocimiento sobre los procesos biológicos. Estudios han demostrado que estos modelos pueden identificar tanto patrones familiares como nuevos dentro de las secuencias de ADN, lo que lleva a obtener información valiosa.
Desafíos con la disponibilidad de datos
Sin embargo, construir modelos de deep learning efectivos requiere muchos datos. Para muchos organismos, especialmente los menos estudiados, simplemente no hay suficiente información disponible. La mayoría de los datos detallados provienen de especies bien conocidas como humanos o ratones. Esto presenta un desafío: ¿cómo pueden los científicos crear modelos complejos cuando tienen una cantidad limitada de datos?
Una solución propuesta es generar datos artificiales probando secuencias de ADN aleatorias en el laboratorio y evaluándolas contra secuencias genómicas reales. La idea es que las secuencias de ADN naturales no tienen suficiente variación para enseñar a los modelos todo lo que necesitan saber.
Técnicas de Aumento de Datos
Para aumentar la cantidad de datos de entrenamiento, los científicos a menudo usan una técnica llamada aumento de datos. Este proceso implica hacer copias modificadas de datos existentes. Por ejemplo, en el procesamiento de imágenes, los investigadores pueden voltear, rotar o cambiar el color de imágenes para crear nuevas versiones sin necesidad de nuevas imágenes.
En genómica, hay menos métodos de aumento personalizados disponibles. Los científicos suelen usar técnicas como crear complementos reversos de secuencias o desplazar secuencias a lo largo de la cadena de ADN. Recientemente, métodos que imitan la evolución, como introducir cambios aleatorios en las secuencias de ADN, han mostrado potencial para mejorar el rendimiento del modelo.
El poder de las secuencias homólogas
Las secuencias homólogas son secuencias de ADN de diferentes especies que comparten un ancestro común. Pueden verse diferentes, pero a menudo cumplen roles biológicos similares. Debido a que estas secuencias pueden proporcionar información valiosa sobre la función y la evolución, los investigadores están considerando usarlas como una forma de aumentar los conjuntos de datos de entrenamiento.
Incorporando secuencias homólogas de especies relacionadas, los científicos pueden mejorar la diversidad de los datos de entrenamiento, lo que podría llevar a un mejor rendimiento del modelo. Este método ha demostrado ser particularmente efectivo en varios escenarios biológicos.
Cómo funciona el aumento filogenético
El aumento filogenético significa transformar una secuencia de ADN de una especie en un homólogo de otra especie. Esta técnica utiliza alineaciones de genomas de múltiples especies para enriquecer los datos de entrenamiento. Al incluir homólogos como versiones aumentadas de las secuencias de entrenamiento, los modelos se exponen a una gama más amplia de secuencias.
La aplicación de este método implica tres pasos principales. Primero, los investigadores utilizan alineaciones de genomas de múltiples especies para identificar secuencias homólogas para cada secuencia de ADN en su conjunto de entrenamiento. Luego, aplican el aumento filogenético a estas secuencias durante el proceso de entrenamiento del modelo. Por último, después del entrenamiento, los modelos se ajustan a las secuencias originales para mejorar la precisión y reducir el sesgo.
Beneficios del aumento filogenético
Los primeros experimentos que usaron el aumento filogenético han mostrado resultados prometedores. Por ejemplo, al entrenar modelos para predecir actividades específicas en el género Drosophila, los investigadores encontraron que los modelos que usaron aumento filogenético tuvieron un mejor desempeño que aquellos que no lo utilizaron. En un ejemplo, el rendimiento del modelo aumentó significativamente cuando se incluyeron homólogos de especies estrechamente relacionadas.
Además, el aumento filogenético puede ayudar al trabajar con conjuntos de datos más pequeños. En casos donde hay regiones insuficientes de interés para un aprendizaje automático efectivo, aumentar los datos de entrenamiento con secuencias homólogas puede mejorar el rendimiento del modelo, incluso con menos datos.
Aplicaciones del mundo real
Los científicos aplicaron el método de aumento filogenético a conjuntos de datos genómicos del mundo real para probar su efectividad. Un estudio analizó datos de la línea celular Drosophila S2, donde los investigadores predecían la actividad de potenciadores. Extrajeron homólogos de múltiples especies de Drosophila y los incorporaron en su conjunto de datos de entrenamiento.
Otro análisis examinó picos de DNase-seq binarios de varias líneas celulares humanas. En este caso, los investigadores utilizaron homólogos de especies mamíferas estrechamente relacionadas. Los resultados mostraron una mejora notable en las predicciones del modelo al usar aumento filogenético.
Además, el método demostró ser útil al entrenar modelos en conjuntos de datos mucho más pequeños, como los que examinan proteínas que se unen al ARN en levaduras. Los investigadores encontraron que aplicar aumento filogenético aumentó significativamente la capacidad del modelo para predecir características biológicas relevantes.
Explorando el impacto de los hiperparámetros
Para evaluar la efectividad del aumento filogenético, los investigadores exploraron varios factores, conocidos como hiperparámetros. Una área crítica que analizaron fue el número de especies incluidas en el proceso de aumento. Entrenaron modelos con diferentes especies, midiendo las mejoras en el rendimiento predictivo.
También examinaron cómo la tasa de aumento aplicada durante el entrenamiento del modelo afectó los resultados. Los hallazgos iniciales indicaron que aplicar aumento a una tasa moderada llevó a mejores resultados que sobreutilizarlo en cada secuencia de entrenamiento. Esto sugiere que hay una cantidad óptima de aumento necesaria para maximizar el rendimiento sin introducir demasiada variabilidad.
Conclusión
El aumento filogenético representa una herramienta poderosa para avanzar en la investigación genómica utilizando deep learning. Al utilizar secuencias homólogas de especies relacionadas, los investigadores pueden superar las limitaciones de datos y crear modelos con capacidades predictivas mejoradas.
A medida que el deep learning sigue desempeñando un papel crítico en la comprensión de la genética, métodos como el aumento filogenético tienen el potencial de mejorar significativamente la eficiencia y efectividad de estos modelos.
En una era donde los grandes conjuntos de datos están cada vez más disponibles, este método podría ayudar a los investigadores a extraer información biológica vital, contribuyendo, en última instancia, a nuestra comprensión de los complejos mecanismos genéticos.
Con su amplia aplicabilidad en diversas especies y condiciones experimentales, el aumento filogenético tiene potencial para futuros avances en genómica.
Título: Improving the performance of supervised deep learning for regulatory genomics using phylogenetic augmentation
Resumen: Structured abstractO_ST_ABSMotivationC_ST_ABSSupervised deep learning is used to model the complex relationship between genomic sequence and regulatory function. Understanding how these models make predictions can provide biological insight into regulatory functions. Given the complexity of the sequence to regulatory function mapping (the cis-regulatory code), it has been suggested that the genome contains insufficient sequence variation to train models with suitable complexity. Data augmentation is a widely used approach to increase the data variation available for model training, however current data augmentation methods for genomic sequence data are limited. ResultsInspired by the success of comparative genomics, we show that augmenting genomic sequences with evolutionarily related sequences from other species, which we term phylogenetic augmentation, improves the performance of deep learning models trained on regulatory genomic sequences to predict high-throughput functional assay measurements. Additionally, we show that phylogenetic augmentation can rescue model performance when the training set is down-sampled and permits deep learning on a real-world small dataset, demonstrating that this approach improves experimental data efficiency. Overall, this data augmentation method represents a solution for improving model performance that is applicable to many supervised deep learning problems in genomics. Availability and implementationThe open-source GitHub repository agduncan94/phylogenetic_augmentation_paper includes the code for rerunning the analyses here and recreating the figures. [email protected]
Autores: Alan M Moses, A. G. Duncan, J. A. Mitchell
Última actualización: 2024-01-17 00:00:00
Idioma: English
Fuente URL: https://www.biorxiv.org/content/10.1101/2023.09.15.558005
Fuente PDF: https://www.biorxiv.org/content/10.1101/2023.09.15.558005.full.pdf
Licencia: https://creativecommons.org/licenses/by-nc/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.