Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Biología# Bioinformática

Prediciendo rasgos de plantas usando datos multi-ómicas

Este estudio analiza la predicción de rasgos en Arabidopsis usando varios tipos de datos.

― 7 minilectura


Multi-Ómicas en laMulti-Ómicas en laPredicción de Rasgos dePlantaspredicciones de rasgos en Arabidopsis.Combinar tipos de datos mejora las
Tabla de contenidos

Traducir la información genética (genotipos) en Rasgos observables (fenotipos) en plantas es una tarea complicada. Esto es porque muchos factores genéticos diferentes influyen en los rasgos que vemos. Los científicos suelen usar información de la variación genética para hacer predicciones sobre estos rasgos. Sin embargo, los investigadores también han tenido éxito usando diferentes tipos de datos.

Por ejemplo, los científicos han usado datos de expresión genética para predecir cuánto tarda en florecer las plantas y cuánto pueden producir. También han utilizado datos sobre modificaciones químicas en el ADN para predecir el tiempo de floración y la altura de la planta. Además, se ha demostrado que la información sobre metabolitos de plantas ayuda a predecir rasgos relacionados con el crecimiento y la producción en cultivos como el maíz y el arroz.

Aunque tener múltiples tipos de datos puede ayudar con las predicciones, combinar estos diferentes conjuntos de datos sigue siendo raro en plantas que no se utilizan para investigación médica. Un gran proyecto, el Proyecto de los 1001 Genomas de Arabidopsis, recolectó un montón de datos útiles sobre una planta modelo común, Arabidopsis thaliana. Este proyecto proporcionó a los investigadores datos fenotípicos, Genómicos, de Expresión Génica y de Metilación del ADN para muchas accesiones diferentes de esta planta. Estos conjuntos de datos ofrecen una oportunidad para utilizar métodos avanzados, como el aprendizaje automático, para entender mejor rasgos complejos.

Objetivos de la Investigación

En este estudio, buscamos crear modelos para predecir seis rasgos diferentes en plantas de Arabidopsis utilizando datos genómicos, de expresión génica y de metilación, tanto individualmente como juntos. Los rasgos en los que nos enfocamos incluyeron el tiempo de floración, el número de hojas en roseta, el número de hojas caulinares, el diámetro de la roseta, el número de ramas de roseta y la longitud del tallo en flor. Recolectamos datos sobre estos rasgos de varios estudios que involucraban muchas accesiones de plantas.

Para empezar, queríamos entender qué tan bien la variación en los rasgos coincidía con las variaciones en los datos ómicos. Usamos dos métodos de aprendizaje automático, regresión ridge (rrBLUP) y Random Forest (RF), para analizar los datos. Estudios anteriores mostraron que estos métodos suelen tener un buen desempeño. Al interpretar nuestros modelos de aprendizaje automático, también queríamos identificar los genes importantes que contribuyeron a predecir estos rasgos.

Resumen de Métodos

Recolección y Preparación de Datos

Para recolectar datos para este estudio, reunimos seis rasgos de accesiones de Arabidopsis. Se obtuvo información sobre el tiempo de floración, el número de hojas en roseta, el número de hojas caulinares, el diámetro de la roseta, el número de ramas de roseta y la longitud del tallo. Las muestras para los datos genómicos, de expresión génica y de metilación se tomaron de las hojas en roseta justo antes de que las plantas comenzaran a florecer.

Luego comparamos la similitud entre los valores de rasgos y los datos ómicos usando matrices de similitud. Para construir nuestros modelos predictivos, dividimos los datos en dos conjuntos: un conjunto de entrenamiento y un conjunto de prueba. El conjunto de entrenamiento se usó para entrenar los modelos, mientras que el conjunto de prueba nos permitió evaluar qué tan bien funcionaron los modelos.

Construcción de Modelos

Los modelos se centraron en qué tan bien podíamos predecir los rasgos utilizando datos genómicos, de expresión génica y de metilación. Para cada rasgo, comparamos el desempeño de los modelos construidos con diferentes tipos de datos ómicos. Calculamos qué tan bien las predicciones del modelo coincidían con los valores reales usando coeficientes de correlación.

Importancia de las Características

Para entender cuáles características eran más importantes en la predicción de rasgos, miramos tres maneras diferentes de medir la importancia de las características. Examinamos las contribuciones de las características de nuestros modelos para determinar qué genes eran los más influyentes en la predicción del tiempo de floración.

Resultados

Predicción de Rasgos Complejos

Nuestros modelos indicaron que usar tipos de datos ómicos individuales podía predecir rasgos, pero las correlaciones eran generalmente bajas. Al comparar los datos genéticos, datos de expresión génica y datos de metilación, notamos que los modelos basados en tipos ómicos separados funcionaban de manera similar. Sin embargo, los modelos creados combinando diferentes tipos de datos mostraron un mejor desempeño, particularmente al usar el método RF, que puede tener en cuenta interacciones complejas entre características.

Importancia de los Genes en la Predicción del Tiempo de Floración

Cuando analizamos la importancia de las características para predecir el tiempo de floración, encontramos que diferentes conjuntos de datos ómicos identificaron diferentes conjuntos de genes importantes. Algunos genes bien conocidos relacionados con la regulación del tiempo de floración se identificaron en múltiples conjuntos de datos, mientras que otros eran únicos para tipos específicos de datos. Unos pocos genes, como FLOWERING LOCUS C (FLC), fueron reconocidos como importantes por los tres tipos de datos, mientras que muchos otros genes solo fueron identificados en un conjunto de datos.

A pesar de identificar genes clave para el tiempo de floración, descubrimos que muchos genes importantes no se solapaban entre los diferentes datos ómicos. Esto significa que cada tipo de datos contribuyó de manera única a nuestra comprensión de los factores genéticos involucrados en el tiempo de floración.

Genes Nuevos Identificados

Además de los genes de referencia conocidos por estar involucrados en el tiempo de floración, descubrimos varios genes nuevos que desempeñaron roles importantes en nuestros modelos predictivos. Algunos de estos genes nuevos fueron validados a través de experimentos, mostrando efectos significativos en el tiempo de floración cuando fueron mutados.

Accesiones y Efectos Ambientales

Descubrimos que el impacto de varios genes en el tiempo de floración podía diferir entre accesiones. Esto significa que la misma característica genética podría tener efectos variados según el fondo genético de la planta. Además, factores ambientales como la temperatura afectaron la importancia de genes específicos en las predicciones del tiempo de floración.

Discusión

Importancia de los Datos Multi-Ómicos

Nuestros hallazgos confirmaron el valor de integrar diferentes tipos de datos ómicos al predecir rasgos complejos en plantas. La capacidad de aprovechar datos genómicos, transcriptómicos y metilómicos nos ayudó a identificar no solo genes establecidos de tiempo de floración, sino también genes adicionales que podrían desempeñar un papel en la regulación de este rasgo.

Desafíos y Direcciones Futuras

Aunque nuestros modelos lograron cierto éxito en identificar genes importantes, aún hay margen de mejora. La complejidad involucrada en predecir rasgos sugiere que se necesitan colecciones y análisis de datos más completos. La investigación futura podría beneficiarse al considerar factores adicionales como la arquitectura de la cromatina y expresiones específicas de tipo celular, lo que podría mejorar nuestra comprensión de la base genética de los rasgos.

Conclusión

En general, este estudio demostró los desafíos y posibilidades de usar datos multi-ómicos para predecir rasgos complejos en plantas. Entender cómo diferentes factores genéticos contribuyen a rasgos como el tiempo de floración puede llevar a mejores conocimientos en biología vegetal y potencialmente mejorar estrategias de cría en agricultura.

Esta investigación destaca cómo los enfoques de aprendizaje automático pueden revelar las intrincadas relaciones entre genes, rasgos y factores ambientales. La identificación de genes conocidos y nuevos nos brinda información valiosa que podría allanar el camino para futuros estudios orientados a desentrañar la base genética de rasgos complejos en plantas.

Fuente original

Título: Prediction of plant complex traits via integration of multi-omics data

Resumen: The formation of complex traits is the consequence of genotype and activities at multiple molecular levels. However, connecting genotypes and these activities to complex traits remains challenging. Here, we investigated whether integrating different omics data could improve trait prediction. We built prediction models using genomic, transcriptomic, and methylomic data from the Arabidopsis 1001 Genomes Project for six Arabidopsis traits, and found that transcriptome- and methylome-based models had performances comparable to those of genome-based models. However, when comparing models for flowering time prediction, we found that models built using different omics data identified different benchmark genes. Nine novel genes identified as important for flowering time from our models were experimentally validated as regulating flowering. In addition, we found that gene contributions to flowering time prediction are accession-dependent and that distinct genes contribute to trait prediction in different genetic backgrounds. Models integrating multi-omics data performed best and revealed known and novel gene interactions, extending knowledge about existing regulatory networks underlying flowering time determination. These results demonstrate the feasibility of revealing molecular mechanisms underlying complex traits through multi-omics data integration.

Autores: Shin-Han Shiu, P. Wang, M. D. Lehti-Shiu, S. Lotreck, K. Segura Aba, P. J. Krysan

Última actualización: 2024-03-26 00:00:00

Idioma: English

Fuente URL: https://www.biorxiv.org/content/10.1101/2023.11.14.566971

Fuente PDF: https://www.biorxiv.org/content/10.1101/2023.11.14.566971.full.pdf

Licencia: https://creativecommons.org/licenses/by-nc/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares