Simple Science

Scienza all'avanguardia spiegata semplicemente

# La biologia# Bioinformatica

Previsione delle caratteristiche delle piante usando dati multi-omici

Questo studio analizza la previsione delle caratteristiche in Arabidopsis usando vari tipi di dati.

― 6 leggere min


Multi-Omica nellaMulti-Omica nellaPredizione dei Trattidelle Pianteprevisioni sui tratti nell'Arabidopsis.Combinare i tipi di dati migliora le
Indice

Tradurre le informazioni genetiche (genotipi) in tratti osservabili (fenotipi) nelle piante è un compito complicato. Questo perché molti fattori genetici diversi influenzano i tratti che vediamo. Gli scienziati di solito usano informazioni sulla variazione genetica per fare previsioni su questi tratti. Tuttavia, i ricercatori hanno anche ottenuto successo utilizzando diversi tipi di dati.

Ad esempio, gli scienziati hanno utilizzato dati sull'Espressione genica per prevedere quanto tempo impiega una pianta a fiorire e quanto può produrre. Hanno anche usato dati sulle modifiche chimiche del DNA per prevedere il tempo di fioritura e l'altezza della pianta. Inoltre, informazioni sui metaboliti vegetali hanno dimostrato di aiutare a prevedere tratti legati alla crescita e alla produzione in colture come il mais e il riso.

Anche se avere più tipi di dati può aiutare con le previsioni, combinare questi diversi set di dati è ancora raro per le piante che non sono utilizzate per la ricerca medica. Un progetto importante, il Progetto Genoma Arabidopsis 1001, ha raccolto un sacco di dati utili su una pianta modello comune, l'Arabidopsis thaliana. Questo progetto ha fornito ai ricercatori dati fenotipici, genomi, espressione genica e Metilazione del DNA per molte diverse accessioni di questa pianta. Questi set di dati offrono l'opportunità di utilizzare metodi avanzati, come il machine learning, per comprendere meglio tratti complessi.

Obiettivi della ricerca

In questo studio, volevamo creare modelli per prevedere sei tratti diversi nelle piante di Arabidopsis usando dati genomici, di espressione genica e di metilazione sia separatamente che insieme. I tratti su cui ci siamo concentrati includevano il tempo di fioritura, il numero di foglie rosetta, il numero di foglie cauline, il diametro della rosetta, il numero di rami della rosetta e la lunghezza del gambo fiorito. Abbiamo raccolto dati su questi tratti da vari studi che coinvolgevano molte accessioni vegetali.

Per cominciare, volevamo capire quanto bene la variazione nei tratti corrispondesse alle variazioni nei dati omici. Abbiamo utilizzato due metodi di machine learning, ridge regression (rrBLUP) e Random Forest (RF), per analizzare i dati. Studi precedenti hanno mostrato che questi metodi spesso funzionano bene. Interpretando i nostri modelli di machine learning, volevamo anche identificare i geni importanti che contribuivano a prevedere questi tratti.

Panoramica dei metodi

Raccolta e preparazione dei dati

Per raccogliere dati per questo studio, abbiamo ottenuto sei tratti dalle accessioni di Arabidopsis. Sono stati acquisiti dati sul tempo di fioritura, numero di foglie rosetta, numero di foglie cauline, diametro della rosetta, numero di rami della rosetta e lunghezza del gambo. I campioni per i dati genomici, di espressione genica e di metilazione sono stati prelevati dalle foglie rosetta poco prima che le piante iniziassero a fiorire.

Abbiamo quindi confrontato la somiglianza tra i valori dei tratti e i dati omici utilizzando matrici di somiglianza. Per costruire i nostri modelli predittivi, abbiamo suddiviso i dati in due set: un set di addestramento e un set di test. Il set di addestramento è stato usato per addestrare i modelli, mentre il set di test ci ha permesso di valutare quanto bene i modelli funzionassero.

Costruzione del modello

I modelli si sono concentrati su quanto bene potevamo prevedere i tratti usando dati genomici, di espressione genica e di metilazione. Per ogni tratto, abbiamo confrontato le prestazioni dei modelli costruiti con diversi tipi di dati omici. Abbiamo calcolato quanto bene le previsioni del modello corrispondessero ai valori effettivi usando coefficienti di correlazione.

Importanza delle Caratteristiche

Per capire quali caratteristiche fossero più importanti nella previsione dei tratti, abbiamo esaminato tre diversi modi di misurare l'importanza delle caratteristiche. Abbiamo esaminato i contributi delle caratteristiche dai nostri modelli per determinare quali geni fossero più influenti nella previsione del tempo di fioritura.

Risultati

Previsione di tratti complessi

I nostri modelli hanno indicato che l'uso di singoli tipi di dati omici può prevedere tratti, ma le correlazioni erano generalmente basse. Confrontando dati genetici, dati di espressione genica e dati di metilazione, abbiamo notato che i modelli basati su tipi omici separati hanno funzionato in modo simile. Tuttavia, i modelli creati combinando diversi tipi di dati hanno mostrato prestazioni migliorate, in particolare quando si utilizza il metodo RF, che può tenere conto delle interazioni complesse tra le caratteristiche.

Importanza dei geni nella previsione del tempo di fioritura

Quando abbiamo analizzato l'importanza delle caratteristiche per prevedere il tempo di fioritura, abbiamo trovato che diversi set di dati omici identificano diversi gruppi di geni importanti. Alcuni geni ben conosciuti legati alla regolazione del tempo di fioritura sono stati identificati attraverso più set di dati, mentre altri erano unici per tipi specifici di dati. Alcuni geni, come il FLOWERING LOCUS C (FLC), sono stati riconosciuti come importanti da tutti e tre i tipi di dati, mentre molti altri geni sono stati identificati solo in un set di dati.

Nonostante l'identificazione dei geni chiave per il tempo di fioritura, abbiamo scoperto che molti geni importanti non si sovrapponevano tra i diversi dati omici. Questo significa che ogni tipo di dato ha contribuito in modo unico alla nostra comprensione dei fattori genetici coinvolti nel tempo di fioritura.

Geni nuovi identificati

Oltre ai geni di riferimento noti per il loro coinvolgimento nel tempo di fioritura, abbiamo scoperto un certo numero di geni nuovi che avevano ruoli importanti nei nostri modelli predittivi. Alcuni di questi geni nuovi sono stati validati attraverso esperimenti, mostrando effetti significativi sul tempo di fioritura quando mutati.

Accessioni e effetti ambientali

Abbiamo scoperto che l'impatto di diversi geni sul tempo di fioritura poteva differire tra le accessioni. Questo significa che la stessa caratteristica genetica potrebbe avere effetti diversi a seconda del background genetico della pianta. Inoltre, fattori ambientali come la temperatura influenzavano l'importanza di specifici geni nelle previsioni del tempo di fioritura.

Discussione

Importanza dei dati multi-omici

I nostri risultati hanno confermato il valore di integrare diversi tipi di dati omici quando si prevedono tratti complessi nelle piante. La capacità di sfruttare dati genomici, trascrittomici e metilomici ci ha aiutato a identificare non solo geni già noti per il tempo di fioritura, ma anche geni aggiuntivi che potrebbero giocare un ruolo nella regolazione di questo tratto.

Sfide e direzioni future

Sebbene i nostri modelli abbiano raggiunto un certo successo nell'identificare geni importanti, c'è ancora margine di miglioramento. La complessità coinvolta nella previsione dei tratti suggerisce che sono necessarie raccolte e analisi di dati più complete. Le ricerche future potrebbero beneficiare dalla considerazione di fattori aggiuntivi come l'architettura della cromatina e le espressioni specifiche del tipo cellulare, che potrebbero migliorare la nostra comprensione della base genetica dei tratti.

Conclusione

In generale, questo studio ha dimostrato le sfide e le possibilità di utilizzare dati multi-omici per prevedere tratti complessi nelle piante. Comprendere come diversi fattori genetici contribuiscono a tratti come il tempo di fioritura può portare a migliori intuizioni nella biologia vegetale e potenzialmente migliorare le strategie di allevamento in agricoltura.

Questa ricerca sottolinea come gli approcci di machine learning possano rivelare le intricate relazioni tra geni, tratti e fattori ambientali. L'identificazione di geni sia noti che nuovi ci fornisce informazioni preziose che potrebbero aprire la strada a studi futuri mirati a svelare la base genetica di tratti complessi nelle piante.

Fonte originale

Titolo: Prediction of plant complex traits via integration of multi-omics data

Estratto: The formation of complex traits is the consequence of genotype and activities at multiple molecular levels. However, connecting genotypes and these activities to complex traits remains challenging. Here, we investigated whether integrating different omics data could improve trait prediction. We built prediction models using genomic, transcriptomic, and methylomic data from the Arabidopsis 1001 Genomes Project for six Arabidopsis traits, and found that transcriptome- and methylome-based models had performances comparable to those of genome-based models. However, when comparing models for flowering time prediction, we found that models built using different omics data identified different benchmark genes. Nine novel genes identified as important for flowering time from our models were experimentally validated as regulating flowering. In addition, we found that gene contributions to flowering time prediction are accession-dependent and that distinct genes contribute to trait prediction in different genetic backgrounds. Models integrating multi-omics data performed best and revealed known and novel gene interactions, extending knowledge about existing regulatory networks underlying flowering time determination. These results demonstrate the feasibility of revealing molecular mechanisms underlying complex traits through multi-omics data integration.

Autori: Shin-Han Shiu, P. Wang, M. D. Lehti-Shiu, S. Lotreck, K. Segura Aba, P. J. Krysan

Ultimo aggiornamento: 2024-03-26 00:00:00

Lingua: English

URL di origine: https://www.biorxiv.org/content/10.1101/2023.11.14.566971

Fonte PDF: https://www.biorxiv.org/content/10.1101/2023.11.14.566971.full.pdf

Licenza: https://creativecommons.org/licenses/by-nc/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili