Nuovo metodo prevede le funzioni geniche nelle piante
Un nuovo approccio combina dati genetici per prevedere meglio le funzioni nelle piante di patata.
― 5 leggere min
Indice
I sistemi biologici sono complessi e possono essere studiati a vari livelli, inclusi geni, proteine e le loro interazioni. Questo articolo parla di un nuovo metodo che combina informazioni da questi diversi livelli insieme a come i geni cambiano nel tempo per prevedere meglio cosa fanno certi geni nelle piante, specificamente nella pianta di patate. Il metodo si chiama DDeMON, che sta per Dynamic Deep learning from temporal Multiplex Ontology-annotated Networks.
La Sfida
Negli anni, gli scienziati hanno imparato molto su alcune piante, con circa il 40% dei geni nella pianta Arabidopsis con funzioni conosciute. Tuttavia, per il riso, questo numero scende a solo l'1%. Questo dimostra che c'è ancora molto che non capiamo su molti geni delle piante. Per capire meglio cosa fanno questi geni, i ricercatori usano Ontologie, che sono sistemi che categorizzano la conoscenza. Nella ricerca sulle piante, due ontologie popolari sono MapMan e la Gene Ontology.
Per fare progressi, è importante combinare dati da diverse fonti quando si studiano i sistemi biologici. Questo metodo di combinare vari tipi di dati può aiutare i ricercatori a costruire modelli migliori, utili per scoprire biomarcatori o target di farmaci.
Sebbene ci siano stati sforzi per integrare dati per organismi ben studiati come gli esseri umani e i topi, c'è ancora molto lavoro da fare per le piante, specialmente quelle che non sono comunemente studiate.
Metodologia DDeMON
L'approccio DDeMON usa una combinazione di vari livelli di informazioni biologiche, guardando a come i geni interagiscono nel tempo. Inizia costruendo una rete composta da diverse fonti di dati. Queste fonti includono informazioni sulle interazioni tra geni, funzioni proteiche e come i geni si comportano in risposta a diverse condizioni.
Il primo passo è creare una rete multiplex, che coinvolge diversi tipi di connessioni che rappresentano varie interazioni. Questa rete cattura le complesse relazioni tra geni e proteine. Ogni connessione può avere pesi diversi, mostrando la forza della relazione.
Successivamente, DDeMON osserva come queste relazioni cambiano nel tempo, aggiungendo un ulteriore livello di comprensione. Il metodo può analizzare come l'espressione dei geni varia, il che è cruciale per comprendere le loro funzioni.
Costruzione della Rete
Creare una rete multiplex inizia raccogliendo dati da varie fonti. Questo include interazioni conosciute tra proteine, come vengono regolati i geni e dove si collegano nella letteratura scientifica. Unendo questi diversi tipi di dati in un'unica rete, i ricercatori possono visualizzare e analizzare le interazioni in modo più efficace.
Il metodo DDeMON trasforma ogni livello di dati in un formato strutturato che rende più facile lo studio. Ad esempio, può creare connessioni tra geni di patate e i loro omologhi in Arabidopsis o collegarli a articoli di ricerca pertinenti.
Una volta stabilita la rete multiplex, il passo successivo consiste nel semplificarla. Questo avviene tramite metodi che si concentrano sui nodi che rappresentano i geni, mantenendo intatte le connessioni importanti. Così facendo, l'analisi può rimanere chiara pur catturando informazioni essenziali.
Apprendimento della Rappresentazione
Una caratteristica chiave di DDeMON è come impara a rappresentare i diversi nodi nella rete. Ogni nodo genico è assegnato un insieme di caratteristiche o proprietà che riflettono le sue connessioni e come si comporta. Questo comporta l'uso di algoritmi che valutano l'importanza di ogni connessione e assegnano valori di conseguenza.
Per un apprendimento efficace, DDeMON utilizza un algoritmo di ranking che aiuta a determinare quanto è probabile che un gene si colleghi ad altri. Simula una passeggiata casuale attraverso la rete per scoprire queste relazioni.
Quando la rete è grande e complessa, può portare a dati ad alta dimensione, il che è difficile per molti metodi di analisi da gestire. Per mitigare questo, DDeMON utilizza tecniche per ridurre il numero di dimensioni mantenendo intatte le informazioni significative. Questo rende più facile analizzare e produrre previsioni accurate.
Previsione delle Funzioni Geniche
L'obiettivo finale dell'approccio DDeMON è prevedere accuratamente le Funzioni dei geni con ruoli sconosciuti. Questo comporta l'addestramento di modelli utilizzando i vettori di caratteristiche costruiti dalla rete multiplex. Vengono testati diversi algoritmi di machine learning per valutare quanto bene possono classificare i geni in categorie funzionali specifiche.
Ad esempio, il modello viene addestrato usando funzioni geniche conosciute e poi prevede le funzioni dei geni sconosciuti valutando quanto siano simili a quelli noti. Questo processo comporta una validazione attenta per garantire che le previsioni siano affidabili.
Risultati Sperimentali
La performance della metodologia DDeMON è stata convalidata attraverso vari esperimenti. I ricercatori hanno utilizzato dati di Espressione genica da piante di patate, esaminando come i geni reagivano a diverse condizioni. Valutando le somiglianze nei profili di espressione, DDeMON è stato in grado di creare una rete di connessioni basata sul comportamento condiviso.
Diversi algoritmi sono stati testati per vedere quanto bene potessero classificare i geni basandosi sulle caratteristiche estratte. I risultati hanno mostrato che alcuni modelli hanno performato meglio di altri, specialmente nel prevedere accuratamente certe funzioni.
Le previsioni sono state poi confrontate con funzioni conosciute per valutare la loro accuratezza. Ad esempio, alcuni geni previsti come coinvolti nelle risposte allo stress biotico hanno mostrato una forte correlazione con i risultati sperimentali, indicando l'affidabilità del modello.
Conclusione
DDeMON rappresenta un importante avanzamento nel campo della biologia computazionale, fornendo un metodo sofisticato per prevedere le funzioni geniche nelle piante. Integrando diverse fonti di dati e utilizzando reti multilivello, DDeMON facilita una comprensione più completa delle interazioni e dei comportamenti genici.
I risultati di questa ricerca evidenziano il potenziale di DDeMON per aiutare a ottenere previsioni più rapide e accurate delle funzioni geniche. Questo potrebbe avere implicazioni significative per la scienza delle piante, specialmente in aree come il miglioramento delle colture e la resistenza alle malattie.
Man mano che i ricercatori continuano a perfezionare e sviluppare la metodologia, il lavoro futuro si concentrerà nel rendere DDeMON ancora più efficiente, potenzialmente espandendo le sue applicazioni ad altri organismi non-modello.
In sintesi, DDeMON non solo semplifica il processo di annotazione dell'ontologia genica, ma apre anche nuove strade per la ricerca nella biologia vegetale e oltre. Sfruttando la potenza dei dati integrati e delle tecniche di machine learning avanzate, si profila come un attore cruciale nel navigare le complessità dei sistemi biologici.
Titolo: DDeMON: Ontology-based function prediction by Deep Learning from Dynamic Multiplex Networks
Estratto: Biological systems can be studied at multiple levels of information, including gene, protein, RNA and different interaction networks levels. The goal of this work is to explore how the fusion of systems' level information with temporal dynamics of gene expression can be used in combination with non-linear approximation power of deep neural networks to predict novel gene functions in a non-model organism potato \emph{Solanum tuberosum}. We propose DDeMON (Dynamic Deep learning from temporal Multiplex Ontology-annotated Networks), an approach for scalable, systems-level inference of function annotation using time-dependent multiscale biological information. The proposed method, which is capable of considering billions of potential links between the genes of interest, was applied on experimental gene expression data and the background knowledge network to reliably classify genes with unknown function into five different functional ontology categories, linked to the experimental data set. Predicted novel functions of genes were validated using extensive protein domain search approach.
Autori: Jan Kralj, Blaž Škrlj, Živa Ramšak, Nada Lavrač, Kristina Gruden
Ultimo aggiornamento: 2023-02-08 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2302.03907
Fonte PDF: https://arxiv.org/pdf/2302.03907
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://www.biomedcentral.com/getpublished
- https://miktex.org/
- https://www.biomedcentral.com/
- https://pubmed.ncbi.nlm.nih.gov/
- https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE58593
- https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE46180
- https://protein.gomapman.org/export/current/biomine/ath
- https://www.arabidopsis.org/
- https://pfam.xfam.org/