Collegare la genetica dei lieviti ai tratti complessi
I ricercatori analizzano la genetica del lievito per prevedere i tratti usando il machine learning.
― 7 leggere min
Indice
Molti tratti negli organismi viventi sono complessi e influenzati da diversi fattori. Questi possono includere informazioni genetiche, l'ambiente e come questi fattori interagiscono tra loro. Questo rende difficile capire esattamente come questi tratti siano controllati a livello genetico. Gli studi di associazione su tutto il genoma, o GWAS, sono stati utili nel collegare alcuni marcatori genetici a tratti in organismi che sono stati studiati a fondo. Tuttavia, spesso mancano cambiamenti genetici meno comuni e effetti più piccoli. Quando si tratta di combinazioni di cambiamenti genetici, le sfide diventano ancora più grandi, rendendo difficile rilevare tutti tranne i modelli più ovvi.
L'Apprendimento Automatico sta diventando uno strumento utile per creare modelli che potrebbero catturare relazioni complesse tra geni e tratti. Questi modelli possono aiutare a prevedere i tratti identificando quali cambiamenti genetici potrebbero essere responsabili. Informazioni aggiuntive, come dati provenienti da più fonti biologiche e prospettive evolutive, possono migliorare ulteriormente questi modelli. Tuttavia, sia i GWAS che questi modelli predittivi possono perdere efficacia quando i fattori ambientali non sono controllati. Il lievito, in particolare il Saccharomyces cerevisiae, è un organismo potente per studiare queste relazioni. È relativamente facile raccogliere dati precisi sulle informazioni genetiche e sui tratti in ambienti controllati.
Una raccolta di 1.011 ceppi di lievito provenienti da diversi ambienti fornisce dati preziosi a livello di popolazione. I ricercatori hanno misurato 223 tratti legati al ciclo vitale del lievito, inclusi crescita, sopravvivenza e varie Caratteristiche cellulari. Lo studio ha anche quantificato sia i livelli di proteine che di RNA in questi ceppi di lievito, fornendo informazioni che possono aiutare a prevedere tratti più complessi basati su informazioni genetiche. Inoltre, usare metodi di editing genetico avanzati insieme a queste variazioni di lievito consente test estesi delle previsioni fatte dall'apprendimento automatico. Tuttavia, c'è ancora una mancanza di indagine approfondita su se l'apprendimento automatico possa riflettere accuratamente la relazione tra geni del lievito e tratti.
Fenotipico del Lievito
Il PanoramaPer capire il panorama fenotipico del lievito da forno, i ricercatori hanno compilato informazioni su 190 tratti della storia della vita da studi precedenti e ne hanno aggiunti altri 33. Questo dataset include 223 tratti strettamente legati al ciclo vitale del lievito, come quanto a lungo vivono e quanto bene si riproducono. I tratti sono stati misurati in ambienti controllati con variazioni nei nutrienti ed esposizione a vari stress come cambiamenti di temperatura o agenti chimici. Sono stati raggruppati in otto categorie principali in base al loro tipo o alle condizioni ambientali in cui si trovavano.
Esaminando come i tratti sono correlati tra loro, i ricercatori hanno scoperto che i tratti tendono a essere positivamente correlati, il che significa che aumentano o diminuiscono insieme. Forti correlazioni si verificano più frequentemente rispetto a correlazioni più deboli e negative. Ad esempio, alcuni tratti misurati in condizioni ambientali simili mostrano forti relazioni. Curiosamente, non solo tratti simili si sono correlati, ma anche alcuni tratti appartenenti a categorie diverse hanno mostrato connessioni. Ad esempio, la resa cellulare durante la crescita in presenza di certi farmaci era positivamente legata alla durata della vita.
I ricercatori hanno quindi creato reti basate su queste correlazioni per visualizzare come i tratti interagiscono. Grandi gruppi di tratti, come i tassi di crescita e la resa, hanno formato connessioni distinte. Alcuni tratti non si sono correlati bene con altri e sono rimasti separati nella rete, suggerendo che sono influenzati da diversi processi biologici. Le compensazioni, dove un aumento di un tratto porta a una diminuzione di un altro, erano meno comuni.
Varianti genetiche e GWAS nel Lievito
Per costruire un punto di riferimento per capire come l'apprendimento automatico possa aiutare a collegare dati genetici e fenotipici, i ricercatori hanno stabilito connessioni utilizzando metodi GWAS moderni. Hanno compilato un elenco di 2.341 varianti genetiche collegate ai tratti. Questo includeva vari tipi di cambiamenti genetici, come mutazioni che causano perdita di funzione. Sebbene vari tipi di varianti genetiche fossero collegati ai tratti, i cambiamenti che implicavano perdita di funzione erano più frequentemente legati a certi tratti come la durata della vita e la dimensione.
Ulteriori indagini hanno mostrato che alcune varianti non comuni potrebbero essere significative ma difficili da rilevare con metodi standard. Ad esempio, particolari mutazioni collegate alla resistenza a certi farmaci sono state validate in esperimenti. Curiosamente, lo studio ha scoperto che le mutazioni sinonime-quelle che non cambiano la struttura proteica-erano rappresentate in modo equo tra i risultati significativi. Questo suggerisce che potrebbero esserci ruoli importanti per queste mutazioni nel plasmare come si manifestano i tratti.
Lo studio ha inoltre scoperto che varianti che influenzano più tratti erano comuni. Alcuni geni potrebbero essere responsabili di vari tratti, specialmente quelli che coinvolgono interazioni tra il lievito e l'ambiente. Utilizzando un algoritmo specifico, i ricercatori hanno identificato gruppi di geni che influenzavano più tratti. Hanno trovato che moduli di successo legati allo stress spesso trattavano con il legame proteico e la risposta cellulare a fattori esterni.
Apprendimento Automatico per la Previsione dei Tratti
Con i dati su 223 tratti e caratteristiche genetiche disponibili, i ricercatori hanno costruito un framework adattabile per automatizzare il processo di previsione dei tratti basato su informazioni genetiche. Questo framework, chiamato Gen-Phen, è stato progettato per gestire vari passaggi, inclusa la preparazione dei dati, la selezione delle caratteristiche importanti e l'apprendimento attraverso modelli di apprendimento automatico.
Nella fase di addestramento del modello, gli utenti possono scegliere tra diverse tecniche di apprendimento automatico popolari. L'obiettivo è valutare quanto bene queste tecniche possano prevedere tratti utilizzando diversi tipi di informazioni genetiche. Lo studio ha mostrato che il metodo di apprendimento automatico chiamato Bayesian Gradient Boosted Machines ha generalmente avuto le migliori prestazioni, seguito da altri modelli come Support Vector Regression e reti neurali.
I test su vari tratti hanno rivelato che le previsioni erano abbastanza accurate, anche se alcuni tratti erano più facili da prevedere di altri. Lo studio ha anche trovato che ridurre il numero di caratteristiche utilizzate nei modelli ha aiutato a migliorare le prestazioni complessive e a ridurre il rischio di overfitting-dove i modelli diventano troppo adattati ai dati di addestramento e non riescono a generalizzare a nuovi dati.
Confronto dei Predittori
Confrontando diversi tipi di dati molecolari per vedere quale prevedesse meglio i tratti del lievito, lo studio ha scoperto che i dati di presenza-assenza dei geni dal pangenoma si sono distinti come il predittore più efficace. Altri tipi di dati genetici, come le variazioni di perdita di funzione, hanno funzionato moderatamente bene, mentre le misurazioni di proteine e RNA erano meno efficaci.
Ulteriori analisi hanno indicato che utilizzando un mix di tratti, specialmente quelli che erano positivamente correlati, l'accuratezza delle previsioni migliorava significativamente. I risultati hanno suggerito che utilizzare un ampio spettro di tratti potrebbe aiutare a prevedere risultati meglio che concentrandosi su quelli non correlati.
Intuizioni Biologiche dalle Previsioni
Le previsioni fatte attraverso l'apprendimento automatico hanno offerto intuizioni su quali varianti genetiche abbiano contribuito maggiormente ai tratti. I punteggi di importanza delle caratteristiche hanno misurato quanto ciascun cambiamento genetico abbia influenzato le previsioni. Curiosamente, i ricercatori hanno trovato alcune caratteristiche genetiche che si sono distinte e erano collegate a tratti specifici, come la crescita in certi ambienti.
In sintesi, i ricercatori hanno utilizzato una grande collezione di ceppi di lievito per indagare le relazioni complesse tra genetica e tratti. I risultati coerenti hanno mostrato che certi tipi di tratti sono più facilmente prevedibili e che l'apprendimento automatico offre un metodo promettente per rivelare modelli nascosti nei dati genetici. Anche se ci sono ostacoli, in particolare con cambiamenti genetici rari, il potenziale di questi metodi per informare la nostra comprensione della biologia sembra molto promettente.
Titolo: Predicting the natural yeast phenotypic landscape with machine learning
Estratto: Most organisms traits result from the complex interplay of many genetic and environmental factors, making their prediction from genotypes difficult. Here, we used machine learning models to explore genotype-phenotype connections for 223 life history traits measured across 1011 genome-sequenced Saccharomyces cerevisiae strains. Firstly, we used genome-wide association studies to connect genetic variants with the phenotypes. Next, we benchmarked an automated machine learning pipeline that includes preprocessing, feature selection, and hyperparameters optimization in combination with multiple linear and complex machine learning methods. We determined gradient boosting machines as best performing in 65% of predictions and pangenome as best predictor, suggesting a considerable contribution of the accessory genome in controlling phenotypes. The accuracy broadly varied among the phenotypes (r = 0.2-0.9), consistent with varying levels of complexity, with stress resistance being easier to predict compared to growth across carbon and nitrogen nutrients. While no specific genomic features could be linked to the predictions for most phenotypes, machine learning identifies high-impact variants with established relationships to phenotypes despite being rare in the population. Near-perfect accuracies (r>0.95) were achieved when other phenomics data were used to aid predictions, suggesting shared useful information can be conveyed across phenotypes. Overall, our study underscores the power of machine learning to interpret the functional outcome of genetic variants.
Autori: Gianni Liti, S. Khaiwal, M. De Chiara, B. P. Barre, I. Barrio-Hernandez, S. Stenberg, P. Beltrao, J. Warringer
Ultimo aggiornamento: 2024-10-18 00:00:00
Lingua: English
URL di origine: https://www.biorxiv.org/content/10.1101/2024.10.17.618784
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.10.17.618784.full.pdf
Licenza: https://creativecommons.org/licenses/by-nc/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.