Prevedere l'espressione genica tramite reti regolatorie
Un nuovo metodo migliora le previsioni dell'espressione genica usando reti di regolazione genica.
― 7 leggere min
L'Espressione genica è come i geni creano i loro prodotti, come le proteine, che sono essenziali per il funzionamento del corpo. Capire come vengono espressi i geni può aiutare i ricercatori a scoprire come certe caratteristiche o malattie vengano ereditate. Questo processo di previsione dell'espressione genica è fondamentale negli studi che collegano l'attività genica a tratti complessi, che sono caratteristiche influenzate da molti geni e fattori ambientali.
L'importanza della previsione dell'espressione genica
La previsione dell'espressione genica è un'area di ricerca importante, soprattutto quando si studiano tratti influenzati da più geni. I metodi tradizionali per prevedere l'espressione genica spesso si concentrano su Varianti genetiche molto vicine ai geni in studio. Questi metodi di solito guardano ai polimorfismi a singolo nucleotide (SNP), che sono piccole variazioni nel DNA che possono influenzare il funzionamento dei geni.
Tuttavia, molte varianti genetiche importanti si trovano lontane dai geni che influenzano. Qui entrano in gioco le Reti di Regolazione Genica (GRN). Le GRN sono sistemi di interazioni tra diversi geni che aiutano a controllare la loro espressione. Considerando queste reti, i ricercatori possono ottenere una comprensione migliore di come i geni interagiscono e come influenzano i tratti.
Un nuovo approccio alla previsione dell'espressione genica
Questo approccio suggerisce che, invece di guardare solo alle varianti vicino a un gene, è fondamentale includere informazioni su varianti genetiche più lontane che possono influenzare l'espressione genica indirettamente. Questa prospettiva più ampia si allinea con il modello omnigenico di ereditarietà, che afferma che la maggior parte delle varianti genetiche contribuiscono a tratti complessi influenzando l'espressione genica attraverso reti interconnesse.
Lo studio utilizza GRN ricostruite da dati genomici e trascrittomici per prevedere come i geni si esprimono in base alle informazioni genetiche. I ricercatori usano un processo in due fasi per fare queste previsioni.
- Il primo passo prevede di prevedere i livelli di espressione dei geni in base alle varianti genetiche vicine.
- Il secondo passo modella le differenze residue tra i livelli di espressione previsti e reali utilizzando informazioni genetiche dai geni correlati nella rete.
Combinando questi due passaggi, il metodo fornisce una visione più completa di come influssi genetici sia vicini che lontani plasmino l'espressione genica.
Il processo di sviluppo del modello di previsione
Il processo inizia con la raccolta di dati sull'espressione genica e l'identificazione delle varianti genetiche che influenzano quei geni. Una volta che i dati sono pronti, i ricercatori ricostruiscono le GRN usando software specifici che stimano come i geni potrebbero interagire tra loro. Queste reti mostrano le relazioni tra i geni e come potrebbero influenzare l'attività degli altri.
Successivamente, i ricercatori creano un modello di previsione che utilizza questi dati di rete. Questo modello tiene conto sia delle varianti genetiche associate a un gene sia delle varianti associate ai geni vicini. L'output finale è un livello di espressione previsto per ciascun gene, che riflette l'influenza sia delle informazioni genetiche locali che lontane.
Valutazione del modello di previsione
Per valutare quanto bene funzioni il loro modello, i ricercatori lo hanno testato su diversi set di dati. Questi includevano set di dati simulati e set di dati reali da studi su lievito e cellule umane. L'obiettivo era vedere quanto bene le previsioni basate su GRN performassero rispetto agli approcci tradizionali che usavano solo varianti genetiche vicine.
I risultati hanno indicato che il modello basato su GRN era più efficace nella previsione dell'espressione genica rispetto ai metodi tradizionali. Questo è particolarmente vero nei set di dati in cui le relazioni tra i geni erano più complesse. I risultati suggeriscono che tenere conto delle interazioni all'interno delle GRN porta a previsioni migliori dell'espressione genica.
Il ruolo delle reti di regolazione genica
Le reti di regolazione genica svolgono un ruolo cruciale nella comprensione dell'espressione genica perché tengono conto di un'ampia gamma di fattori che possono influenzare quali geni sono attivati o disattivati. I geni non lavorano in isolamento; fanno parte di sistemi più grandi dove la loro attività è regolata da vari segnali e interazioni.
Quando i ricercatori creano GRN, considerano vari tipi di relazioni tra geni, incluse regolazioni dirette e correlazioni. Analizzando queste connessioni, possono scoprire schemi nascosti che aiutano a spiegare come le varianti genetiche portano a tratti o malattie specifiche.
Il modello omnigenico di ereditarietà
Il modello omnigenico suggerisce che le varianti genetiche più influenti che colpiscono un tratto si trovano spesso in geni direttamente correlati a quel tratto, noti come geni centrali. Tuttavia, molte altre varianti genetiche, chiamate geni periferici, possono anche contribuire al tratto influenzando l'espressione dei geni centrali attraverso una rete di interazioni.
Questo ha significative implicazioni per gli studi genetici. Indica che i ricercatori dovrebbero guardare oltre le varianti genetiche vicine e considerare come altri geni nella rete possano anche contribuire ai tratti osservati.
Dati e metodi usati nello studio
Per sviluppare il modello di previsione, i ricercatori hanno iniziato con dati grezzi sull'espressione genica e informazioni genomiche. Hanno identificato le principali varianti genetiche associate a specifici geni, chiamate Cis-eQTL, e hanno usato software per ricostruire le GRN.
Il processo di ricostruzione ha comportato l'analisi dei dati genetici e di espressione genica per determinare come i geni potrebbero interagire tra loro. Questa analisi ha generato matrici di probabilità che rappresentano queste relazioni.
Una volta create le reti, i ricercatori le hanno usate per addestrare i loro modelli di previsione. Sono state impiegate diverse tecniche di regressione per fare previsioni basate sulle GRN costruite e sulle varianti genetiche identificate.
Diverse tecniche di regressione per la previsione
Per prevedere i livelli di espressione genica, sono stati testati diversi modelli di regressione, tra cui la regressione ridge, la regressione lasso, la regressione elastic net e la regressione ridge bayesiana.
Regressione Ridge: Questo metodo aggiunge una penalità alla grandezza dei coefficienti nel modello per prevenire l'overfitting. È particolarmente utile quando si affronta la multicollinearità, dove le variabili predittive sono altamente correlate.
Regressione Lasso: Simile alla regressione ridge, ma può ridurre alcuni coefficienti a zero. Questa proprietà consente di selezionare un modello più semplice che potrebbe essere più facile da interpretare.
Regressione Elastic Net: Questo approccio combina i punti di forza della regressione ridge e lasso, permettendo di performare meglio in certe situazioni.
Regressione Ridge Bayesiana: Questo metodo incorpora credenze precedenti sulla distribuzione dei coefficienti, consentendo previsioni più robuste.
Risultati dello studio
I ricercatori hanno confrontato il loro nuovo modello con approcci tradizionali usando vari set di dati, inclusi dati sintetici da simulazioni e dati reali da studi su lievito e umani. Hanno mirato a confrontare quanto bene ciascun modello prevedesse i livelli di espressione genica.
Le nuove previsioni basate su GRN hanno generalmente mostrato una performance migliore rispetto ai metodi standard che si basavano solo su varianti genetiche vicine. Specificamente, i modelli che includevano informazioni sui geni parenti o sulla rete più ampia producevano costantemente una maggiore accuratezza nella previsione dell'espressione genica.
Implicazioni dei risultati
I risultati enfatizzano l'importanza di considerare le reti di regolazione genica negli studi genetici. Incorporando varianti genetiche lontane e comprendendo come i geni interagiscano all'interno delle reti, i ricercatori possono ottenere migliori intuizioni sulla base genetica di tratti e malattie complessi.
Questi miglioramenti nell'accuratezza delle previsioni potrebbero portare a associazioni gene-tratto più affidabili e a una comprensione più profonda dei processi biologici alla base di varie condizioni.
Conclusione
Questo studio evidenzia un significativo progresso nella previsione dell'espressione genica utilizzando reti di regolazione genica. Andando oltre i metodi tradizionali che si concentrano solo sulle varianti genetiche vicine, i ricercatori possono catturare meglio le complessità delle interazioni geniche e i loro effetti sui tratti.
Man mano che il campo avanza, sarà essenziale convalidare ulteriormente questi metodi con set di dati più ampi e testare la loro efficacia in applicazioni pratiche. In generale, il lavoro rappresenta un passo avanti nell'uso della biologia computazionale per svelare le complessità dell'espressione genica e il suo impatto sulla salute e sulle malattie.
Titolo: Predicting the genetic component of gene expression using gene regulatory networks
Estratto: Gene expression prediction plays a vital role in transcriptome-wide association studies (TWAS), which seek to establish associations between tissue gene expression and complex traits. Traditional models rely on genetic variants in close genomic proximity to the gene of interest to predict the genetic component of gene expression. In this study, we propose a novel approach incorporating distal genetic variants acting through gene regulatory networks (GRNs) into gene expression prediction models, in line with the omnigenic model of complex trait inheritance. Using causal and coexpression GRNs reconstructed from genomic and transcriptomic data and modeling the data as a Bayesian network jointly over genetic variants and genes, inference of gene expression from observed genotypic data is achieved through a two-step process. Initially, the expression level of each gene in the network is predicted using its local genetic variants. The residuals, calculated as the differences between the observed and predicted expression levels, are then modeled using the genotype information of parent and/or grandparent nodes in the GRN. The final predicted expression level of the gene is obtained by summing the predictions from the local variants model and the residual model, effectively incorporating both local and distal genetic influences. Using various regularized regression techniques for parameter estimation, we found that GRN-based gene expression prediction outperformed the traditional local-variant approach on simulated data from the DREAM5 Systems Genetics Challenge and real data from the Geuvadis study and an eQTL mapping study in yeast. This study provides important insights into the challenge of gene expression prediction for TWAS. It reaffirms the importance of GRNs for understanding the genetic effects on gene expression and complex traits more generally.
Autori: Gutama Ibrahim Mohammad, Tom Michoel
Ultimo aggiornamento: 2024-08-16 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2408.08530
Fonte PDF: https://arxiv.org/pdf/2408.08530
Licenza: https://creativecommons.org/licenses/by-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.