Migliorare le previsioni dell'espressione genica con Performer
Un nuovo modello migliora le previsioni allenandosi su grandi set di dati genetici.
― 6 leggere min
Indice
- La Necessità di Miglioramento
- Cos'è Performer?
- Come Funziona Performer
- Risultati dell'Addestramento
- Metriche di Prestazione
- Esplorare i Pesi delle Varianti
- Mantenere le Caratteristiche Funzionali
- Il Ruolo delle Varianti Rare
- Identificazione delle Varianti Driver
- Addestramento Multi-Gene
- Esplorare Diverse Architetture
- Conclusione
- Limitazioni di Performer
- Suggerimenti per la Ricerca Futura
- Fonte originale
- Link di riferimento
Il Deep Learning e i modelli lineari sono due modi diversi per analizzare i dati, soprattutto in genetica. Ognuno ha i suoi punti di forza e debolezza. I modelli lineari sono bravi a prendere un insieme di informazioni genetiche e capire come si relazionano con l'espressione di un singolo gene in un gruppo di persone. Però, faticano a lavorare con geni nuovi o varianti genetiche che sono meno comuni. I modelli di deep learning, invece, usano un genoma di riferimento per fare previsioni su come i geni si esprimono in vari tessuti. Hanno dimostrato di saper suggerire geni che potrebbero essere importanti per certi tratti o malattie. Tuttavia, hanno anche delle limitazioni, come non essere in grado di spiegare perché l'espressione varia tra gli individui.
La Necessità di Miglioramento
Per capire meglio come le reti neurali possono prevedere l'Espressione genica, dobbiamo testarle usando gruppi più ampi di individui. Gli studi passati che usavano meno persone non hanno valutato con precisione la loro efficacia. Per affrontare questo, abbiamo creato un metodo chiamato Performer, che affina un modello di deep learning per migliorare le sue previsioni addestrandolo su molti individui.
Cos'è Performer?
Performer modifica un'architettura di deep learning esistente chiamata Enformer. Invece di prevedere l'espressione genica come un ampio intervallo genetico, si concentra sulla previsione di livelli specifici di espressione legati a geni individuali. Questo cambiamento gli consente di mantenere conoscenze utili da Enformer migliorando anche la sua capacità di gestire le variazioni nell'espressione genica che si verificano tra gli individui.
Come Funziona Performer
Per testare Performer, l'abbiamo addestrato con Dati Genetici e informazioni sull'espressione genica raccolte da un grande studio. Siamo partiti da campioni di sangue di 670 individui per formare una base solida per il nostro addestramento. Abbiamo poi scelto circa 300 geni conosciuti per esprimersi in modo diverso a seconda della loro composizione genetica. Per ogni persona nel nostro studio, abbiamo creato una sequenza genetica che copriva il punto di partenza del gene e l'abbiamo abbinata ai dati di espressione della persona.
Risultati dell'Addestramento
Per valutare Performer, abbiamo confrontato le sue previsioni di espressione genica con quelle fatte dal modello originale Enformer e un modello lineare standard. Abbiamo guardato a quanto bene ogni modello poteva prevedere i livelli di espressione per individui che non erano inclusi nel set di addestramento. I risultati hanno indicato che Performer ha costantemente superato Enformer, soprattutto quando si guardava a geni con maggiori variazioni nell'espressione.
Metriche di Prestazione
Per misurare quanto bene si fosse comportato ogni modello, abbiamo usato due statistiche principali: il coefficiente di determinazione (R2) e il coefficiente di correlazione di Pearson (PCC). Queste metriche ci aiutano a capire quanto della variazione nell'espressione genica i nostri modelli potessero spiegare. I risultati hanno dimostrato che Performer poteva catturare le differenze nell'espressione genica molto meglio di Enformer ed era alla pari o leggermente migliore rispetto al modello lineare per molti geni.
Esplorare i Pesi delle Varianti
Successivamente, abbiamo esaminato le varianti ad alto punteggio identificate da ciascun modello. Le varianti ad alto punteggio sono cambiamenti genetici legati a livelli significativi di espressione di un gene. Mentre il modello lineare distribuiva queste varianti lungo l'intera sequenza genetica, Performer ed Enformer hanno scoperto che spesso erano più vicine al punto di partenza del gene. Questo suggerisce che Performer utilizza efficacemente l'addestramento tra individui per identificare varianti collegate all'espressione genica in modo più preciso.
Mantenere le Caratteristiche Funzionali
Una scoperta interessante è stata che Performer poteva mantenere caratteristiche funzionali simili a Enformer quando identificava varianti ad alto punteggio. Ad esempio, le varianti legate ai cambiamenti di espressione mostrano anche segnali forti relativi a elementi regolatori che influenzano l'attività genica. Questo significava che Performer era in grado di pesare l'importanza delle diverse varianti in modo efficace, senza perdere la capacità di collegarle alle loro funzioni biologiche.
Il Ruolo delle Varianti Rare
Dato che i modelli di deep learning spesso punteggiano più in alto le varianti genetiche meno comuni, abbiamo esaminato le frequenze alleliche minori (MAF) delle varianti ad alto punteggio trovate da Performer e dal modello lineare. Abbiamo trovato che le varianti ad alto punteggio di Performer avevano spesso MAF più basse rispetto a quelle identificate dal modello lineare, indicando che potesse affrontare efficacemente il ruolo dei cambiamenti genetici rari nella variabilità dell'espressione.
Identificazione delle Varianti Driver
Per indagare ulteriormente come funziona Performer, abbiamo identificato le varianti driver per ogni modello. Le varianti driver sono quelle che hanno un impatto significativo sulle previsioni di espressione genica. Abbiamo usato un modello lineare per trovare un numero ridotto di varianti driver per ogni gene e le abbiamo confrontate con le varianti ad alto punteggio trovate in precedenza. Entrambi i set mantenevano proprietà funzionali, implicando che Performer potesse dare priorità a varianti importanti in modo efficace.
Addestramento Multi-Gene
Abbiamo anche testato se addestrare Performer usando più geni contemporaneamente avrebbe migliorato le sue prestazioni. Anche se l'addestramento multi-gene ha mostrato buoni risultati, non ha superato significativamente i modelli a gene singolo. I modelli addestrati su più geni spiegavano una quantità simile di variabilità tra geni non visti, ma erano ancora meno efficaci rispetto ai modelli specificamente addestrati su geni individuali.
Esplorare Diverse Architetture
Successivamente, abbiamo sperimentato con un modello diverso chiamato Borzoi, che poteva gestire sequenze genetiche più lunghe. Quando abbiamo affinato Borzoi per questo compito, si è comportato in modo comparabile a Performer. Tuttavia, entrambi i modelli a volte faticavano a catturare accuratamente la variabilità dell'espressione genica, in particolare in diverse posizioni genomiche. Questo sottolinea la necessità di un continuo affinamento negli approcci di addestramento e nei design dei modelli.
Conclusione
La nostra ricerca dimostra che addestrare modelli di deep learning su dati genetici personalizzati migliora significativamente la loro capacità di prevedere differenze nell'espressione genica tra gli individui. Performer mantiene conoscenze preziose dai modelli precedenti migliorando anche le loro capacità predittive. La nostra ricerca evidenzia l'importanza dell'addestramento interindividuale per una modellazione accurata dell'espressione genica. Gli studi futuri dovrebbero cercare di incorporare ulteriori cambiamenti genetici oltre alle varianti di singolo nucleotide per migliorare ulteriormente le prestazioni ed esplorare il pieno potenziale del deep learning in genetica.
Limitazioni di Performer
Nonostante i risultati promettenti, Performer ha le sue limitazioni. Si concentra principalmente sugli aspetti genetici della variabilità dell'espressione genica e non eccelle con geni che hanno bassa ereditabilità. Inoltre, abbiamo analizzato solo le varianti di singolo nucleotide, il che significa che gli sforzi futuri dovrebbero includere altri tipi di cambiamenti genetici come inserzioni e cancellazioni. Anche se si comporta bene per compiti specifici, ha ancora margini di miglioramento e non supera i metodi esistenti in ogni aspetto.
Suggerimenti per la Ricerca Futura
Per sfruttare appieno il potenziale dei modelli sequenza-a-espressione, la ricerca futura potrebbe beneficiare di strategie di addestramento che considerano i segnali eQTL più forti, possibilmente mascherandoli per incoraggiare il modello a imparare altri schemi. Combinare dati da varie fonti, come esperimenti ad alta capacità, potrebbe anche aiutare. Nuovi design di modelli e funzioni di perdita mirate a meglio affrontare la variabilità biologica meritano ulteriori esplorazioni. In generale, affinare la variazione genetica migliora la capacità di prevedere differenze di espressione e dimostra la promessa del deep learning in questo campo.
Titolo: Deep-learning prediction of gene expression from personal genomes
Estratto: Models that predict RNA levels from DNA sequences show tremendous promise for decoding tissue-specific gene regulatory mechanisms1-5, revealing the genetic architecture of traits6-10, and interpreting noncoding genetic variation10,11. Existing methods take two different approaches: 1) associating expression with linear combinations of common genetic variants (training across individuals on single genes)12,13, or 2) learning genome-wide sequence-to-expression rules with neural networks (training across loci using a reference genome)11,14,15. Since limitations of both strategies have been highlighted recently16-20, we sought to combine the sequence context provided by deep learning with the information provided by cross-individual training. We utilized fine-tuning to develop Performer, a model with accuracy approaching the cis-heritability of most genes. Performer prioritizes genetic variants across the allele frequency spectrum that disrupt motifs, fall in annotated regulatory elements, and have functional evidence for modulating gene expression. While obstacles remain in personalized expression prediction, our findings establish deep learning as a viable strategy.
Autori: Katherine S. Pollard, S. Drusinsky, S. Whalen
Ultimo aggiornamento: 2024-07-27 00:00:00
Lingua: English
URL di origine: https://www.biorxiv.org/content/10.1101/2024.07.27.605449
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.07.27.605449.full.pdf
Licenza: https://creativecommons.org/licenses/by-nc/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.