Nuovo metodo migliora la stima dell'importanza dei geni
Un nuovo approccio migliora la valutazione dell'importanza dei geni nella ricerca sulla salute e sulla malattia.
― 9 leggere min
Indice
Identificare i ruoli di specifici geni nella salute e nelle malattie umane è un obiettivo chiave nella genetica. Un modo utile per misurare l'importanza di un gene è vedere quanto la Selezione naturale lo influisce. La selezione naturale spesso lavora per eliminare mutazioni dannose da una popolazione. Quindi, se un gene è critico per la salute, cambiamenti dannosi (chiamati mutazioni di perdita di funzione) saranno meno comuni nella popolazione. I ricercatori hanno creato diversi modi per misurare questo per aiutare a trovare geni che sono importanti per le malattie e il benessere generale.
Lo studio delle mutazioni di perdita di funzione è un metodo che i ricercatori usano per stimare quanto la selezione naturale limita un gene. Quando un gene è cruciale, la selezione naturale cerca di rimuovere mutazioni dannose dalla popolazione. I ricercatori hanno sviluppato varie misure che si concentrano su quante di queste mutazioni si verificano in un gene dato. Se si vedono molte mutazioni dannose, potrebbe indicare che il gene è importante.
Un modo comune per misurare questo è confrontare il numero reale di mutazioni dannose trovate in un gene con quante ci aspetteremmo di vedere se il gene non fosse sotto pressione selettiva. Questo confronto ha portato alla creazione di metriche, come pLI e LOEUF, che aiutano a identificare i geni che non possono tollerare mutazioni dannose. Tuttavia, queste metriche hanno delle limitazioni.
Innanzitutto, queste misure possono essere difficili da interpretare. Non si collegano chiaramente all'impatto delle mutazioni dannose sulla Fitness. La relazione tra queste metriche e la selezione naturale può variare a seconda della dimensione del campione di studio e di altri dettagli tecnici. In secondo luogo, mancano di un solido modello di genetica delle popolazioni, rendendo difficile confrontare direttamente la forza della selezione per i geni oltre a queste mutazioni di perdita di funzione.
Per affrontare queste carenze, alcune ricerche si concentrano sulla stima dell'impatto sulla fitness per i portatori di una mutazione di perdita di funzione in un particolare gene. Durante questa ricerca, questo impatto è chiamato shet. Il metodo usato per stimare shet è migliorato considerando gli effetti delle variazioni genetiche casuali nel tempo, che possono influenzare quanto spesso vediamo mutazioni nella popolazione.
Una sfida significativa è che molti geni non hanno abbastanza mutazioni attese in condizioni neutre perché hanno sequenze codificanti brevi. Ad esempio, quando il LOEUF è stato introdotto per la prima volta, è stato notato che non poteva valutare in modo affidabile geni con meno di dieci mutazioni attese, il che si applica a circa il 25% dei geni. Questa limitazione influisce su tutte le metriche esistenti e le rende meno affidabili per questo sottoinsieme di geni.
Per superare questi problemi, è stato sviluppato un nuovo approccio che può stimare con precisione shet, anche per geni con poche mutazioni attese. Questo metodo mantiene anche la chiarezza e l'interpretabilità che mancavano alle metriche precedenti.
Nuovo Metodo per Stimare l'Importanza dei Geni
Il nuovo metodo ha due principali innovazioni. La prima è un modello dettagliato di genetica delle popolazioni che guarda alle frequenze delle occorrenze degli alleli di perdita di funzione. I metodi precedenti spesso consideravano solo il numero totale di mutazioni uniche e ignoravano quanto frequentemente queste mutazioni apparissero, il che può portare a una perdita di informazioni utili. Alcune mutazioni considerate dannose potrebbero non interrompere effettivamente la funzione del gene e potrebbero evolversi in modo neutrale.
Questo nuovo approccio modella le frequenze delle varianti di perdita di funzione individuali, consentendo un migliore utilizzo dei dati sulle frequenze. Considera anche la possibilità che alcune mutazioni siano state erroneamente categorizzate come dannose. Il metodo impiega nuove tecniche computazionali per valutare con precisione la probabilità di osservare una variante a una specifica frequenza senza fare affidamento su simulazioni o approssimazioni.
La seconda innovazione prevede l'uso di varie caratteristiche dei geni, come i livelli di espressione genica, la struttura proteica e la conservazione evolutiva, per migliorare le stime per i geni con poche mutazioni attese. Incorporando queste caratteristiche aggiuntive, il modello può condividere informazioni tra geni simili. Questa condivisione di dati migliora le stime per quei geni sottopotenziati sfruttando i dati di geni simili che hanno dati di mutazione più completi.
Recentemente, un altro sforzo di ricerca ha cercato di migliorare le stime di vincoli genici utilizzando caratteristiche in un modello di deep learning. Anche se quel metodo mirava a migliorare le stime, non ha utilizzato un quadro di genetica delle popolazioni, portando a problemi simili di interpretabilità come quelli visti con pLI e LOEUF.
Questo nuovo metodo è stato applicato a un sostanziale dataset di sequenziamento esomico. I risultati hanno mostrato che questa nuova stima di shet ha significativamente superato le metriche precedenti nell'identificare geni essenziali e correlati a malattie. Inoltre, i ricercatori hanno esplorato come le caratteristiche geniche si relazionano alla selezione naturale. Hanno scoperto che misure come la conservazione evolutiva, la struttura proteica e i livelli di espressione in tessuti specifici erano più predictive di shet rispetto a metodi che si basavano su altre caratteristiche di interazione genica.
Risultati del Nuovo Metodo di Stima Genica
Il nuovo metodo, noto come GeneBayes, offre un modo flessibile per migliorare la stima delle proprietà geniche oltre a shet. L'implementazione di questo framework è aperta all'uso.
Usare i dati sulle mutazioni di perdita di funzione per valutare l'importanza dei geni è complesso, specialmente per quelli con poche mutazioni attese. L'ipotesi era che l'incorporazione di informazioni aggiuntive, che potrebbero essere predictive del vincolo genico, portasse a stime migliori. Sono state incluse varie caratteristiche, come l'espressione genica in diversi tessuti e la struttura proteica. Il presupposto era che geni con caratteristiche simili mostrassero livelli simili di vincolo.
Nell'analisi, un istogramma mostrava il numero atteso di mutazioni uniche per gene. I geni classificati come non vincolati dal metodo precedente erano contrassegnati in rosso, mentre i geni vincolati erano in blu. Molti geni avevano meno di 10 mutazioni uniche attese, il che era un problema significativo per le metriche più vecchie.
Il nuovo framework, GeneBayes, stima la riduzione della fitness dovuta a mutazioni di perdita di funzione e migliora i metodi precedenti nella sua robustezza e interpretabilità. Dimostra che è possibile valutare in modo affidabile il vincolo anche con dati limitati sulle mutazioni.
I risultati hanno evidenziato che GeneBayes consente una comprensione più sfumata dell'importanza genica. Geni che erano stati precedentemente sottovalutati per il loro potenziale impatto sulla fitness sono stati ora classificati accuratamente, portando a importanti intuizioni per ulteriori ricerche.
Caratteristiche Geniche e il Loro Impatto sulla Stima
Le nuove scoperte indicano che l'impatto sulla fitness delle mutazioni geniche si collega a varie caratteristiche. I ricercatori hanno analizzato come diverse caratteristiche geniche, come i livelli di espressione e i tassi di conservazione, influenzano shet. Hanno diviso le caratteristiche geniche in categorie, scoprendo che i vincoli relativi a mutazioni missense e pattern di espressione erano particolarmente informativi nel predire gli impatti sulla fitness.
Le caratteristiche di espressione sono state ulteriormente suddivise in sottogruppi basati sui tipi di tessuto o sulle fasi di sviluppo. Notabilmente, i geni che sono espressi principalmente nel cervello o durante lo sviluppo si sono rivelati vitali per comprendere le pressioni selettive.
In generale, è emerso un quadro più ampio, che descrive come i geni che sono centralmente coinvolti in reti regolatorie e hanno una struttura più complessa tendono a mostrare livelli più alti di vincolo. Questo significa che tali geni sono più propensi a essere influenzati dalla selezione naturale, confermando l'importanza delle loro funzioni.
L'Importanza di shet nello Studio dei Geni
Shet serve come una metrica cruciale che migliora la nostra comprensione della selezione naturale e dei suoi effetti sulle funzioni geniche. Uno dei vantaggi chiave di shet è che offre una misura chiara della riduzione della fitness, rendendo più facile confrontare i vincoli tra diversi studi o specie.
Ad esempio, guardando le distribuzioni dei valori di shet, i ricercatori possono categorizzare i geni in diverse pressioni selettive. Ad esempio, i geni che sono importanti a causa di condizioni come la haploinsufficienza rientrano in una categoria di selezione estrema, il che significa che perdere anche una sola copia di tali geni influisce notevolmente sulla sopravvivenza. D'altra parte, alcuni geni possono tollerare mutazioni senza effetti significativi sulla fitness.
Questo approccio comparativo consente ai ricercatori di evidenziare geni che meritano ulteriori studi, in particolare quelli che hanno alti livelli di shet ma le cui funzioni non sono ancora ben comprese.
Applicazioni del Nuovo Metodo
Il nuovo approccio ha diverse potenziali applicazioni nella ricerca genetica. Per cominciare, può arricchire gli studi che cercano geni associati a malattie o funzioni essenziali nelle cellule. Fornendo migliori stime di quali geni sono sotto pressione selettiva, aiuta a individuare quelli che sono probabilmente collegati a tratti o condizioni specifiche.
Il metodo si comporta anche bene nell'identificare geni chiave in disturbi legati allo sviluppo, fornendo una comprensione più dettagliata di come la variazione genica influisce sugli esiti di salute.
Inoltre, il metodo può essere integrato in altri studi genetici, come quelli focalizzati su tratti complessi o risposte ai trattamenti. Mentre i ricercatori costruiscono un quadro più completo dell'importanza genica usando shet, si aprono anche nuove strade per studiare la storia evolutiva dei geni e le loro connessioni a tratti tra le specie.
Conclusione
Lo sviluppo del framework GeneBayes segna un significativo progresso nel modo in cui i ricercatori possono stimare l'importanza dei geni rispetto alle loro funzioni nella salute e nella malattia. Integrando efficacemente la genetica delle popolazioni con ampie caratteristiche geniche, questo approccio offre una vista più chiara e informativa su come la selezione naturale plasmi le funzioni geniche.
Continuando a esplorare le variazioni genetiche e le loro implicazioni, la metrica shet e i metodi che la supportano giocheranno senza dubbio un ruolo essenziale. I ricercatori possono utilizzare queste intuizioni per comprendere meglio i meccanismi delle malattie, migliorare i metodi diagnostici e mirare a terapie che considerano i ruoli intricati dei geni nella salute umana.
Titolo: Bayesian estimation of gene constraint from an evolutionary model with gene features
Estratto: Measures of selective constraint on genes have been used for many applications including clinical interpretation of rare coding variants, disease gene discovery, and studies of genome evolution. However, widely-used metrics are severely underpowered at detecting constraint for the shortest ~25% of genes, potentially causing important pathogenic mutations to be over-looked. We developed a framework combining a population genetics model with machine learning on gene features to enable accurate inference of an interpretable constraint metric, shet. Our estimates outperform existing metrics for prioritizing genes important for cell essentiality, human disease, and other phenotypes, especially for short genes. Our new estimates of selective constraint should have wide utility for characterizing genes relevant to human disease. Finally, our inference framework, GeneBayes, provides a flexible platform that can improve estimation of many gene-level properties, such as rare variant burden or gene expression differences.
Autori: Jonathan K Pritchard, T. Zeng, J. P. Spence, H. Mostafavi
Ultimo aggiornamento: 2024-04-10 00:00:00
Lingua: English
URL di origine: https://www.biorxiv.org/content/10.1101/2023.05.19.541520
Fonte PDF: https://www.biorxiv.org/content/10.1101/2023.05.19.541520.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.