Nuove scoperte su elementi genetici nascosti
Uno studio rivela i potenziali ruoli degli uORF nell'espressione genica e nella funzione delle proteine.
― 5 leggere min
Indice
Studi recenti hanno mostrato che gli esseri umani hanno circa 20.000 geni codificanti per Proteine. Tuttavia, potrebbero esserci migliaia di altri geni più piccoli che non abbiamo ancora identificato del tutto. Questi geni più piccoli, chiamati frame di lettura aperti a monte (UORFs), si trovano spesso vicino a geni già esistenti e potrebbero essere in qualche modo collegati a loro. Finora, solo alcuni di questi potenziali nuovi geni sono stati ufficialmente riconosciuti nei principali database genetici umani.
Un punto di confusione riguarda esattamente cosa siano questi uORFs. L'idea che rappresentino proteine completamente nuove suggerisce che creerebbero trascritti insoliti nel nostro DNA, il che è raro. Solo dieci di questi casi sono stati ufficialmente documentati. Per affrontare questo, i ricercatori si sono chiesti se questi uORFs non siano proteine separate, ma piuttosto estensioni di geni già conosciuti. Questo significherebbe che potrebbero essere collegati a geni esistenti senza bisogno di aggiungere molti nuovi nomi alla nostra lista.
Per testare questa idea, i ricercatori hanno cercato segnali specifici nel DNA che mostrassero come questi uORFs siano collegati ai geni correlati. Hanno controllato modelli che indicano lo splicing, cioè come pezzi di RNA vengono assemblati per creare un Gene finale funzionante. Lavori precedenti hanno mostrato alcune prove che alcuni uORFs potrebbero davvero codificare per proteine, ma non è ancora una prova definitiva.
Per trovare più evidenze per sequenze proteiche esistenti, i ricercatori hanno iniziato a compilare un elenco di possibili nuove aree codificanti per proteine da vari studi. Gran parte di questi dati proveniva da esperimenti che tracciavano i ribosomi, che sono responsabili della costruzione delle proteine. Molti di questi uORFs si trovavano in aree precedentemente considerate solo spazi vuoti nei geni, spesso all'inizio dei trascritti codificanti.
I ricercatori si sono concentrati su quegli uORFs confermati in almeno due studi, il che li ha portati a un set più piccolo e ad alta fiducia di 2.199 potenziali uORFs.
Controllo della Conservazione degli uORF
Poiché gli esseri umani sono molto simili geneticamente, se un uORF è una parte reale dei nostri geni, dovrebbe essere trovato costantemente in diversi genomi umani. I ricercatori hanno controllato questo allineando le sequenze di un genoma umano di riferimento con diversi altri. Avevano bisogno di assicurarsi che gli uORFs fossero presenti nello stesso punto nel DNA e che corrispondessero nell'RNA che esprimeva quei geni.
Dopo aver allineato gli uORFs a vari genomi, hanno trovato che una significativa maggioranza, l'87,8%, era preservata in tutti i genomi controllati. Questa consistenza suggerisce che questi uORFs potrebbero davvero rappresentare parti valide del nostro codice genetico.
Creazione di Nuovi Trascritti
Il passo successivo è stato cercare giunzioni di splicing-connessioni tra diverse parti di RNA. Utilizzando un mix di dati sperimentali e previsioni da programmi informatici, i ricercatori hanno assemblato nuove sequenze codificanti per proteine che potrebbero essere collegate agli uORFs. Hanno assicurato che qualsiasi nuova sequenza che costruivano corrispondesse da vicino in lunghezza e struttura ai geni esistenti.
I ricercatori hanno identificato migliaia di possibili nuove giunzioni tra questi uORFs e geni codificanti per proteine esistenti. Hanno creato quasi 5.000 nuovi trascritti basati su queste connessioni.
Valutazione delle Strutture Proteiche
Utilizzando strumenti avanzati per prevedere come si piegano le proteine, i ricercatori hanno esaminato le nuove proteine generate da questi trascritti collegati agli uORF. Hanno usato un sistema di punteggio per valutare la qualità delle strutture proteiche previste. Se una nuova proteina aveva un punteggio alto simile al suo riferimento, era probabile che fosse funzionale. Si sono concentrati in particolare sui casi in cui le nuove proteine mostravano strutture migliorate rispetto ai loro omologhi di riferimento.
Tra le nuove proteine, molte mostravano miglioramenti strutturali, come l'allungamento o l'irrigidimento di alcune parti della proteina. Questo suggerisce che le nuove proteine potrebbero essere varianti funzionali migliori di quello che abbiamo capito in precedenza.
Cambiamenti Comuni nella Struttura Proteica
Il cambiamento comune che i ricercatori hanno osservato è stata la "troncatura delle estremità", dove specifiche regioni non strutturate delle proteine sono state rimosse. Questo spesso ha portato a una migliore stabilità e funzionalità, come visto in diversi esempi. A volte, aggiungere nuovi componenti strutturali come eliche alfa o fogli beta ha anche portato a risultati di piegatura proteica migliori.
I ricercatori hanno tenuto traccia di quanti di questi cambiamenti si siano verificati e hanno trovato una varietà di miglioramenti. Tali miglioramenti suggeriscono che queste nuove varianti proteiche potrebbero funzionare efficacemente all'interno del corpo.
Conclusione sugli uORFs e il Loro Potenziale
La conclusione principale di questa ricerca è che molti di questi uORFs, invece di essere geni completamente nuovi, potrebbero fungere da estensioni di geni esistenti. Collegando gli uORFs con geni conosciuti, i ricercatori possono aggiungere nuove sfumature di variazione proteica alla nostra comprensione della genetica umana senza necessariamente introdurre enormi nuove categorie di geni.
Con un approccio strutturato utilizzando diverse linee di evidenza, i ricercatori sperano di chiarire il ruolo di questi uORFs nella biologia umana. Saranno necessari ulteriori studi per continuare a esaminare queste aree per comprendere meglio la loro importanza e relazione con i geni esistenti. I risultati sono promettenti e potrebbero portare a nuove strade nella ricerca genetica, in particolare per comprendere come le variazioni possano influenzare la funzione proteica e, in ultima analisi, la salute umana.
Titolo: Upstream open reading frames may contain hundreds of novel human exons
Estratto: Several recent studies have presented evidence that the human gene catalogue should be expanded to include thousands of short open reading frames (ORFs) appearing upstream or downstream of existing protein-coding genes, each of which would comprise an additional bicistronic transcript in humans. Here we explore an alternative hypothesis that would explain the translational and evolutionary evidence for these upstream ORFs without the need to create novel genes or bicistronic transcripts. We examined 2,199 upstream ORFs that have been proposed as high-quality candidates for novel genes, to determine if they could instead represent protein-coding exons that can be added to existing genes. We checked for the conservation of these ORFs in four recently sequenced, high-quality human genomes, and found a large majority (87.8%) to be conserved in all four as expected. We then looked for splicing evidence that would connect each upstream ORF to the downstream protein-coding gene at the same locus, thus creating a novel splicing variant using the upstream ORF as its first exon. These protein coding exon candidates were further evaluated using protein structure predictions of the protein sequences that included the proposed new exons. We determined that 582 out of 2,199 upstream ORFs have strong evidence that they can form protein coding exons that are part of an existing gene, and that the resulting protein is predicted to have similar or better structural quality than the currently annotated isoform. Author SummaryWe analyzed over 2000 human sequences that have been proposed to represent novel protein-coding genes, and that reside just upstream of known genes. These "upstream ORFs" (uORFs) would represent a surprisingly large addition to the human gene catalogue, which after decades of refinement now contains just under 20,000 protein-coding genes. They would also create over 2000 new bicistronic genes, which number only 10 in current human annotation databases. We hypothesized that rather than novel genes, these sequences might instead represent novel exons that can be spliced into existing protein-coding genes, creating new isoforms of those genes. Using a combination of transcriptional evidence and computational predictions, we show that at least 582 of the previously-described uORFs can be used to create novel protein-coding exons, generating new transcripts and new protein isoforms, but not requiring the addition of entirely new genes to the human gene catalogue. We also demonstrate that the predicted three-dimensional structure of some of the new protein isoforms hints at new or improved functions for existing proteins.
Autori: Hyun Joo Ji, S. L. Salzberg
Ultimo aggiornamento: 2024-04-01 00:00:00
Lingua: English
URL di origine: https://www.biorxiv.org/content/10.1101/2024.03.22.586333
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.03.22.586333.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.