Il genoma umano: scoprire i geni codificanti
Un'immersione profonda nella ricerca e classificazione dei geni di codifica umana.
Miguel Maquedano, Daniel Cerdán-Vélez, Michael L. Tress
― 9 leggere min
Indice
- La Ricerca di Geni Codificatori
- Il Ruolo dei Gruppi di Ricerca
- Il Gioco dei Numeri
- La Sfida della Misclassificazione
- Fusione delle Liste
- Stato di Codifica: Il Verdicto
- Cosa Sono le Caratteristiche Potenzialmente Non Codificanti?
- Perché Alcuni Geni Sfuggono?
- Il Mistero dei Geni Read-Through
- La Spinta per il Consenso
- Il Panorama in Evoluzione dei Geni Codificatori
- Conclusione: Il Futuro dell'Annotazione Genica
- Fonte originale
Il genoma umano è come un enorme manuale d'istruzioni che fornisce alle nostre cellule le informazioni necessarie per produrre proteine, che sono i mattoni della vita. Quando i scienziati hanno sequenziato per la prima volta il genoma umano, hanno stimato che avevamo tra 25.000 e 40.000 geni responsabili della codifica delle proteine. Tuttavia, con l'avanzare della ricerca, quel numero è stato rivisto a un intervallo tra 19.000 e 22.000 geni. E quindi, che fine hanno fatto i geni extra? Erano solo frutto di sogni scientifici?
Negli anni, molti gruppi di ricerca hanno lavorato instancabilmente per analizzare il nostro genoma e identificare i veri geni codificatori. I loro risultati hanno portato a una migliore comprensione di quali geni siano reali e quali potrebbero essere degli impostori. È un po' come giocare a "Indovina Chi", i ricercatori hanno cercato di capire quali geni producono effettivamente proteine e quali si limitano a fare finta.
La Ricerca di Geni Codificatori
Identificare i geni codificatori non significa solo trovare un nome su una lista. Gli scienziati usano diverse fonti di evidenza per determinare se un gene può effettivamente produrre una proteina. Guardano cose come i dati sperimentali e quanto bene un gene sia conservato tra diverse specie. Se un gene è conservato, significa che probabilmente ha uno scopo fondamentale ed è, quindi, più probabile che sia un gene codificante.
Nuovi geni codificatori vengono aggiunti alla lista ogni volta che ci sono prove sufficienti per suggerire che siano reali. Tuttavia, alcuni geni possono cambiare status man mano che si rendono disponibili più dati. In un certo senso, è come guardare una soap opera in cui i personaggi cambiano spesso fazione, portando a tutte le sorta di colpi di scena drammatici!
Il Ruolo dei Gruppi di Ricerca
Tre principali gruppi di ricerca si sono presi la responsabilità di analizzare i geni codificatori nel nostro genoma: Ensembl/GENCODE, RefSeq e UniProtKB. Ogni gruppo ha la sua idea su cosa costituisce un gene codificante. Usano coordinate genomiche e dati proteici per compilare le loro liste. Tuttavia, i criteri diversi hanno portato a discrepanze, un po' come le diverse interpretazioni dello stesso copione di un film.
Ad esempio, il pseudogene WASH6P è stato un personaggio in questo dramma, cambiando status diverse volte in base alle nuove evidenze. È la diva suprema del mondo dei geni-sempre sotto i riflettori ma mai davvero adatta al modello di un gene codificante.
Il Gioco dei Numeri
In passato, le stime sul numero totale di geni codificatori erano piuttosto alte. Ma man mano che i ricercatori si immergevano nei dati, i numeri iniziavano a calare. Analisi più rigorose hanno rivelato che il numero reale potrebbe essere più vicino a 20.000. È un po' come quando vai a un buffet, carichi il piatto e ti rendi conto che puoi mangiare solo metà. Il buffet di geni ci ha servito una dose di realtà!
Curiosamente, i rapporti mostrano che il numero di geni codificatori è di nuovo in aumento. Questo aumento è dovuto al fatto che i ricercatori stanno cercando attivamente piccoli frame di lettura aperti (ORF) che potrebbero essere sfuggiti in precedenza. Questi piccoli geni potrebbero essere i gioielli nascosti del mondo codificante, e gli scienziati sono in missione per trovarli.
La Sfida della Misclassificazione
La ricerca di geni codificatori può essere complicata. Molti ricercatori si concentrano sulla scoperta di nuovi geni codificatori perché è spesso più facile trovarli piuttosto che dimostrare che un gene codificatore previsto non produce proteine. È come cercare un tesoro-le persone sono più motivate a scoprire l'oro che a setacciare la terra.
Alcuni gruppi hanno tentato di identificare geni che potrebbero essere stati misclassificati. In un'analisi pionieristica, i ricercatori hanno scoperto che molti geni recentemente annotati somigliavano a RNA non codificanti anziché a geni codificatori. Un gruppo ha persino stimato che ci fossero circa 20.500 geni codificatori, mentre un altro ha predetto che ce ne fossero meno di 20.000. Parliamo di una faida familiare-non c'è un chiaro vincitore!
Nel corso degli anni, i ricercatori hanno segnalato migliaia di geni come potenziali non codificanti, portando a una frenesia di riqualificazione. Alcuni geni sono stati riqualificati più volte man mano che nuove prove arrivavano. È un po' come un gioco di sedie musicali-ogni volta che la musica si ferma, a qualcuno viene tolta la sedia!
Fusione delle Liste
Per affrontare questa situazione complicata, i ricercatori hanno fuso i tre principali set di riferimento (Ensembl/GENCODE, RefSeq e UniProtKB) per creare una lista di geni più unificata. Facendo ciò, hanno scoperto di aver annotato circa 22.210 geni codificatori. Ma, in modo interessante, uno su otto geni codificatori annotati non ha ricevuto un timbro di approvazione da tutti e tre i gruppi. È come avere tre opinioni diverse sul tuo outfit-uno lo adorerà, uno lo odierà e il terzo sarà semplicemente confuso.
Dopo ulteriori affinamenti e analisi, è stato scoperto che il numero di geni elencati nei tre set era in realtà più basso rispetto alla fusione precedente. Infatti, i ricercatori hanno identificato 2.606 geni per i quali non c'era consenso sullo stato di codifica. Questi geni stanno ancora discutendo se appartengono o meno al club dei geni codificatori.
Stato di Codifica: Il Verdicto
Tra i geni che sono stati annotati come codificatori, circa 19.267 sono stati considerati codificanti da tutti e tre i gruppi di ricerca. Ma per i geni rimanenti, il processo di classificazione ha rivelato vari stati come geni read-through, Pseudogeni e altri, mostrando che il quadro dello stato di codifica può essere piuttosto complesso. È un po' come setacciare il bucato-pensavi di avere un carico chiaro di bianchi, ma presto trovi una calza rossa ribelle nel mix!
Per determinare lo stato di questi geni senza intersezione, i ricercatori hanno esaminato le annotazioni dei geni dai set di riferimento e trovato stati comuni. Alcuni geni sono stati classificati come geni read-through, il che significa che tutti i loro trascritti erano trascritti read-through, mentre altri sono stati considerati pseudogeni-essenzialmente, geni che hanno perso la loro funzionalità nel tempo.
Cosa Sono le Caratteristiche Potenzialmente Non Codificanti?
Nella continua ricerca di chiarezza, i ricercatori hanno definito caratteristiche potenzialmente non codificanti per i geni codificatori. Hanno raccolto dati da varie fonti e ideato criteri per aiutare a identificare geni che potrebbero non adattarsi al profilo codificante. Queste caratteristiche agiscono come bandiere rosse, segnalando geni che potrebbero non essere candidati per la produzione di proteine.
Usando misure statistiche come i rapporti non sinonimi/sinonimi, i ricercatori hanno valutato quali geni soddisfacevano i criteri per essere potenzialmente non codificanti. Hanno ristretto la loro lista dei sospetti, portando all'identificazione di 1.118 geni nell'analisi più recente.
Perché Alcuni Geni Sfuggono?
Ti starai chiedendo-perché i geni vengono misclassificati come codificanti quando dovrebbero essere contrassegnati come non codificanti? Questo succede perché alcuni geni potrebbero aver mostrato in precedenza alcuni segni di codifica ma mancano delle prove a sostegno.
Ad esempio, i geni che vengono segnalati come pseudogeni potrebbero avere ancora frame di lettura aperti intatti, ma la loro mancanza di prove funzionali di proteina è un indizio cruciale sulla loro vera natura. È molto simile a una star del cinema che ha ancora un seguito di fan, anche se non è apparsa in nulla di recente. La loro gloria passata non significa necessariamente che siano ancora attivi!
Il Mistero dei Geni Read-Through
I geni read-through meritano una menzione speciale. Questi geni sono una categoria unica in cui tutti i loro trascritti sono classificati come read-through. Questi geni spesso creano scalpore, in quanto possono a volte essere scambiati per veri geni codificatori. Eppure, in realtà, potrebbero non produrre affatto proteine funzionali.
I ricercatori continuano a esaminare lo stato di codifica dei geni read-through, e molti credono che questi geni dovrebbero essere riqualificati. Man mano che emergono nuove evidenze, il panorama dei geni codificatori continua a cambiare e gli scienziati sono ansiosi di affinare le loro liste per garantire accuratezza.
La Spinta per il Consenso
I ricercatori sono consapevoli che avere una comprensione consensuale del numero di geni codificatori è cruciale per la comunità scientifica. Questo è importante non solo per la ricerca di base ma anche per le applicazioni cliniche. Se ci sono troppi geni misclassificati nel set di riferimento, può rendere confusi gli esperimenti biomedici su vasta scala, portando a risultati erronei.
Mentre gli scienziati lavorano insieme per armonizzare le loro liste, sperano di arrivare a un insieme finale di geni codificatori approvati. Questo progetto richiede collaborazione e comunicazione aperta tra diversi gruppi di ricerca per garantire che tutti siano sulla stessa lunghezza d'onda. Dopotutto, cercare di giocare a un gioco in cui tutti hanno regole diverse non è affatto divertente!
Il Panorama in Evoluzione dei Geni Codificatori
Con i progressi nella tecnologia e più dati diventando disponibili, il panorama dei geni codificatori è in continua evoluzione. I ricercatori si stanno ora concentrando su alcuni dei geni più piccoli e meno studiati, poiché potrebbero avere potenzialità per nuovi codificatori di proteine. Molti ricercatori credono che l'attenzione sugli ORF piccoli sia solo all'inizio, e potrebbero esserci ulteriori scoperte appena dietro l'angolo.
Il recente completamento dell'assemblaggio CHM13, che ha identificato una serie di nuovi geni, ha anche suscitato entusiasmo all'interno della comunità di ricerca. Anche se molti di questi nuovi geni provengono da grandi famiglie duplicate, la loro introduzione nel campo potrebbe cambiare la nostra comprensione dei geni codificatori.
Conclusione: Il Futuro dell'Annotazione Genica
Il processo di rilevazione e validazione dei geni codificatori è uno sforzo complesso in corso che richiede collaborazione, apertura mentale e, soprattutto, pazienza. Con ogni nuova analisi, i ricercatori stanno assemblando il puzzle e affinando la loro comprensione del genoma umano.
Mentre continuano a lavorare attraverso le discrepanze tra i database e affinare le loro liste di geni codificatori, i ricercatori rimangono ottimisti che alla fine otterranno un quadro chiaro e accurato di cosa costituisca un gene codificante nel nostro genoma. Quindi, anche se la ricerca potrebbe sembrare scoraggiante, è una sfida che gli scienziati sono più che pronti ad affrontare-armati di prove, collaborazione e forse qualche pausa caffè lungo il percorso.
Titolo: More than 2,500 coding genes in the human reference gene set still have unsettled status
Estratto: In 2018 we analysed the three main repositories for the human proteome, Ensembl/GENCODE, RefSeq and UniProtKB. They disagreed on the coding status of one of every eight annotated coding genes. The analysis inspired bilateral collaborations between annotation groups. Here we have repeated our analysis with updated versions of the three reference coding gene sets. Superficially, little appears to have changed. Although there are slightly fewer genes predicted as coding overall, the three groups still disagree on the status of 2,606 annotated genes. However, a comparison without read-through genes and immunoglobulin fragments shows that the three reference sets have merged or reclassified more than 700 genes since the last analysis and that just 0.6% of Ensembl/GENCODE coding genes are not also annotated by the other two reference sets. We used eight features indicative of non-coding genes to examine the 21,873 coding genes annotated across the three reference sets. We found that more than 2,000 had one or more potential non-coding features. While some of these genes will be protein coding, we believe that most are likely to be non-coding genes or pseudogenes. Our results suggest that annotators still vastly overestimate the number of true coding genes.
Autori: Miguel Maquedano, Daniel Cerdán-Vélez, Michael L. Tress
Ultimo aggiornamento: Dec 9, 2024
Lingua: English
URL di origine: https://www.biorxiv.org/content/10.1101/2024.12.05.626965
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.12.05.626965.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.