Simple Science

Scienza all'avanguardia spiegata semplicemente

# La biologia# Genomica

La continua caccia ai geni umani mancanti

Gli scienziati continuano a cercare territori inesplorati nel genoma umano.

Jose Manuel Rodriguez, Miguel Maquedano, Daniel Cerdan-Velez, Enrique Calvo, Jesús Vazquez, Michael L. Tress

― 6 leggere min


Caccia ai geni umaniCaccia ai geni umanimancantigeni non riconosciuti.Un'immersione profonda nel mistero dei
Indice

Il Genoma umano, che è tipo un progetto per tutta la nostra biologia, ha fatto passi da gigante nella mappatura dei nostri geni. Alcune parti importanti del genoma sono state riempite bene, in particolare le sezioni complicate conosciute come regioni eterocromatiche e il cromosoma Y, grazie a un gruppo chiamato T2T consortium. Però, ci sono ancora molti spazi vuoti nel catalogo dei geni umani - immaginalo come un puzzle che ha ancora qualche pezzo mancante.

Perché Ci Sono Ancora Pezzi Mancanti?

Il motivo per cui l'elenco dei geni è incompleto è un po' come una faida familiare tra database di riferimento. Questi database dovrebbero dirci quali geni fanno davvero Proteine, ma non sempre sono d'accordo. Alcune stime dicono che potremmo avere tra 19.000 e 35.000 geni codificanti per proteine, ma i conteggi più recenti scendono a poco più di 19.000. È un po' come contare le pecore, solo per scoprire che alcune sono saltate oltre la recinzione e sono sparite.

Interessante, ci sono nuove evidenze che arrivano dal profilo ribosomiale, che è un modo fancy per studiare come si formano le proteine. Questa ricerca suggerisce che ci potrebbero essere un numero straordinario di regioni produttrici di proteine non riconosciute nel nostro genoma, con alcuni rapporti che suggeriscono che potrebbero esserci fino a 7.000 nuovi contendenti che potrebbero aumentare il numero di geni codificanti per proteine conosciuti di circa il 30%. È come trovare un livello bonus in un videogioco che non sapevi esistesse!

Nuovi Attori nello Spettacolo delle Proteine

Nel regno di questi potenziali nuovi geni, abbiamo alcuni personaggi notevoli come APELA, MIURF e MYMX. Questi nomi possono sembrare una lineup di una band, ma rappresentano nuovi tipi di geni che i ricercatori stanno tenendo d'occhio. Il punto chiave che collega questi geni non è la loro lunghezza - alcuni sono sorprendentemente lunghi - ma la loro capacità di essere tracciati attraverso l'evoluzione. Tuttavia, è anche vero che la maggior parte dei geni recentemente scoperti non ha questo tracciato evolutivo, il che significa che potrebbero essere un po' un mistero.

Scrutando nell'Ignoto

Un'osservazione notevole è che molti dei geni che i ricercatori stanno cercando di identificare potrebbero non essere così importanti come sembravano all'inizio. Molti potrebbero semplicemente essere cambiamenti nel tempo che non contribuiscono realmente a niente di essenziale nella nostra biologia. Questa situazione porta a pensieri divertenti su quante volte gli scienziati potrebbero sbagliarsi nel cercare di riconoscere nuove proteine.

Il Problema con la Rilevazione delle Proteine

Nel tentativo di dare un senso a questo complesso puzzle proteico, i ricercatori hanno esaminato qualcosa chiamato proteomica, che studia le proteine su larga scala. Sfortunatamente, molte delle proteine recentemente identificate non appaiono nei risultati della proteomica, il che solleva sopracciglia. Se pensiamo che queste proteine siano reali, dovremmo vedere qualche prova solida per loro. Eppure, uno studio recente ha trovato solo un pugno di corrispondenze.

Una possibile ragione per cui le proteine non vengono catturate potrebbe essere problemi di impianto nel processo di rilevazione scientifica. Proteine più piccole o anche quelle con aminoacidi insoliti potrebbero sfuggire. Oppure, magari le proteine vengono prodotte ma scompaiono altrettanto in fretta a causa della degradazione, un po' come quella calza che sparisce sempre nella asciugatrice.

Una Caccia al Tesoro in PeptideAtlas

Per scoprire di più su queste proteine elusive, gli scienziati hanno usato una risorsa chiamata PeptideAtlas, che funge da mappa del tesoro per proteine precedentemente nascoste. Setacciando questo database, i ricercatori speravano di rilevare proteine che in qualche modo erano sfuggite allo sforzo di catalogazione principale.

Dopo aver filtrato tonnellate di dati, hanno trovato un tesoro di oltre 13.000 nuovi peptide, o frammenti di proteine, che non erano mappati a nessun Gene conosciuto. Tuttavia, la realtà è che molte di queste peptide si sono rivelate variazioni di proteine già note. Quindi, mentre sembrava di trovare un'isola nuova sulla mappa, era più simile a scoprire una versione leggermente alterata di un'isola che già conoscevi.

Il Caso delle Proteine Non Uman

In una twist divertente, i ricercatori si sono anche imbattuti in proteine che non dovrebbero essere lì affatto - proteine da moscerini della frutta, topi e persino batteri! Questa confusione accidentale può essere paragonata a trovare un mammuth lanoso rimpicciolito nel frigo - completamente fuori posto. Come è successo? Sembra che ci sia stata un po' di contaminazione incrociata durante gli esperimenti, probabilmente a causa della miscelazione involontaria di campioni.

La Ricerca di Nuovi Geni

Dopo aver scavalcato le distrazioni di svolte sbagliate e deviazioni, i ricercatori si sono concentrati su circa 34 potenziali nuovi geni codificanti per proteine che erano completamente assenti dal catalogo principale. Alcuni di questi geni sembrano avere prove credibili a sostegno della loro esistenza, mentre altri sembrano essere il risultato di errori passati o eventi casuali.

Un particolare candidato, GBA3, ha sollevato sopracciglia perché ha le caratteristiche di una proteina, ma porta anche uno shift del frame che suggerisce che non dovrebbe essere funzionale. È un po' come cercare di leggere un libro dove mancano alcune pagine!

La Lotta per la Validità

Il viaggio attraverso il database di PeptideAtlas non riguarda solo la raccolta di dati ma anche la validazione. I ricercatori setacciano queste voci per determinare se rappresentano proteine genuine, varianti mal classificati, o persino residui di antichi percorsi biologici. Questo processo è molto simile a una storia di detective, con i ricercatori che assemblano indizi per determinare la verità dietro ogni voce.

Dopo un'attenta considerazione, sembra che molte voci siano probabilmente proteine mal identificate o residui di proteine che non giocano più un ruolo nella fisiologia umana. Alcune sono scoperte davvero intriganti, mentre altre sembrano essere il prodotto di errori nell'annotazione genica che sono durati troppo a lungo.

Le Curiosità delle Proteine Aberranti

Anche più curiose sono le proteine che sembrano apparire solo nelle cellule tumorali. È come trovare un club segreto di proteine che si incontrano solo in circostanze anormali. Molte di queste voci sembrano suggerire che potrebbero essere prodotti di traduzione aberrante, o semplicemente variazioni anormali che emergono a causa della natura caotica delle cellule tumorali.

Conclusione: La Mappa dei Geni in Continuo Espansione

Alla fine, la ricerca dei geni umani è un percorso tortuoso pieno di fermate, ripartenze e molte deviazioni bizzarre. Alcune scoperte hanno un vero potenziale, mentre altre potrebbero essere solo un caso di identità sbagliata. Mentre continuiamo a scavare più a fondo nella nostra composizione genetica, ogni nuova scoperta potrebbe rimodellare la nostra comprensione di cosa significhi essere umani. È un periodo emozionante nella genetica, simile a trovarsi sul punto di scoprire un nuovo continente - solo che invece della terra, stiamo disotterrando la complessa rete della vita che ci rende ciò che siamo.

E chissà? La prossima svolta in questa storia genómica potrebbe rivelare un intero nuovo strato di complessità - o un intero nuovo cast di personaggi che compongono la nostra storia biologica. L'avventura continua!

Fonte originale

Titolo: A deep audit of the PeptideAtlas database uncovers evidence for unannotated coding genes and aberrant translation

Estratto: The human genome has been the subject of intense scrutiny by experimental and manual curation projects for more than two decades. Novel coding genes have been proposed from large-scale RNASeq, ribosome profiling and proteomics experiments. Here we carry out an in-depth analysis of an entire proteomics database. We analysed the proteins, peptides and spectra housed in the human build of the PeptideAtlas proteomics database to identify coding regions that are not yet annotated in the GENCODE reference gene set. We find support for hundreds of missing alternative protein isoforms and unannotated upstream translations, and evidence of cross-contamination from other species. There was reliable peptide evidence for 34 novel unannotated open reading frames (ORFs) in PeptideAtlas. We find that almost half belong to coding genes that are missing from GENCODE and other reference sets. Most of the remaining ORFs were not conserved beyond human, however, and their peptide confirmation was restricted to cancer cell lines. We show that this is strong evidence for aberrant translation, raising important questions about the extent of aberrant translation and how these ORFs should be annotated in reference genomes.

Autori: Jose Manuel Rodriguez, Miguel Maquedano, Daniel Cerdan-Velez, Enrique Calvo, Jesús Vazquez, Michael L. Tress

Ultimo aggiornamento: 2024-11-15 00:00:00

Lingua: English

URL di origine: https://www.biorxiv.org/content/10.1101/2024.11.14.623419

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.11.14.623419.full.pdf

Licenza: https://creativecommons.org/licenses/by-nc/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili