Simple Science

Scienza all'avanguardia spiegata semplicemente

# La biologia# Genomica

Comprendere l'Espansione del Genoma Umano

I recenti progressi nella catalogazione dei genomi umani e dei topi stanno rivelando nuove intuizioni.

Gazaldeep Kaur, Tamara Perteghella, Sílvia Carbonell-Sala, Jose Gonzalez-Martinez, Toby Hunt, Tomasz Mądry, Irwin Jungreis, Carme Arnan, Julien Lagarde, Beatrice Borsari, Cristina Sisu, Yunzhe Jiang, Ruth Bennett, Andrew Berry, Daniel Cerdán-Vélez, Kelly Cochran, Covadonga Vara, Claire Davidson, Sarah Donaldson, Cagatay Dursun, Silvia González-López, Sasti Gopal Das, Matthew Hardy, Zoe Hollis, Mike Kay, José Carlos Montañés, Pengyu Ni, Ramil Nurtdinov, Emilio Palumbo, Carlos Pulido-Quetglas, Marie-Marthe Suner, Xuezhu Yu, Dingyao Zhang, Jane E. Loveland, M. Mar Albà, Mark Diekhans, Andrea Tanzer, Jonathan M. Mudge, Paul Flicek, Fergal J Martin, Mark Gerstein, Manolis Kellis, Anshul Kundaje, Benedict Paten, Michael L. Tress, Rory Johnson, Barbara Uszczynska-Ratajczak, Adam Frankish, Roderic Guigó

― 10 leggere min


Approfondimenti sullaApprofondimenti sullamappatura del genomatopi.comprensione dei genomi umano e deiNuove scoperte ampliano la nostra
Indice

Il genoma umano è come un gigantesco manuale di istruzioni che dice al nostro corpo come crescere, svilupparsi e funzionare. Immagina che il tuo corpo sia un'auto; il genoma sarebbe il manuale del proprietario che spiega come funziona ogni parte e cosa fare quando qualcosa va storto. Questo manuale è composto da tantissime informazioni conservate nel nostro DNA, che è il materiale genetico che ci rende ciò che siamo.

I Primi Giorni del Sequenziamento del Genoma

Nel 2001, gli scienziati pubblicarono le prime bozze del genoma umano, come i primi capitoli di un lungo libro. Passando vent'anni avanti, hanno creato una versione completa di questo manuale, includendo milioni di genomi individuali. Pensala come se avessi finalmente finito la tua serie di libri preferita!

Le informazioni conservate in questi genomi sono estremamente preziose. Aiutano gli scienziati a capire meglio la biologia umana e a sviluppare nuovi modi per curare le malattie. Tuttavia, per dare un senso a queste informazioni, i ricercatori avevano bisogno di una mappa affidabile dei geni-uno strumento per aiutarli a capire come le variazioni nel DNA possano influenzare i nostri tratti, un po' come un GPS ti aiuta a muoverti in città.

La Speculazione sui Numeri dei Geni

Quando i ricercatori iniziarono a indovinare quanti geni ha l'uomo, le loro stime erano tutte diverse. Alcuni dicevano tra 30.000 e 40.000 geni, mentre altri pensavano fosse tra 27.000 e 39.000. Era come cercare di contare tutte le caramelle in un barattolo-ognuno aveva un'idea diversa!

Il Progetto ENCODE: Mappare la Mappa del DNA

Per aiutare a dare un senso a tutte queste informazioni genetiche, è stato avviato un progetto noto come Progetto ENCODE. Pensa a ENCODE come a un gruppo di esploratori avventurosi che cercano di mappare tutte le sezioni importanti del nostro DNA che hanno ruoli specifici. Non molto dopo, è stato creato uno sforzo gemello chiamato GENCODE per catalogare tutti i geni e le loro varie versioni, un po' come un'enciclopedia per il DNA.

Nel corso degli anni, GENCODE è diventato un riferimento chiave insieme a un altro progetto chiamato RefSeq. Queste collezioni sono come la biblioteca definitiva a cui gli scienziati possono fare riferimento quando parlano di geni.

La Stabilità dei Geni Codificanti per Proteine

Da un po' di tempo, il numero di geni codificanti per proteine elencati in GENCODE è rimasto stabile. Questi sono i geni responsabili della produzione di proteine che aiutano il nostro corpo a funzionare. D'altra parte, i geni di RNA lungo non codificante (LncRNA) sono aumentati in numero dal 2007. Anche se sembra che questa crescita stia rallentando, gli lncRNA si stanno rivelando attori importanti in vari processi biologici e persino nelle malattie.

La Ricerca di Dati Migliori sugli lncRNA

Nonostante i progressi nel catalogare i geni codificanti per proteine, gli lncRNA sono ancora un po' un casino. Nel corso degli anni sono stati creati molti cataloghi diversi, ma spesso usano metodi incoerenti e fonti di dati diverse. È come cercare di creare una playlist con canzoni provenienti da più servizi, dove alcune canzoni mancano o sono etichettate in modo errato.

Alcuni progetti, come FANTOM CAT e CHESS, hanno raccolto più dati sugli lncRNA, ma GENCODE non ha completamente utilizzato queste informazioni a causa di preoccupazioni sull'accuratezza. Questo ha portato a un panorama ingombrante di annotazioni di lncRNA, che può rallentare la ricerca in quest'area.

L'Importanza di Annotazioni Complete degli lncRNA

Per affrontare il problema delle annotazioni incomplete degli lncRNA, GENCODE ha reso una priorità creare un catalogo di lncRNA a lunghezza totale. Hanno implementato una strategia chiamata Capture Long-read Sequencing (CLS) per migliorare la loro raccolta. Hanno persino progettato un array speciale per catturare diverse versioni di lncRNA e identificare geni sconosciuti nei genomi umano e murino.

Utilizzando tecnologie di sequenziamento avanzate e collezioni di campioni attentamente pianificate, i ricercatori hanno fatto significativi progressi in quest'area. Hanno analizzato vari tessuti sia da esseri umani che da topi, come cervello, fegato e cuore, il che ha permesso loro di generare una grande quantità di nuovi dati.

La Grande Rivelazione: Nuovi Geni e Trascritti

Grazie a questi sforzi, GENCODE ha aggiunto un incredibile numero di 17.931 nuovi geni umani e 22.784 nuovi geni murini al suo catalogo. Questa è la più grande espansione nelle annotazioni dei geni da quando i genomi umano e murino furono redatti per la prima volta. Questi nuovi geni hanno caratteristiche che suggeriscono che svolgono davvero un ruolo nel corpo umano. I ricercatori hanno scoperto che sono collegati a certi tratti, conferendo ancora più credibilità ai nuovi dati.

L'Importanza delle Annotazioni Geniche

Avere un catalogo completo e accurato dei geni è cruciale per comprendere come funzionano i nostri corpi. Aggiungendo nuovi geni al catalogo GENCODE, gli scienziati possono fornire un contesto a milioni di pezzi di dati genetici che prima erano rimasti senza spiegazione. È come trovare i pezzi mancanti di un puzzle che improvvisamente porta tutto il quadro a fuoco.

Focalizzandosi sul Trascrittoma Lungo Non Codificante

L'obiettivo delle ultime ricerche è stato quello di creare una risorsa completa per gli lncRNA. Il team di GENCODE ha progettato un array di targeting che cattura un ampio intervallo di regioni non codificanti, inclusi vari tipi di lncRNA. Hanno concentrato gli sforzi su un gran numero di geni, cercando di garantire che tutti i pezzi importanti fossero inclusi.

Per farlo, hanno preparato librerie da vari tessuti, le hanno combinate con diverse tecnologie di sequenziamento e generato ben 104 set di dati diversi. Questi dati raccolti hanno fornito un forte supporto per le regioni mirate, il che significa che sono stati in grado di estrarre informazioni significative sui geni.

Il Processo di Creazione di Modelli di Trascritti

Per creare modelli dai dati RNA raccolti, i ricercatori hanno sviluppato una pipeline chiamata LyRic. Questo sistema ha aiutato a costruire un set completo di modelli di trascritti che coprivano una vasta gamma di campioni. Quello che hanno trovato è che hanno generato oltre 526.000 modelli di trascritti per gli esseri umani e 483.000 per i topi-parliamo di un tesoro di informazioni!

Tra questi, un numero significativo era nuovo, il che significa che non era mai stato identificato prima. Il team di ricerca ha notato che molti di questi nuovi modelli mostravano forti segni di essere sequenze di trascritti genuine. Si sono anche rivelati specifici per tessuto, il che significa che potrebbero avere ruoli unici in diverse parti del corpo.

Come Sono Diversi gli lncRNA?

Sebbene questo studio si sia concentrato principalmente sugli lncRNA, hanno anche scoperto circa 100.000 nuovi modelli collegati a geni codificanti per proteine già noti. Questi risultati suggeriscono che potrebbero esserci proteine ancora più sconosciute nascoste nel nostro DNA! Alcuni dei geni codificanti per proteine recentemente identificati sono stati trovati in tessuti come i testicoli, il che indica il loro potenziale coinvolgimento in funzioni biologiche specifiche.

La Ricerca di un Catalogo Unificato degli lncRNA

L'obiettivo principale di questa ricerca era creare un catalogo completo degli lncRNA umani e murini. Attraverso le loro strategie innovative, i ricercatori sono stati in grado di aumentare significativamente il numero di annotazioni degli lncRNA nel catalogo GENCODE. È come trasformare quello che una volta era una piccola biblioteca in una vasta collezione di libri!

Nonostante l'aumento dei conteggi degli lncRNA, molti sono ancora assenti dal catalogo aggiornato. Questo sforzo continuo rappresenta un significativo progresso, ma c'è ancora molto lavoro da fare per creare un quadro ancora più completo.

Espandere la Conoscenza Tramite l'Ortologia

Per capire meglio le relazioni tra le specie, i ricercatori hanno anche lavorato per mappare l'ortologia degli lncRNA tra umani e topi. Questo processo ha rivelato un gran numero di potenziali corrispondenze geniche tra queste due specie. Identificando queste relazioni, gli scienziati possono esplorare meglio come gli lncRNA possano influenzare la biologia umana attraverso studi sui topi.

Migliorare la Nostra Comprensione del Genoma

Annotazioni geniche accurate non solo ci aiutano a comprendere come funzionano i geni, ma anche i molti modi in cui possono variare tra gli individui. Con le loro ultime scoperte, i ricercatori hanno dimostrato come l'espansione del catalogo GENCODE migliori la nostra comprensione di cosa succede nei nostri genomi quando cambiano.

Il Ruolo della Trascrizione

In totale, i ricercatori hanno scoperto oltre 80.000 nuovi siti di inizio di trascrizione (TSS) all'interno del nostro genoma. Questi TSS indicano dove inizia la trascrizione dei geni e possono rivelare nuove informazioni su come vengono attivati i geni in diversi tessuti. Lo studio ha mostrato che molti di questi nuovi TSS erano legati a geni attivi, dimostrando che il catalogo espanso fornisce preziose intuizioni su come sono controllati i geni.

Comprendere le Modifiche dell'Istone

Le modifiche dell'istone giocano un ruolo cruciale nella regolazione dell'espressione genica. I ricercatori hanno scoperto che la maggior parte dei TSS recentemente identificati era supportata da elementi regolatori candidati (cCRE), che aiutano a determinare quando i geni vengono attivati o disattivati. Questo supporto aggiuntivo migliora la comprensione della regolazione genica sia negli esseri umani che nei topi.

Legame dei Fattori di Trascrizione

I fattori di trascrizione sono proteine che aiutano ad avviare la trascrizione genica. Lo studio ha scoperto che molti dei nuovi TSS erano coperti da picchi di dati di legame dei fattori di trascrizione. Questo indica che questi TSS sono probabilmente attivi e importanti per l'espressione genica.

Il Potenziale della Traduzione Non Canonica

Interessantemente, i ricercatori hanno scoperto che alcuni lncRNA possono anche ospitare piccoli frame di lettura non canonici (ncORF) che potrebbero essere tradotti in proteine. Hanno identificato molti nuovi ncORF con firme di traduzione nei loro lncRNA. Questo suggerisce che gli lncRNA potrebbero avere più funzioni di quanto si pensasse in precedenza, aprendo la porta a nuove aree di ricerca.

Collegare Varianti Genomiche ai Tratti

I ricercatori hanno esaminato i dati per vedere quanto bene le varianti genetiche associate (dagli studi GWAS) si allineassero con gli lncRNA recentemente scoperti. Hanno trovato una solida densità di colpi GWAS all'interno dei confini dei nuovi lncRNA, indicando un legame tra le variazioni genetiche e i tratti osservabili.

Conservazione delle Sequenze Tra le Specie

In generale, gli lncRNA tendono a essere meno conservati rispetto ai geni codificanti per proteine, il che significa che le loro sequenze possono variare ampiamente tra le diverse specie. Tuttavia, gli lncRNA appena identificati hanno mostrato livelli di conservazione più elevati rispetto alle annotazioni più vecchie. Questo suggerisce che alcuni lncRNA potrebbero svolgere ruoli vitali che sono stati mantenuti nel corso dell'evoluzione.

Trovare Piccole Precursori di RNA

Gli RNA piccoli, come i microRNA, possono originarsi da lunghe sequenze di RNA. I ricercatori hanno identificato ulteriori precursori di RNA piccoli all'interno dei loro lncRNA recentemente annotati, aumentando il numero di noti ospiti di microRNA. Quest'area di ricerca mostra quanto siano profondamente interconnessi i diversi tipi di RNA.

Chiudendo: L'Importanza della Ricerca Continua

La storia del genoma umano è tutt'altro che finita. Mentre i ricercatori continuano a scoprire nuovi geni e a perfezionare le loro annotazioni, migliorano la nostra comprensione della genetica, della biologia umana e delle malattie. Ogni nuova informazione aggiunge al grande arazzo della vita e aiuta a preparare il terreno per future scoperte nella medicina e nella biologia. Quindi, brindiamo al nostro DNA-ecco alla continua ricerca della conoscenza su cosa ci rende umani!

Fonte originale

Titolo: GENCODE: massively expanding the lncRNA catalog through capture long-read RNA sequencing

Estratto: Accurate and complete gene annotations are indispensable for understanding how genome sequences encode biological functions. For twenty years, the GENCODE consortium has developed reference annotations for the human and mouse genomes, becoming a foundation for biomedical and genomics communities worldwide. Nevertheless, collections of important yet poorly-understood gene classes like long non-coding RNAs (lncRNAs) remain incomplete and scattered across multiple, uncoordinated catalogs, slowing down progress in the field. To address these issues, GENCODE has undertaken the most comprehensive lncRNAs annotation effort to date. This is founded on the manual annotation of full-length targeted long-read sequencing, on matched embryonic and adult tissues, of orthologous regions in human and mouse. Altogether 17,931 novel human genes (140,268 novel transcripts) and 22,784 novel mouse genes (136,169 novel transcripts) have been added to the GENCODE catalog representing a 2-fold and 6-fold increase in transcripts, respectively - the greatest increase since the sequencing of the human genome. Novel gene annotations display evolutionary constraints, have well-formed promoter regions, and link to phenotype-associated genetic variants. They greatly enhance the functional interpretability of the human genome, as they help explain millions of previously-mapped "orphan" omics measurements corresponding to transcription start sites, chromatin modifications and transcription factor binding sites. Crucially, our targeted design assigned human-mouse orthologs at a rate beyond previous studies, tripling the number of human disease-associated lncRNAs with mouse orthologs. The expanded and enhanced GENCODE lncRNA annotations mark a critical step towards deciphering the human and mouse genomes.

Autori: Gazaldeep Kaur, Tamara Perteghella, Sílvia Carbonell-Sala, Jose Gonzalez-Martinez, Toby Hunt, Tomasz Mądry, Irwin Jungreis, Carme Arnan, Julien Lagarde, Beatrice Borsari, Cristina Sisu, Yunzhe Jiang, Ruth Bennett, Andrew Berry, Daniel Cerdán-Vélez, Kelly Cochran, Covadonga Vara, Claire Davidson, Sarah Donaldson, Cagatay Dursun, Silvia González-López, Sasti Gopal Das, Matthew Hardy, Zoe Hollis, Mike Kay, José Carlos Montañés, Pengyu Ni, Ramil Nurtdinov, Emilio Palumbo, Carlos Pulido-Quetglas, Marie-Marthe Suner, Xuezhu Yu, Dingyao Zhang, Jane E. Loveland, M. Mar Albà, Mark Diekhans, Andrea Tanzer, Jonathan M. Mudge, Paul Flicek, Fergal J Martin, Mark Gerstein, Manolis Kellis, Anshul Kundaje, Benedict Paten, Michael L. Tress, Rory Johnson, Barbara Uszczynska-Ratajczak, Adam Frankish, Roderic Guigó

Ultimo aggiornamento: 2024-10-31 00:00:00

Lingua: English

URL di origine: https://www.biorxiv.org/content/10.1101/2024.10.29.620654

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.10.29.620654.full.pdf

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili