Simple Science

Scienza all'avanguardia spiegata semplicemente

# La biologia# Genomica

Comprendere la Variazione del Numero di Copie nei Genomi Umani

Uno studio svela variazioni nei copi di geni e i loro impatti sulla salute.

Mark Chaisson, W. Ma

― 7 leggere min


Scoperte sui CopiaScoperte sui CopiaGeneticagenetiche che influenzano la salute.Nuovo metodo svela le variazioni
Indice

I genomi umani mostrano spesso cambiamenti nel numero di copie di alcuni geni. Questi cambiamenti possono avvenire in due modi principali: duplicazioni, dove vengono create copie extra di un gene, e cancellazioni, dove si perdono copie. Insieme, questi cambiamenti sono noti come Variazione del numero di copie (CNV). Fino al 10% dei geni codificanti proteine nel genoma umano può variare nel loro numero di copie. Questa variazione può differire da una popolazione all'altra e può influenzare vari tratti, come l’indice di massa corporea, e malattie come il cancro e le patologie cardiache.

Sebbene le CNV siano sparse in tutto il genoma, alcune aree con sequenze ripetute, note come duplicazioni segmentali, hanno più probabilità di contribuire a queste variazioni. Questi cambiamenti frequenti nelle copie geniche portano a famiglie diverse o gruppi di geni correlati. I processi che causano le CNV possono anche aumentare il rischio di mutazioni in queste aree geniche. Questo può portare a differenze nel funzionamento dei geni, che possono influenzare la salute di una persona o il suo rischio di sviluppare alcune malattie, come l'ipertensione o il diabete di tipo 2. Notevolmente, molti dei geni che mostrano CNV sono specifici per gli esseri umani e sono strettamente legati alle funzioni cerebrali.

Tuttavia, ci sono ancora informazioni limitate sulle variazioni nelle duplicazioni geniche che non corrispondono al riferimento standard, soprattutto quando si utilizzano metodi di sequenziamento specifici che analizzano il DNA. La maggior parte degli strumenti attuali usati per identificare le CNV si concentra principalmente sul conteggio di quante copie ci sono, piuttosto che sull'esame delle differenze genetiche effettive. Inoltre, allineare i dati sequenziati a un genoma di riferimento può introdurre errori e pregiudizi.

Recenti avanzamenti nella tecnologia di sequenziamento che cattura singole molecole di DNA hanno reso possibile creare cataloghi dettagliati delle Sequenze Geniche da popolazioni diverse. Questi nuovi metodi aiutano a identificare meglio le CNV, ma possono essere ancora impegnativi a causa della complessità delle informazioni genetiche, soprattutto mentre le diverse popolazioni evolvono nel tempo.

Per affrontare queste sfide, è stato sviluppato un nuovo metodo chiamato ctyper. Questo metodo aiuta nell'analisi del numero di copie geniche utilizzando un ampio database di sequenze geniche provenienti da vari progetti genomici. In questo modo, ctyper evita i pregiudizi che spesso derivano dal confronto con un singolo genoma di riferimento e può rivelare differenze che potrebbero essere trascurate in altre analisi. Grazie a ctyper, i ricercatori possono ora studiare insiemi di dati genetici su larga scala in modo più efficace, il che è particolarmente utile per le biobanche che raccolgono informazioni genetiche da grandi popolazioni.

Alleli del Pangenoma: Un Nuovo Modo di Categorizzare i Geni

Quando si tratta di geni che mostrano CNV, i ricercatori hanno lavorato per categorizarli in gruppi noti come alleli del pangenoma. Questo implica guardare a varie sequenze geniche tra diversi individui e identificare tratti condivisi. Con l'aiuto di diversi assemblaggi genomici, queste sequenze vengono organizzate in alleli del pangenoma (PA), che rappresentano segmenti di geni che contengono variazioni. Ogni PA può includere il gene completo e i suoi elementi vicini o potrebbe essere pezzi più piccoli che sono meno soggetti a cambiamenti a causa della ricombinazione.

Nel processo di creazione di un database per questi PA, i ricercatori hanno identificato migliaia di essi. Le lunghezze di questi PA possono variare, ma la maggior parte è composta da geni completi. I ricercatori analizzano quindi questi PA per vedere come differiscono all'interno e tra le categorie geniche, il che aiuta a capire come queste variazioni potrebbero influenzare la salute di un individuo.

Per analizzare campioni genetici, ctyper conta le parti uniche di questi PA nel campione di DNA e poi stima quante copie e variazioni sono presenti. Questo approccio offre un modo sofisticato per genotipizzare geni correlati a tratti o malattie specifiche, permettendo una rappresentazione più chiara del patrimonio genetico di un individuo.

Come Funziona Ctyper

Utilizzare ctyper implica diversi passaggi. Prima, i ricercatori raccolgono informazioni genetiche da grandi database che includono una vasta gamma di assemblaggi genici. Confrontando questi dati, possono identificare schemi nei numeri di copie geniche. Il metodo ctyper elabora queste informazioni per generare una mappa dettagliata delle copie geniche presenti in un dato campione.

Per garantire accuratezza, ctyper è stato testato su vari set di dati, incluso il Progetto 1000 Genomi, che include dati da migliaia di individui. Il metodo si concentra sul controllo dell'equilibrio delle copie geniche e sul confronto con sequenze note. Questo processo aiuta anche a ridurre gli errori che possono sorgere durante la gestione dei dati, specialmente in regioni del genoma dove le sequenze geniche sono ripetute.

Nei test pratici, ctyper ha mostrato alta precisione. Molti genotipi corrispondevano strettamente ai dati genetici esistenti, dimostrando che può identificare efficacemente le variazioni nel numero di copie geniche. L'approccio consente anche ai ricercatori di analizzare grandi collezioni di dati in un tempo ragionevole, rendendolo adatto per la ricerca focalizzata sulla salute e sulle malattie.

Tendenze e Diversità di Popolazione nelle Variazioni Geniche

Quando si studia come queste variazioni geniche appaiono in diverse popolazioni, i ricercatori hanno utilizzato tecniche come l'analisi delle componenti principali (PCA). Questa analisi aiuta a visualizzare come diverse popolazioni siano geneticamente correlate in base ai loro numeri di copie geniche. Mostra spesso cluster che si allineano con background geografici o etnici, indicando come fattori storici e ambientali formino la diversità genetica.

I dati hanno rivelato che alcune popolazioni, specialmente in Africa, tendono ad avere un numero maggiore di copie geniche, il che potrebbe essere collegato a preferenze alimentari storiche o ad altri fattori di stile di vita. Ad esempio, variazioni nei geni associati all'amilasi, un enzima legato alla digestione dei carboidrati, si trovano a differire significativamente tra i diversi gruppi.

Approfondimenti sull'Espressione genica e Sul Suo Impatto

Guardando oltre il semplice numero di copie, comprendere come queste variazioni influenzino l'espressione genica è essenziale. L'espressione genica può cambiare in base al numero di copie geniche presenti, e le varianti specifiche possono avere effetti diversi. Ad esempio, studi hanno mostrato che alcune copie di geni possono portare a livelli di espressione più elevati, mentre altre potrebbero risultare in una ridotta funzionalità.

La ricerca si è concentrata su geni specifici, come i geni SMN, che sono importanti in alcune malattie come l'atrofia muscolare spinale. Analizzando i livelli di espressione in relazione ai numeri di copie geniche, gli scienziati possono identificare quali variazioni geniche possono portare a suscettibilità o resistenza a malattie.

Allo stesso modo, l'analisi del gene per l'amilasi ha mostrato che la sua espressione può essere influenzata dalla presenza di geni vicini. Questa scoperta può aiutare a spiegare perché alcune popolazioni potrebbero elaborare i carboidrati in modo diverso e può portare a vantaggi nutrizionali in ambienti specifici.

Sfide e Direzioni Future

Sebbene siano stati compiuti progressi significativi nella comprensione delle CNV utilizzando ctyper, ci sono ancora sfide da affrontare. Per prima cosa, sono necessari ulteriori metodi per supportare completamente la rilevazione di variazioni molto piccole. Gli strumenti attuali non forniscono nemmeno punteggi di fiducia per i numeri di copia genica identificati, lasciando alcune domande sull'accuratezza senza risposta.

La complessità dell'analisi dei dati genetici ad alta dimensione può anche ostacolare l'interpretazione. Man mano che nuovi genomi di riferimento di alta qualità diventano disponibili, l'uso di metodi come ctyper diventerà probabilmente sempre più prezioso per i ricercatori che mirano a collegare le variazioni genetiche con tratti e condizioni.

In sintesi, comprendere la variazione del numero di copie è cruciale in genetica, poiché gioca un ruolo significativo nella salute e nelle malattie umane. Con i progressi nelle tecnologie di sequenziamento e nuovi metodi come ctyper, i ricercatori sono meglio attrezzati per analizzare i dettagli intricati di come queste variazioni influenzano i tratti individuali attraverso diverse popolazioni. Questa ricerca continua promette di aumentare la nostra comprensione della genetica e del suo impatto sulla salute.

Fonte originale

Titolo: Genotyping sequence-resolved copy-number variation using pangenomes reveals paralog-specific global diversity and expression divergence of duplicated genes

Estratto: Copy-number variable (CNV) genes are important in evolution and disease, yet sequence variation in CNV genes is a blindspot for large-scale studies. We present a method, ctyper, that leverages pangenomes to produce copy-number maps with allele-specific sequences containing locally phased variants of CNV genes from NGS reads. We extensively characterized accuracy and efficiency on a database of 3,351 CNV genes including HLA, SMN, and CYP2D6 as well as 212 non-CNV medically-relevant challenging genes. The genotypes capture 96.5% of underlying variants in new genomes, requiring 0.9 seconds per gene. Expression analysis of ctyper genotypes explains more variance than known eQTL variants. Comparing allele-specific expression quantified divergent expression on 7.94% of paralogs and tissue-specific biases on 4.7% of paralogs. We found reduced expression of SMN-1 converted from SMN-2, which potentially affects diagnosis of spinal muscular atrophy, and increased expression of a duplicative translocation of AMY2B. Overall, ctyper enables biobank-scale genotyping of CNV and challenging genes.

Autori: Mark Chaisson, W. Ma

Ultimo aggiornamento: 2024-10-24 00:00:00

Lingua: English

URL di origine: https://www.biorxiv.org/content/10.1101/2024.08.11.607269

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.08.11.607269.full.pdf

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili