Simple Science

Scienza all'avanguardia spiegata semplicemente

# La biologia # Bioinformatica

Nuovi standard nella ricerca genetica: un progresso nelle mutazioni somatiche

I ricercatori hanno sviluppato un nuovo benchmark per studiare le mutazioni somatiche a bassa frequenza nella genetica.

Camille A. Daniels, Adetola Abdulkadir, Megan H. Cleveland, Jennifer H. McDaniel, David Jáspez, Luis Alberto Rubio-Rodríguez, Adrián Muñoz-Barrera, José Miguel Lorenzo-Salazar, Carlos Flores, Byunggil Yoo, Sayed Mohammad Ebrahim Sahraeian, Yina Wang, Massimiliano Rossi, Arun Visvanath, Lisa Murray, Wei-Ting Chen, Severine Catreux, James Han, Rami Mehio, Gavin Parnaby, Andrew Carroll, Pi-Chuan Chang, Kishwar Shafin, Daniel Cook, Alexey Kolesnikov, Lucas Brambrink, Mohammed Faizal Eeman Mootor, Yash Patel, Takafumi N. Yamaguchi, Paul C. Boutros, Karolina Sienkiewicz, Jonathan Foox, Christopher E. Mason, Bryan R. Lajoie, Carlos A. Ruiz-Perez, Semyon Kruglyak, Justin M. Zook, Nathan D. Olson

― 9 leggere min


Benchmarking delle Benchmarking delle Varianti Genetiche delle variazioni genetiche. Nuovi parametri migliorano lo studio
Indice

Nello studio dei genomi umani, gli scienziati cercano variazioni che possono svelare informazioni importanti sulla salute e sulle malattie. Queste variazioni possono essere divise in due categorie principali: Varianti Germinali e Mutazioni Somatiche. Le varianti germinali si ereditano dai genitori, mentre le mutazioni somatiche si verificano dopo la concezione e non vengono trasmesse alla generazione successiva. Pensa alle varianti germinali come a dei cimeli di famiglia, mentre le mutazioni somatiche sono più come regali a sorpresa che possono comparire inaspettatamente.

Le varianti germinali possono essere eterozigote o omozigote. Quando una persona ha due copie diverse di un gene (una da ciascun genitore), si chiama eterozigote. Se entrambe le copie sono uguali, si chiama omozigote. I ricercatori di solito si concentrano su varianti presenti in almeno il 50% o il 100% delle cellule per queste due categorie. Tuttavia, a volte le variazioni possono verificarsi in una frazione minore di cellule, il che può renderle più difficili da individuare. Questo può succedere a causa di un fenomeno chiamato mosaicismo somatico, dove alcune cellule di un individuo hanno un diverso patrimonio genetico.

Le mutazioni somatiche sono diventate un tema caldo nella ricerca perché possono portare a problemi di salute seri come il cancro o altre malattie. Anche se alcune di queste mutazioni potrebbero non causare danni, altre potrebbero portare a una crescita cellulare incontrollata. I ricercatori vogliono identificare e comprendere meglio queste mutazioni per migliorare la diagnosi e il trattamento di varie condizioni.

L'iniziativa degli Istituti Nazionali di Salute

Un notevole sforzo è stato fatto dagli Istituti Nazionali di Salute (NIH) per studiare queste mutazioni somatiche attraverso un programma chiamato Somatic Mosaicism across Human Tissues (SMaHT). Questa iniziativa mira a creare una risorsa per gli scienziati per studiare queste varianti a bassa frequenza raccogliendo dati da tessuti sani. Creando un deposito di varianti mosaiciste, i ricercatori possono accedere a queste informazioni per analizzare il ruolo delle mutazioni somatiche nelle malattie e nella salute in generale.

Per affrontare le sfide di identificare queste variazioni difficili, gli scienziati hanno ideato vari metodi progettati specificamente per la chiamata di varianti a bassa frequenza. Quindi, invece di limitarsi a cercare variazioni facili da trovare, i ricercatori stanno ora approfondendo il patrimonio genetico degli individui per scoprire gemme nascoste.

La confusione attorno al progetto Genome in a Bottle

Una delle risorse significative in questo campo di ricerca è il progetto Genome in a Bottle (GIAB), che fornisce materiali di riferimento per il sequenziamento genetico. Il programma ha prodotto una collezione di genomi di riferimento da linee cellulari linfoblastoidi umane, che sono spesso utilizzate per testare e convalidare metodi di analisi genetica.

Nel loro lavoro, gli scienziati si concentrano su variazioni che hanno una percentuale inferiore di occorrenza nelle cellule, di solito sotto il 30%. I Benchmark standard enfatizzano principalmente le varianti facilmente rilevabili, il che può far ignorare le variazioni più sottili, ma importanti, che possono fornire informazioni aggiuntive sulle condizioni di salute.

La necessità di benchmark

Per avanzare nella conoscenza e nei metodi relativi alle mutazioni somatiche, i ricercatori sono costantemente alla ricerca di benchmark. Questi benchmark sono set di variazioni note che i ricercatori possono utilizzare per confermare le loro scoperte quando analizzano nuovi campioni. Pensalo come un ricettario per gli scienziati: vogliono sapere quali ingredienti (o varianti) sono essenziali per il piatto (o comprensione) che stanno cercando di creare.

I benchmark precedentemente stabiliti si sono concentrati su varianti ad alta fiducia e dettagli strutturali significativi, ma c'è stata una lacuna quando si tratta di varianti a bassa frequenza. I nuovi benchmark proposti aiuteranno gli scienziati a valutare l'accuratezza dei loro metodi e a fornire un sistema per identificare veri positivi (varianti correttamente identificate) e falsi negativi (varianti mancate).

Il set di benchmark mosaico

Per colmare questa lacuna, i ricercatori hanno creato un nuovo set di benchmark concentrandosi su varianti mosaiciste, specificamente da un individuo ben caratterizzato della collezione di materiali di riferimento GIAB. Il benchmark consiste in varianti di nucleotide singolo (SNV) curate con attenzione che rientrano in un intervallo di frazione di alleli variant (VAF) dal 5% al 30%. Il team ha utilizzato un processo complesso che coinvolge dati di sequenziamento ad alta copertura sia dell'individuo che dei suoi genitori per identificare le potenziali varianti mosaiciste che esistono nel genoma dell'individuo.

La collezione di varianti mosaiciste può servire a più scopi. Ad esempio, possono aiutare a perfezionare i metodi per rilevare mutazioni somatiche e fornire un riferimento per distinguere tra veri e falsi varianti nella ricerca. Questa risorsa sarà preziosa per la comunità scientifica mentre cercano di capire come queste sottili variazioni genetiche contribuiscano alla salute e alla malattia.

L'impresa della chiamata di varianti

Nel mondo del testing genetico, la chiamata di varianti è come una caccia al tesoro dove i ricercatori setacciano montagne di dati per trovare preziosi nuggets di informazione. Il processo di caccia coinvolge vari strumenti e tecniche per rilevare la presenza di specifiche varianti nei dati genetici. Tuttavia, quando si tratta di varianti a bassa frequenza, gli strumenti devono essere calibrati per cogliere i dettagli che vengono facilmente trascurati.

I ricercatori spesso utilizzano diverse tecnologie di sequenziamento per esaminare gli stessi campioni, il che aiuta a fornire una visione più completa di ciò che sta accadendo nel genoma. Analizzando dati provenienti da piattaforme diverse e confrontando i risultati, possono raggiungere un livello più elevato di fiducia nelle loro scoperte.

Tecniche in uso

Nel creare il benchmark mosaico, i ricercatori hanno utilizzato un approccio basato su un trio, che implica l'esame dei dati genetici di un bambino e dei due genitori. Questo aiuta a distinguere tra mutazioni ereditarie e somatiche. I ricercatori hanno utilizzato uno strumento chiamato Strelka2 per la loro analisi, progettato per chiamare varianti somatiche dai dati di sequenziamento.

Si sono presi cura di convalidare le loro scoperte utilizzando vari metodi di sequenziamento e assicurandosi che le varianti identificate potessero essere supportate da dati indipendenti. In questo modo, possono essere più sicuri della legittimità dei loro benchmark mosaici e dell'accuratezza della loro chiamata di varianti.

L'importanza di alta copertura

Un aspetto vitale per generare dati affidabili è assicurarsi che la copertura del sequenziamento sia alta. Alta copertura significa che ogni parte del genoma viene letta molte volte, il che aumenta la probabilità di individuare veri varianti e filtrare il rumore. I ricercatori hanno utilizzato questi dati ad alta copertura per creare un elenco di potenziali varianti mosaiciste che rientrano nell'intervallo di VAF desiderato.

Nei loro risultati, hanno identificato un numero sostanziale di potenziali varianti mosaiciste. Da questo pool più ampio, si sono concentrati sui candidati più promettenti adatti per l'inclusione nel loro riferimento di benchmark. Curando manualmente queste varianti e confermando la loro presenza attraverso più fonti di dati, hanno perfezionato il loro benchmark mosaico finale.

I risultati

Il set finale di benchmark mosaico include 85 SNV convalidati, ognuno scelto con cura per le loro caratteristiche specifiche e potenziale rilevanza nella ricerca. Queste varianti coprono una grande porzione del genoma e includono regioni che sono spesso difficili da studiare a causa della loro complessità.

Mentre alcune di queste varianti si trovano in geni di rilevanza medica, altre offrono opportunità per una comprensione più profonda di impatti più sottili sulla salute. Con il benchmark mosaico in atto, i ricercatori possono valutare affidabilmente i loro metodi di chiamata di varianti e approfondire la ricerca su come le varianti mosaiciste contribuiscano a varie condizioni.

La sfida degli effetti di lotto

Una svolta interessante in questa ricerca è la scoperta che gli effetti di lotto possono influenzare i risultati delle analisi genetiche. Confrontando diversi lotti di DNA, i ricercatori hanno trovato variazioni nei profili VAF, suggerendo che differenze nel modo in cui i campioni vengono elaborati possono influenzare il risultato dell'identificazione delle varianti.

Questa scoperta mette in evidenza l'importanza di utilizzare materiali di riferimento ben caratterizzati, in quanto forniscono una base stabile per il confronto. I ricercatori vogliono assicurarsi che i dati che analizzano riflettano vere variazioni biologiche piuttosto che essere influenzati da come il campione è stato preparato o trattato.

Feedback dalla validazione esterna

Per garantire l'affidabilità del benchmark mosaico, i ricercatori hanno contattato altri gruppi che lavorano sulla chiamata di varianti somatiche. Questo processo di validazione esterna ha comportato il confronto delle loro scoperte con la versione preliminare del benchmark mosaico. Raccogliendo feedback e valutando le differenze, hanno potuto perfezionare ulteriormente i loro metodi.

I risultati di queste valutazioni hanno confermato che il set di benchmark identifica in modo affidabile falsi positivi e negativi attraverso diversi metodi di chiamata di varianti. Questo ulteriore livello di validazione rafforza la fiducia che i ricercatori possono avere nell'utilizzare il benchmark mosaico per studi futuri.

Direzioni future

Con la creazione del benchmark mosaico, i ricercatori possono ora guardare avanti a nuove possibilità nello studio delle mutazioni somatiche. Il benchmark fornisce una risorsa robusta per indagare le varianti a bassa frequenza in vari contesti, dalla ricerca sul cancro alla comprensione delle malattie complesse.

Gli scienziati sono incoraggiati a utilizzare questo benchmark per valutare i propri metodi, identificare potenziali errori nella Chiamata delle varianti e migliorare la loro comprensione del mosaicismo somatico. Sfruttando i nuovi benchmark e le risorse create, i ricercatori possono fare progressi su come studiano la salute umana e le malattie associate a cambiamenti genetici.

Conclusione: Il tesoro della ricerca genetica

In sintesi, lo sviluppo del benchmark mosaico rappresenta un passo significativo in avanti nel campo della ricerca genomica. Fornendo un riferimento affidabile per le varianti a bassa frequenza, i ricercatori possono indagare più efficacemente i ruoli che queste varianti giocano nella salute e nella malattia.

Mentre la comunità scientifica continua a svelare i segreti nascosti nel nostro DNA, la speranza è di migliorare diagnosi e trattamenti per una varietà di condizioni. Quindi, mentre la ricerca di risposte può essere piena di colpi di scena, questo nuovo benchmark è una mappa importante che guida i ricercatori nella loro ricerca di comprendere le complessità del genoma umano. E chi ha detto che le cacce al tesoro non potessero essere divertenti?

Fonte originale

Titolo: A robust benchmark for detecting low-frequency variants in the HG002 Genome In A Bottle NIST reference material.

Estratto: Somatic mosaicism is an important cause of disease, but mosaic and somatic variants are often challenging to detect because they exist in only a fraction of cells. To address the need for benchmarking subclonal variants in normal cell populations, we developed a benchmark containing mosaic variants in the Genome in a Bottle Consortium (GIAB) HG002 reference material DNA from a large batch of a normal lymphoblastoid cell line. First, we used a somatic variant caller with high coverage (300x) Illumina whole genome sequencing data from the Ashkenazi Jewish trio to detect variants in HG002 not detected in at least 5% of cells from the combined parental data. These candidate mosaic variants were subsequently evaluated using >100x BGI, Element, and PacBio HiFi data. High confidence candidate SNVs with variant allele fractions above 5% were included in the HG002 draft mosaic variant benchmark, with 13/85 occurring in medically relevant gene regions. We also delineated a 2.45 Gbp subset of the previously defined germline autosomal benchmark regions for HG002 in which no additional mosaic variants >2% exist, enabling robust assessment of false positives. The variant allele fraction of some mosaic variants is different between batches of cells, so using data from the homogeneous batch of reference material DNA is critical for benchmarking these variants. External validation of this mosaic benchmark showed it can be used to reliably identify both false negatives and false positives for a variety of technologies and detection algorithms, demonstrating its utility for optimization and validation. By adding our characterization of mosaic variants in this widely-used cell line, we support extensive benchmarking efforts using it in simulation, spike-in, and mixture studies.

Autori: Camille A. Daniels, Adetola Abdulkadir, Megan H. Cleveland, Jennifer H. McDaniel, David Jáspez, Luis Alberto Rubio-Rodríguez, Adrián Muñoz-Barrera, José Miguel Lorenzo-Salazar, Carlos Flores, Byunggil Yoo, Sayed Mohammad Ebrahim Sahraeian, Yina Wang, Massimiliano Rossi, Arun Visvanath, Lisa Murray, Wei-Ting Chen, Severine Catreux, James Han, Rami Mehio, Gavin Parnaby, Andrew Carroll, Pi-Chuan Chang, Kishwar Shafin, Daniel Cook, Alexey Kolesnikov, Lucas Brambrink, Mohammed Faizal Eeman Mootor, Yash Patel, Takafumi N. Yamaguchi, Paul C. Boutros, Karolina Sienkiewicz, Jonathan Foox, Christopher E. Mason, Bryan R. Lajoie, Carlos A. Ruiz-Perez, Semyon Kruglyak, Justin M. Zook, Nathan D. Olson

Ultimo aggiornamento: 2024-12-05 00:00:00

Lingua: English

URL di origine: https://www.biorxiv.org/content/10.1101/2024.12.02.625685

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.12.02.625685.full.pdf

Licenza: https://creativecommons.org/publicdomain/zero/1.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Articoli simili