Analizzando le varianti genetiche tramite scRNA-seq
Uno studio rivela alcune intuizioni sul comportamento dei geni e lo sviluppo del cancro utilizzando il sequenziamento dell'RNA a singola cellula.
― 7 leggere min
Indice
- Sfide nell'analisi delle varianti genetiche
- Valutazione dei diversi metodi per identificare cambiamenti genetici
- Raccolta dei dati
- Allineamento dei dati
- Chiamata delle varianti genetiche
- Analisi dei cambiamenti genetici nel cancro al seno e nel mieloma multiplo
- Valutazione delle prestazioni dei diversi metodi
- Analisi filogenetica
- Valutazione dell'affidabilità delle filogenie cellulari
- Esplorazione del legame tra espressione genica ed evoluzione
- Implicazioni dei risultati
- Conclusione
- Fonte originale
- Link di riferimento
La sequenza RNA a singola cellula, spesso chiamata ScRNA-seq, è un metodo che permette agli scienziati di studiare l'attività dei geni nelle singole cellule. Questa tecnologia può fornire intuizioni uniche su come si comportano le cellule, cosa che è molto più difficile da ottenere con metodi tradizionali che analizzano gruppi di cellule insieme.
La maggior parte delle ricerche che usano la scRNA-seq si è concentrata nel trovare differenze nell'attività genica in tessuti complessi. Tuttavia, sforzi recenti hanno iniziato a esaminare cambiamenti genetici usando dati da scRNA-seq. Sfruttando i dati già disponibili, i ricercatori sperano di scoprire variazioni genetiche che possano spiegare perché le cellule si comportano in modo diverso e come si sviluppano le malattie.
Sfide nell'analisi delle varianti genetiche
Anche se la scRNA-seq offre molti vantaggi, ci sono ancora diverse sfide che rendono difficile rilevare cambiamenti genetici in modo accurato. Un problema è che la scRNA-seq cattura spesso solo una piccola quantità di materiale genetico da ciascuna cellula, il che può portare a lacune nei dati e risultati poco affidabili. Altri fattori, come il modo in cui i geni vengono espressi in modo diverso a seconda del tipo di cellula, possono anche creare incertezze nei risultati. Per questo motivo, le conclusioni tratte dai dati genetici possono essere influenzate da quanto bene sono stati raccolti e interpretati i dati.
Valutazione dei diversi metodi per identificare cambiamenti genetici
In questo studio, abbiamo esaminato come diversi metodi per analizzare i dati scRNA-seq si confrontano quando si tratta di identificare Varianti a singolo nucleotide (SNVS). Gli SNVs sono piccole modifiche nel DNA che possono avere effetti importanti su come funzionano le cellule. I metodi che abbiamo valutato erano progettati specificamente per i dati scRNA-seq, così come altri sviluppati originariamente per altri tipi di dati DNA.
Un obiettivo era esplorare come i cambiamenti genetici nelle linee cellulari si relazionano alle variazioni nell'attività genica a livello di singola cellula, in particolare nel contesto del cancro. I risultati di questa ricerca aiutano a dimostrare il potenziale dei dati scRNA-seq nel far luce sulle complesse interazioni tra cambiamenti genetici e Espressione genica.
Raccolta dei dati
Per svolgere questo studio, abbiamo raccolto 381 set di dati scRNA-seq da un database noto come Sequence Read Archive. Questi set di dati includevano campioni di diversi pazienti con cancro al seno e mieloma multiplo. Ogni set conteneva informazioni su vari tipi di cellule, con la maggior parte proveniente da tessuti sani e cancerosi. Per un paziente, un campione particolare è stato prelevato al momento della diagnosi, mentre un altro è stato prelevato dopo un periodo di trattamento.
Inoltre, abbiamo ottenuto dati di Sequenziamento dell'intero esoma da campioni sani e tumorali dei pazienti con cancro al seno. Questi dati ci hanno aiutato a esplorare più a fondo le informazioni genetiche nei vari set di dati.
Allineamento dei dati
Per analizzare i dati, abbiamo iniziato allineando le letture grezze da scRNA-seq a un genoma umano di riferimento. Questo passaggio è cruciale per garantire che capiamo dove appartiene ciascun pezzo di informazione genetica nel contesto di un genoma completo. Sono stati utilizzati vari strumenti per elaborare i dati, inclusi marcatori di duplicati, divisione delle letture in segmenti e ricalibrazione dei punteggi di qualità.
Per i dati di sequenziamento bulk, abbiamo seguito una procedura simile, assicurandoci che le letture fossero mappate accuratamente allo stesso genoma di riferimento.
Chiamata delle varianti genetiche
Successivamente, ci siamo concentrati sull'identificazione di varianti somatiche a singolo nucleotide (SNVs) utilizzando diverse strategie. Alcuni metodi erano specificamente progettati per scRNA-seq, mentre altri erano adattati da tecniche usate per il sequenziamento bulk del DNA. Per fare un confronto equo, abbiamo applicato gli stessi criteri di filtraggio per le chiamate generate da ciascun metodo.
Abbiamo considerato solo tipi specifici di variazioni genetiche, in particolare SNVs biallelici, che sono quelli con due varianti possibili. Sono state utilizzate varie righe di comando per eseguire i processi di chiamata delle varianti e abbiamo applicato filtri rigorosi per garantire risultati di alta qualità.
Analisi dei cambiamenti genetici nel cancro al seno e nel mieloma multiplo
Per comprendere i cambiamenti genetici nei campioni dei nostri pazienti, abbiamo filtrato e elaborato i dati delle varianti con attenzione. Per i pazienti con cancro al seno, ci siamo assicurati di rimuovere le variazioni che erano già note nel genoma normale. Abbiamo anche considerato il numero di letture che sostenevano ciascuna variante genetica quando facevamo determinazioni sul genotipo.
Valutazione delle prestazioni dei diversi metodi
Per determinare l'efficacia delle nostre strategie di chiamata delle varianti, abbiamo calcolato varie misure per valutare quanto bene ciascun metodo ha funzionato. Abbiamo confrontato i risultati dai dati scRNA-seq con quelli dai dati di sequenziamento dell'intero esoma (WES), osservando quante varianti sono state rilevate in entrambi i tipi di analisi.
Abbiamo scoperto che le diverse strategie hanno prodotto risultati variabili in termini di numero di varianti genetiche identificate. Alcuni metodi hanno costantemente rilevato un numero maggiore di varianti rispetto ad altri. Questa discrepanza mette in evidenza l'importanza di scegliere un metodo appropriato per analizzare i dati scRNA-seq.
Analisi filogenetica
Una parte essenziale della nostra ricerca è stata la costruzione delle relazioni evolutive tra diverse linee cellulari. Abbiamo utilizzato i dati genetici per creare Alberi filogenetici che mostrano come le cellule sono correlate in base ai cambiamenti genetici.
Abbiamo osservato che la scelta della strategia di chiamata delle varianti influenzava direttamente gli alberi filogenetici risultanti. Alcuni metodi producevano separazioni più chiare tra cellule sane e tumorali, mentre altri mostravano risultati più misti. Questa discrepanza indica la necessità di una selezione e validazione attente dei metodi quando si interpretano i dati scRNA-seq per studi evolutivi.
Valutazione dell'affidabilità delle filogenie cellulari
Per valutare l'affidabilità degli alberi cellulari che abbiamo costruito, abbiamo misurato la distanza genetica media tra cellule dello stesso tipo. Ci aspettavamo che le cellule tumorali formassero un cluster distinto, mentre le cellule sane fossero raggruppate separatamente. I risultati hanno mostrato che alcuni metodi, come scAllele e Monovar, producevano alberi con distanze genetiche più basse tra le cellule dello stesso tipo, suggerendo una migliore separazione delle linee.
Esplorazione del legame tra espressione genica ed evoluzione
Utilizzando gli alberi filogenetici che abbiamo creato, abbiamo esaminato come l'espressione genica variava in base alla storia evolutiva delle cellule. Questa analisi aiuta i ricercatori a identificare modelli che collegano i cambiamenti genetici con le differenze nel modo in cui i geni vengono espressi, in particolare nelle cellule tumorali.
In un paziente, numerosi geni correlati ai processi del ciclo cellulare hanno mostrato cambiamenti significativi nell'espressione lungo la linea. Questo risultato suggerisce che potrebbero esserci differenze notevoli nella velocità di crescita e divisione delle cellule in diverse parti del corpo.
Implicazioni dei risultati
Le intuizioni ottenute dai dati scRNA-seq sono preziose poiché forniscono una comprensione più profonda della diversità genetica presente nelle popolazioni cellulari. Questa ricerca va oltre la semplice catalogazione dei cambiamenti genetici; aiuta a rivelare le dinamiche evolutive in gioco nello sviluppo e nella progressione del cancro.
Anche se abbiamo incontrato alcune limitazioni nella nostra analisi, come un basso supporto per alcuni rami negli alberi filogenetici, i modelli complessivi sono rimasti coerenti. I nostri risultati sottolineano l'importanza di essere cauti quando si interpretano i risultati che derivano da dati complessi a singola cellula.
Conclusione
In sintesi, la scRNA-seq è uno strumento potente che consente agli scienziati di indagare i dettagli intricati di come funzionano e si evolvono le cellule. Valutando vari metodi per rilevare le varianti genetiche, possiamo ottenere intuizioni sulla relazione tra cambiamenti genetici e comportamento cellulare in varie condizioni, in particolare in malattie come il cancro. Questa ricerca fornisce una base vitale per ulteriori studi mirati a svelare le complessità dell'evoluzione cellulare e i fattori genetici sottostanti che la guidano.
I risultati di questo studio servono da guida per future indagini sulle dinamiche evolutive delle cellule, contribuendo a una migliore comprensione di come le variazioni genetiche influenzano la salute e la malattia.
Titolo: Unraveling the phylogenetic signal of gene expression from single-cell RNA-seq data
Estratto: Single-cell RNA sequencing (scRNA-seq) has transformed our understanding of phenotypic heterogeneity. Although the predominant focus of scRNA-seq analyses has been assessing gene expression changes, several approaches have been proposed in recent years to identify changes at the DNA level from scRNA-seq data. In this study, we evaluated the relative performance of six strategies for calling single-nucleotide variants from scRNA-seq data using 381 single-cell transcriptomes from five cancer patients. Specifically, we focused on the quality of the inferred genotypes and the resulting single-cell phylogenies. We found that scAllele, Monopogen, and Monovar consistently returned phylogenetically informative genotype calls, providing more precise signals of discrimination between tumor and normal cells within heterogeneous samples and among distinct subclonal lineages in longitudinal samples. In addition, we evaluated the evolution of gene expression along the cell phylogenies. While most transcriptomic variation was very plastic and did not correlate with the cell phylogeny, a group of genes associated with cell cycle processes showed a strong phylogenetic signal in one of the patients, underscoring a potential link between gene expression patterns and lineage-specific traits in the context of cancer progression. In summary, our study highlights the potential of scRNA-seq data for inferring cell phylogenies to decipher the evolutionary dynamics of cell populations.
Autori: Joao M. Alves, L. Tomas, D. Posada
Ultimo aggiornamento: 2024-04-20 00:00:00
Lingua: English
URL di origine: https://www.biorxiv.org/content/10.1101/2024.04.17.589871
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.04.17.589871.full.pdf
Licenza: https://creativecommons.org/licenses/by-nc/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://gatk.broadinstitute.org/hc/en-us/articles/360035531192-RNAseq-short-variant-discovery-SNPs-Indels
- https://gatk.broadinstitute.org/hc/en-us/articles/360035535912-Data-pre-processing-for-variant-discovery
- https://github.com/KChen-lab/MonoVar
- https://github.com/ruqianl/appendCB
- https://github.com/cortes-ciriano-lab/SComatic
- https://github.com/KChen-lab/Monopogen
- https://ftp.1000genomes.ebi.ac.uk/vol1/ftp/data_collections/1000G_2504_high_coverage/working/20201028_3202_phased/
- https://github.com/U54Bioinformatics/PhylinSic_Project/issues/1