Impatto delle versioni di Cell Ranger sulla qualità dei dati scRNA-seq
Diverse versioni di Cell Ranger influenzano in modo significativo i risultati dell'analisi dei dati scRNA-seq.
Takeya Kasukawa, I. Abugessaisa, A. Hasegawa, S. Walker, S. Katayama, J. Kere
― 7 leggere min
Indice
- L'Ascesa della Tecnologia delle Gocce Microfluidiche
- Sviluppo Software per l'Analisi scRNA-seq
- Indagare l'Impatto delle Versioni di Cell Ranger
- Gli Effetti delle Diverse Versioni di Cell Ranger
- Valutazione della Qualità dei Codici a Barre Cellulari
- Indagare le Differenze nell'Espressione Genica
- Modelli di Copertura del Corpo Genico
- Analisi di Clustering e Geni Marker
- Conclusione e Raccomandazioni
- Fonte originale
La sequenza RNA a singola cellula (scRNA-seq) è un metodo usato per studiare l'Espressione genica a livello di singole cellule. Questa tecnologia permette agli scienziati di capire come si comportano e interagiscono le diverse cellule in sistemi biologici complessi. Di recente, nuovi progressi hanno migliorato la capacità di processare molte cellule insieme, consentendo ai ricercatori di analizzare decine di migliaia di cellule in modo più efficiente di prima.
Due dei principali avanzamenti in questo campo sono noti come inDrop e Drop-seq. Queste tecnologie utilizzano piccole gocce per catturare individualmente le cellule e il loro RNA, consentendo ai ricercatori di identificare l'origine di ciascun pezzo di RNA e misurare i livelli di espressione genica. Ogni goccia contiene un codice a barre unico, che funge da etichetta per la cellula all'interno. Usando questi Codici a barre, gli scienziati possono tenere traccia di da dove proviene ciascun RNA, permettendo studi su larga scala di vari sistemi biologici, come come interagiscono le diverse cellule nel corpo umano.
L'Ascesa della Tecnologia delle Gocce Microfluidiche
La tecnologia delle gocce microfluidiche sta diventando più accessibile e conveniente. Tuttavia, con questo uso crescente arrivano anche sfide nel processare e analizzare i dati prodotti. Gli scienziati devono assicurarsi di poter identificare accuratamente quali letture provengono da cellule reali. Un problema è il rilevamento dei Doppioni, o gocce che contengono più di una cellula. Quando ciò accade, i dati possono suggerire che ci siano più letture da un particolare codice a barre di quanto dovrebbero, portando a risultati inaccurati. Un altro problema deriva dalle gocce vuote, che non contengono affatto cellule.
Oltre a questi problemi, i ricercatori affrontano anche preoccupazioni riguardo alla presenza di molecole di RNA ambientale. Questi frammenti di RNA extra possono aumentare il rumore di fondo nei dati, rendendo difficile distinguere tra segnali reali e rumore. Gli scienziati hanno stabilito vari parametri per valutare la qualità di queste letture di RNA, inclusi quanti molecole uniche vengono rilevate, quanti geni diversi sono rappresentati e la proporzione di RNA derivato dai mitocondri.
Sviluppo Software per l'Analisi scRNA-seq
10x Genomics ha sviluppato un software chiamato Cell Ranger per aiutare a processare i dati scRNA-seq raccolti dai loro sistemi. Questo software è essenziale per analizzare l'espressione genica delle singole cellule. Man mano che il software evolve, vengono rilasciate nuove versioni per migliorare la qualità dei dati e aumentare il numero di letture codificate identificate.
Tuttavia, alcuni ricercatori hanno notato che i dataset pubblicati di recente spesso utilizzano versioni più vecchie di Cell Ranger senza motivazioni chiare. Questo è preoccupante perché versioni diverse possono dare risultati diversi, influenzando le conclusioni tratte dai dati. Alcuni studi hanno confrontato queste versioni per valutare le loro prestazioni, rivelando disparità nel modo in cui analizzano i dati.
Indagare l'Impatto delle Versioni di Cell Ranger
Per capire meglio come Cell Ranger influisca sull'analisi dei dati scRNA-seq, è stato condotto uno studio utilizzando diversi dataset umani e murini. L'obiettivo era esplorare come le diverse versioni del software impattassero la qualità dei dati risultanti. I dataset provenienti da varie fonti biologiche, inclusi sangue intero e tessuti cerebrali, sono stati elaborati usando più versioni di Cell Ranger.
I ricercatori hanno esaminato 180 dataset, misurando diversi parametri di qualità come il numero di molecole uniche e geni rilevati, la presenza di doppioni e il livello di contaminazione da RNA ambientale. Questo approccio completo ha permesso loro di identificare modelli e variazioni nella qualità dei dati in base alla specifica versione di Cell Ranger utilizzata.
Gli Effetti delle Diverse Versioni di Cell Ranger
Processando lo stesso dataset con diverse versioni di Cell Ranger, i ricercatori hanno scoperto che il numero di codici a barre cellulari identificati variava significativamente. Ad esempio, le versioni più recenti tendevano a identificare più codici a barre cellulari rispetto a quelle più vecchie. I cambiamenti nell'algoritmo di chiamata dei codici a barre cellulari significavano che il numero di codici a barre rilevati poteva aumentare o diminuire a seconda della versione utilizzata.
Alcune versioni consentivano l'inclusione di letture introniche, il che aiutava a migliorare la qualità generale dei dati di espressione genica identificati. Al contrario, le versioni più vecchie consideravano solo letture esoniche, limitando le informazioni catturate. Di conseguenza, i dataset trattati con versioni più recenti mostravano generalmente una qualità migliore e una maggiore robustezza nell'analisi.
Valutazione della Qualità dei Codici a Barre Cellulari
Per analizzare la qualità dei dati tra le diverse versioni di Cell Ranger, i ricercatori hanno categorizzato i codici a barre cellulari in due gruppi: comuni e specifici. I codici a barre cellulari comuni sono quelli identificati da tutte le versioni del software, mentre i codici specifici sono rilevati solo da alcune versioni. Lo studio ha scoperto che i codici a barre cellulari comuni mostravano generalmente Metriche di Qualità più elevate rispetto ai codici specifici.
I profili molecolari dei codici a barre cellulari comuni mostravano costantemente livelli più elevati di molecole uniche e geni rilevati. Mostravano anche livelli più bassi di espressione genica mitocondriale, che possono indicare una scarsa qualità cellulare se presenti in eccesso. Questa analisi suggerisce che la scelta della versione di Cell Ranger ha implicazioni significative per la qualità dei dati risultanti.
Indagare le Differenze nell'Espressione Genica
Un aspetto essenziale dell'analisi scRNA-seq è la misurazione dei livelli di espressione genica. Lo studio mirava a vedere come la scelta della versione di Cell Ranger influenzasse l'espressione media di vari tipi di geni, inclusi sia geni codificanti per proteine che RNA lungo non codificante (lncRNA).
I risultati indicavano che i codici a barre cellulari comuni mostravano generalmente livelli di espressione media più elevati per i geni codificanti per proteine rispetto ai codici specifici. Questo suggerisce che i codici a barre cellulari classificati come comuni catturano probabilmente informazioni biologiche più rilevanti. Al contrario, i codici specifici mostravano livelli medi più bassi, indicando che potrebbero non rappresentare adeguatamente i profili di espressione genica delle cellule.
È interessante notare che per gli lncRNA, i codici specifici tendevano a mostrare livelli di espressione media più elevati. Questa variazione nei profili di espressione evidenzia le sfumature e le complessità insite nell'analisi dei dati di espressione genica.
Modelli di Copertura del Corpo Genico
Un altro aspetto esaminato è stata la copertura del corpo genico. Analizzando quanto di ciascuna regione genica fosse coperta nei dati, i ricercatori potevano valutare l'affidabilità dei trascritti rilevati. In generale, i codici a barre cellulari comuni mostrano modelli di copertura previsti tipici del sequenziamento dell'estremità 3', mentre i codici specifici mostravano copertura distorta.
I modelli di copertura del corpo genico differivano significativamente tra i dataset. Per alcuni dataset, una alta proporzione di codici a barre cellulari specifici mostrava distorsioni, indicando potenziali problemi nella qualità dei dati o nella preparazione del campione. Questa osservazione suggerisce che potrebbero essere necessarie ulteriori indagini per comprendere i fattori sottostanti che contribuiscono a queste variazioni di copertura.
Analisi di Clustering e Geni Marker
Una delle analisi chiave nei studi scRNA-seq è il clustering, che raggruppa le cellule in base alle somiglianze nei loro profili di espressione genica. I ricercatori hanno trovato che il numero di cluster e le loro dimensioni variavano notevolmente a seconda della versione di Cell Ranger utilizzata. Ad esempio, usando versioni diverse si potevano ottenere da 11 a 15 cluster nello stesso dataset.
Quando sono stati identificati i geni marker dei cluster, sono state osservate differenze significative in base alla versione di Cell Ranger impiegata. Alcuni geni marker erano conservati tra le versioni, mentre altri erano stati introdotti di recente o sostituiti, illustrando la fluidità dell'interpretazione biologica in queste analisi. L'impatto dell'uso di specifiche versioni di Cell Ranger sui risultati di clustering sottolinea l'importanza di una selezione metodologica accurata nella ricerca scRNA-seq.
Conclusione e Raccomandazioni
La valutazione di come diverse versioni di Cell Ranger influenzino l'analisi dei dati scRNA-seq rivela chiare implicazioni per gli scienziati che lavorano con questa tecnologia. La scelta della versione software può influenzare drasticamente la qualità dei risultati, come il numero di codici a barre cellulari rilevati, i livelli di espressione genica e i risultati di clustering.
Per garantire l'integrità delle loro scoperte, si incoraggia i ricercatori a utilizzare le versioni più recenti di Cell Ranger quando possibile. Inoltre, dovrebbero essere effettuati controlli di qualità accurati sui dataset, specialmente su quelli che utilizzano versioni di software più vecchie negli studi pubblicati. Con la rapida evoluzione della tecnologia scRNA-seq, rimanere informati sulle migliori pratiche migliorerà alla fine la nostra comprensione dei sistemi biologici complessi.
Titolo: Impacts of Cell Ranger versions on Chromium gene expression data
Estratto: In droplet-based single cell gene expression data, cell barcode processing by Cell Ranger (CR) is a standard pipeline. But no systematic evaluation of the impact of CR version on single cell gene expression data has been conducted. To comprehensively evaluate the impact of CR version, we considered six molecular quality criteria, quantified gene expression, and performed downstream analysis for 12 single-cell datasets. Each dataset was processed by 15 versions of CR. We demonstrated that different versions of CR yield different numbers of cell barcodes with significant variation in detected UMIs, features, molecular qualities and average gene expression of protein-coding and lncRNA for the same dataset. Our analysis finds distinction between two diverse categories of cell barcodes: common barcodes unmasked by all versions of CR, and specific barcodes only unmasked/masked by some versions. Surprisingly, we observed variation in molecular read-out between common cell barcodes when called by different versions of CR. The specific barcodes yield skewed gene body coverage and form distinct clusters. The choice of CR version affects scores for quality, average gene expression, clustering results, and top cluster marker genes of the dataset.
Autori: Takeya Kasukawa, I. Abugessaisa, A. Hasegawa, S. Walker, S. Katayama, J. Kere
Ultimo aggiornamento: 2024-10-30 00:00:00
Lingua: English
URL di origine: https://www.biorxiv.org/content/10.1101/2024.08.10.607413
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.08.10.607413.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.