Usare MALAT1 per migliorare la qualità dei dati scRNA-seq
L'espressione di MALAT1 aiuta a identificare cellule di alta qualità nel sequenziamento RNA a singola cellula.
― 6 leggere min
Indice
- Sfide nello scRNA-seq
- Fonti di Contaminazione
- Identificazione delle Cellule in scRNA-seq
- Filtraggio delle Goccioline Problema
- Introduzione di DropletQC
- Nuovi Approcci al Filtraggio delle Cellule
- Il Ruolo di MALAT1
- MALAT1 come Indicatore di Qualità
- Uso di MALAT1 per il Filtraggio delle Cellule
- Stima della Soglia di MALAT1
- Analisi di Vari Dataset
- Tipi Cellulari Specifici e Livelli di MALAT1
- Importanza del Controllo di Qualità
- Uno Standard per il Filtraggio delle Cellule
- Pensieri Finali
- Fonte originale
- Link di riferimento
La sequenza RNA a singola cellula (ScRNA-seq) è una tecnica usata per studiare l'espressione genica nelle singole cellule. Questo metodo aiuta gli scienziati a capire come si comportano le diverse cellule in un campione e come si differenziano tra loro. Tuttavia, certi fattori possono influenzare la qualità dei dati ottenuti da questi esperimenti.
Sfide nello scRNA-seq
Una sfida significativa nello scRNA-seq è assicurarsi che l'RNA rilevato in una cellula provenga effettivamente da quella specifica cellula. Alcuni metodi di isolamento delle cellule possono portare a contaminazione, dove l'RNA di altre fonti al di fuori della cellula interferisce con i risultati. Questo problema può presentarsi durante la fase di elaborazione delle cellule.
Fonti di Contaminazione
Quando si usano metodi basati su goccioline per scRNA-seq, le cellule potrebbero rilasciare RNA nella soluzione circostante. Questo RNA rilasciato, noto come RNA ambientale, può mescolarsi con l'RNA delle cellule, rendendo difficile determinare a quale cellula appartiene quale RNA. A volte, le gocce destinate a catturare le cellule potrebbero invece riempirsi di questo RNA ambientale, portando a errate identificazioni.
Inoltre, certi tipi di cellule sono più inclini a rompersi durante l'elaborazione, rilasciando il loro RNA. Questo può creare problemi, poiché gocce danneggiate o vuote contenenti frammenti di cellule possono comunque passare attraverso i processi di screening iniziali, causando risultati inaffidabili.
Identificazione delle Cellule in scRNA-seq
Negli esperimenti tipici di scRNA-seq, viene prodotto un gran numero di goccioline. Solo alcune di queste goccioline contengono cellule integre. I ricercatori cercano goccioline che hanno conteggi elevati di identificatori molecolari unici (UMI) per identificare la presenza di cellule. Possono anche usare metodi statistici per confrontare il profilo RNA delle goccioline con un profilo di fondo per aiutare con l'identificazione.
Filtraggio delle Goccioline Problema
Per garantire la qualità dei dati, i ricercatori spesso rimuovono goccioline che contengono più cellule, note come doppiette, o goccioline che mostrano segni di danneggiamento cellulare. Tuttavia, anche dopo aver applicato questi filtri, molti dataset contengono ancora cellule che non sono integre o sono mescolate con RNA ambientale, portando a risultati scadenti.
Introduzione di DropletQC
Per aiutare a risolvere il problema delle cellule danneggiate, è stato sviluppato uno strumento chiamato DropletQC. Esso valuta la qualità delle cellule in base alla loro frazione nucleare, che è una misura della relazione tra il loro RNA citoplasmatico e il loro RNA nucleare. Se le goccioline mostrano bassi livelli di RNA nucleare, possono essere identificate come vuote o contenenti cellule danneggiate.
Sebbene DropletQC sia utile, richiede molta potenza computazionale per elaborare grandi quantità di dati. Inoltre, l'accesso ai dati di sequenziamento grezzi può talvolta essere limitato, rendendo difficile la rianalisi dei dataset esistenti.
Nuovi Approcci al Filtraggio delle Cellule
Dalla lanciata di DropletQC, sono emersi altri metodi per migliorare il filtraggio delle cellule. Ad esempio, SampleQC analizza la distribuzione delle caratteristiche RNA all'interno dei tipi cellulari e identifica gli outlier che non corrispondono a schemi attesi. Un altro metodo, QClus, esamina più metriche di qualità nei dati per segnare le cellule con bassi livelli di RNA non spliced.
MALAT1
Il Ruolo diMALAT1 è un tipo specifico di RNA noto come RNA lungo non codificante (lncRNA) che si trova principalmente nel nucleo. È espresso costantemente in molti tipi di cellule ed è coinvolto in processi cellulari importanti.
I ricercatori hanno scoperto che il livello di espressione di MALAT1 si correla bene con la frazione nucleare delle cellule. Questo significa che misurando i livelli di MALAT1, gli scienziati possono rapidamente valutare se una gocciolina contiene probabilmente un nucleo cellulare integro.
MALAT1 come Indicatore di Qualità
L'analisi dei dati ha mostrato che l'espressione di MALAT1 è uno degli indicatori più affidabili della qualità cellulare negli esperimenti di scRNA-seq. Le cellule con basse espressioni di MALAT1 vengono spesso segnalate per ulteriori esami, poiché potrebbero essere goccioline danneggiate o vuote. In molti dataset, la correlazione tra l'espressione di MALAT1 e la frazione nucleare è forte, suggerendo che funge da misura efficace per identificare cellule integre.
Uso di MALAT1 per il Filtraggio delle Cellule
I ricercatori hanno esaminato se potevano automatizzare il processo di identificazione di cellule di bassa qualità basato sui livelli di espressione di MALAT1. Hanno trovato che una volta normalizzate le letture RNA, MALAT1 tende a mostrare uno specifico schema di espressione. I dataset con livelli di MALAT1 al di sotto di una certa soglia possono essere segnalati per revisione o rimozione, poiché questi valori bassi indicano solitamente goccioline vuote o cellule che mancano di nuclei.
Stima della Soglia di MALAT1
È stato sviluppato un metodo grafico per aiutare a stimare la soglia al di sotto della quale le cellule dovrebbero essere segnalate. Analizzando la distribuzione dell'espressione di MALAT1 nel dataset, i ricercatori possono individuare un limite inferiore. Le cellule che si trovano al di sotto di questo limite probabilmente non sono integre.
Analisi di Vari Dataset
Applicando questo processo di filtraggio di MALAT1 a vari dataset, i ricercatori hanno osservato risultati coerenti tra campioni sani e malati. In particolare, certi tipi di cellule, come le cellule epatiche e gli eritrociti, tendevano a mostrare bassi livelli di espressione di MALAT1, fungendo da controllo per il modello di filtraggio.
Tipi Cellulari Specifici e Livelli di MALAT1
Alcuni tessuti possono presentare sfide nell'analisi della qualità delle cellule. Ad esempio, le cellule epatiche spesso esprimono bassi livelli di MALAT1 a causa della loro fragilità durante l'elaborazione. Questo può portare a errate identificazioni delle cellule, poiché l'RNA ambientale può contaminare i risultati.
In molti dataset, sono stati identificati cluster di cellule che esprimono alti livelli di MALAT1, indicando nuclei integri. Al contrario, i cluster con bassi livelli di MALAT1 venivano spesso segnalati per potenziale danneggiamento, suggerendo che potrebbero contenere frammenti o resti di altre cellule.
Importanza del Controllo di Qualità
A causa dell'aumento rapido del volume di dati di sequenza RNA a singola cellula pubblicati, il controllo di qualità diventa cruciale. L'analisi dell'espressione di MALAT1 fornisce un modo veloce per identificare cellule danneggiate o goccioline vuote, aiutando i ricercatori a garantire l'integrità dei loro risultati.
Uno Standard per il Filtraggio delle Cellule
Il semplice controllo dell'espressione di MALAT1 dovrebbe diventare una pratica comune nelle pipeline di analisi scRNA-seq. Questo aiuterebbe a migliorare la qualità complessiva dei dataset e ridurre le possibilità di identificare erroneamente cellule danneggiate o vuote come cellule integre.
Pensieri Finali
In generale, l'uso di MALAT1 come marcatore mostra promesse nel migliorare la metodologia usata nella sequenza RNA a singola cellula. Integrando questo nei processi di filtraggio esistenti, i ricercatori possono identificare meglio cellule di alta qualità, portando a analisi più affidabili e informative. Con l'evoluzione del campo, ulteriori affinamenti di queste tecniche miglioreranno solo la nostra comprensione dell'espressione genica e del comportamento cellulare nei campioni biologici complessi.
Titolo: MALAT1 expression indicates cell quality in single-cell RNA sequencing data
Estratto: Single-cell RNA sequencing (scRNA-seq) has revolutionized our understanding of cell types and tissues. However, empty droplets and poor quality cells are often captured in single cell genomics experiments and need to be removed to avoid cell type interpretation errors. Many automated and manual methods exist to identify poor quality cells or empty droplets, such as minimum RNA count thresholds and comparing the gene expression profile of an individual cell to the overall background RNA expression of the experiment. A versatile approach is to use unbalanced overall RNA splice ratios of cells to identify poor quality cells or empty droplets. However, this approach is computationally intensive, requiring a detailed search through all sequence reads in the experiment to quantify spliced and unspliced reads. We found that the expression level of MALAT1, a non-coding RNA retained in the nucleus and ubiquitously expressed across cell types, is strongly correlated with this splice ratio measure and thus can be used to similarly identify low quality cells in scRNA-seq data. Since it is easy to visualize the expression of a single gene in single-cell maps, MALAT1 expression is a simple cell quality measure that can be quickly used during the cell annotation process to improve the interpretation of cells in tissues of human, mouse and other species with a conserved MALAT1 function.
Autori: Gary Bader, Z. A. Clarke
Ultimo aggiornamento: 2024-07-21 00:00:00
Lingua: English
URL di origine: https://www.biorxiv.org/content/10.1101/2024.07.14.603469
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.07.14.603469.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://www.10xgenomics.com/datasets
- https://github.com/BaderLab/MALAT1_threshold
- https://github.com/14zac2/MALAT1Analysis
- https://support.10xgenomics.com/single-cell-gene-expression/datasets/4.0.0/Parent_NGSC3_DI_PBMC
- https://support.10xgenomics.com/single-cell-gene-expression/datasets/4.0.0/Parent_NGSC3_DI_HodgkinsLymphoma
- https://www.10xgenomics.com/datasets/7-5-k-sorted-cells-from-human-invasive-ductal-carcinoma-3-v-3-1-3-1-standard-6-0-0
- https://support.10xgenomics.com/single-cell-gene-expression/datasets/4.0.0/Parent_SC3v3_Human_Glioblastoma
- https://data.humancellatlas.org/explore/projects/abe1a013-af7a-45ed-8c26-f3793c24a1f4
- https://zenodo.org/records/3245841
- https://support.10xgenomics.com/single-cell-gene-expression/datasets/4.0.0/SC3_v3_NextGem_DI_Neuron_10K
- https://www.10xgenomics.com/datasets/1-k-heart-cells-from-an-e-18-mouse-v-3-chemistry-3-standard-3-0-0
- https://registry.opendata.aws/tabula-muris-senis/
- https://cellxgene.cziscience.com/collections/0b9d8a04-bb9d-44da-aa27-705bb65b54eb
- https://cellxgene.cziscience.com/collections/e5f58829-1a66-40b5-a624-9046778e74f5
- https://registry.opendata.aws/tabula-sapiens/
- https://cellxgene.cziscience.com/collections/c114c20f-1ef4-49a5-9c2e-d965787fb90c