Simple Science

La science de pointe expliquée simplement

# Biologie# Bioinformatique

Utiliser MALAT1 pour améliorer la qualité des données scRNA-seq

L'expression de MALAT1 aide à identifier des cellules de haute qualité dans le séquençage d'ARN à une seule cellule.

― 7 min lire


MALAT1 améliore laMALAT1 améliore laqualité des cellules dansle scRNA-seql'intégrité cellulaire.MALAT1 est un marqueur clé pour évaluer
Table des matières

La séquençage d'ARN unicellulaire (ScRNA-seq) est une technique pour étudier l'expression des gènes dans des cellules individuelles. Cette méthode aide les scientifiques à comprendre comment différentes cellules dans un échantillon se comportent et comment elles diffèrent les unes des autres. Cependant, certains facteurs peuvent influencer la qualité des données obtenues lors de ces expériences.

Défis du scRNA-seq

Un des gros défis du scRNA-seq est de s'assurer que l'ARN détecté dans une cellule vient bien de cette cellule spécifique. Certaines méthodes d'isolement des cellules peuvent entraîner des contaminations, où l'ARN provenant d'autres sources en dehors de la cellule interfère avec les résultats. Ce problème peut survenir lors de la phase de traitement des cellules.

Sources de contamination

En utilisant des méthodes basées sur des gouttelettes pour le scRNA-seq, il se peut que les cellules libèrent de l'ARN dans la solution environnante. Cet ARN libéré, appelé ARN ambiant, peut se mélanger avec l'ARN des cellules, rendant difficile de déterminer quel ARN appartient à quelle cellule. Parfois, les gouttelettes destinées à capturer des cellules peuvent plutôt se remplir de cet ARN ambiant, menant à de fausses identifications.

De plus, certains types de cellules sont plus susceptibles de se rompre pendant le traitement, libérant leur ARN. Cela peut poser problème, car des gouttelettes endommagées ou vides contenant des fragments de cellules peuvent encore passer à travers les processus de filtration initiaux, entraînant des résultats peu fiables.

Identification des cellules dans le scRNA-seq

Dans les expériences de scRNA-seq typiques, un grand nombre de gouttelettes sont produites. Seules certaines de ces gouttelettes contiennent des cellules intactes. Les chercheurs cherchent des gouttelettes qui ont un nombre élevé d'identifiants moléculaires uniques (UMIs) pour identifier la présence de cellules. Ils peuvent aussi utiliser des méthodes statistiques pour comparer le profil d'ARN des gouttelettes à un profil de fond pour aider à l'identification.

Filtrage des gouttelettes problématiques

Pour assurer la qualité des données, les chercheurs retirent souvent les gouttelettes contenant plusieurs cellules, appelées doublets, ou celles montrant des signes de dommages cellulaires. Cependant, même après avoir appliqué ces filtres, de nombreux ensembles de données contiennent encore des cellules qui ne sont pas intactes ou qui sont mélangées avec de l'ARN ambiant, conduisant à de mauvais résultats.

Introduction de DropletQC

Pour aider à résoudre le problème des cellules endommagées, un outil appelé DropletQC a été développé. Il évalue la qualité des cellules en fonction de leur fraction nucléaire, qui est une mesure de la relation entre leur ARN cytoplasmique et leur ARN nucléaire. Si les gouttelettes montrent de faibles niveaux d'ARN nucléaire, elles peuvent être identifiées comme vides ou contenant des cellules endommagées.

Bien que DropletQC soit utile, il nécessite beaucoup de puissance de calcul pour traiter de grandes quantités de données. De plus, l'accès aux données de séquençage brutes peut parfois être limité, rendant la réanalyse des ensembles de données existants difficile.

Nouvelles approches pour le filtrage des cellules

Depuis le lancement de DropletQC, d'autres méthodes ont émergé pour améliorer le filtrage des cellules. Par exemple, SampleQC analyse la distribution des caractéristiques d'ARN au sein des types cellulaires et identifie les valeurs aberrantes qui ne correspondent pas aux modèles attendus. Une autre méthode, QClus, examine plusieurs métriques de qualité dans les données pour signaler les cellules avec de faibles niveaux d'ARN non épissé.

Le rôle du MALAT1

MALAT1 est un type spécifique d'ARN connu sous le nom d'ARN non codant long (lncRNA) qui se trouve principalement dans le noyau. Il est constamment exprimé dans de nombreux types de cellules et est impliqué dans des processus cellulaires importants.

Les chercheurs ont découvert que le niveau d'expression de MALAT1 corrèle bien avec la fraction nucléaire des cellules. Cela signifie qu'en mesurant les niveaux de MALAT1, les scientifiques peuvent rapidement évaluer si une gouttelette contient probablement un noyau cellulaire intact.

MALAT1 comme indicateur de qualité

L'analyse des données a montré que l'expression de MALAT1 est l'un des indicateurs les plus fiables de la qualité cellulaire dans les expériences de scRNA-seq. Les cellules avec de faibles expressions de MALAT1 sont souvent marquées pour un examen plus approfondi, car elles peuvent être des gouttelettes endommagées ou vides. Dans de nombreux ensembles de données, la corrélation entre l'expression de MALAT1 et la fraction nucléaire est forte, suggérant qu'elle sert d'indicateur efficace pour identifier les cellules intactes.

Utilisation de MALAT1 pour le filtrage des cellules

Les chercheurs ont examiné s'ils pouvaient automatiser le processus d'identification des cellules de mauvaise qualité en fonction des niveaux d'expression de MALAT1. Ils ont trouvé qu'une fois que les lectures d'ARN sont normalisées, MALAT1 a tendance à montrer un modèle d'expression spécifique. Les ensembles de données avec des niveaux de MALAT1 tombant en dessous d'un certain seuil peuvent être signalés pour révision ou suppression, car ces faibles valeurs indiquent généralement des gouttelettes vides ou des cellules manquant de noyaux.

Estimation du seuil de MALAT1

Une méthode graphique a été développée pour aider à estimer le seuil en dessous duquel les cellules devraient être signalées. En analysant la distribution de l'expression de MALAT1 dans l'ensemble de données, les chercheurs peuvent repérer une limite inférieure. Les cellules qui tombent en dessous de cette limite sont probablement non intactes.

Analyse de divers ensembles de données

En appliquant ce processus de filtrage de MALAT1 à divers ensembles de données, les chercheurs ont observé des résultats cohérents à travers des échantillons sains et malades. En particulier, certains types de cellules, comme les cellules hépatiques et les érythrocytes, avaient tendance à montrer de faibles niveaux d'expression de MALAT1, servant de contrôle pour le modèle de filtrage.

Types de cellules spécifiques et niveaux de MALAT1

Certains tissus peuvent poser des défis lors de l'analyse de la qualité des cellules. Par exemple, les cellules hépatiques expriment souvent de faibles niveaux de MALAT1 en raison de leur fragilité pendant le traitement. Cela peut entraîner une identification erronée des cellules, car l'ARN ambiant peut contaminer les résultats.

Dans de nombreux ensembles de données, des clusters de cellules exprimant de hauts niveaux de MALAT1 ont été identifiés, indiquant des noyaux intacts. En revanche, les clusters avec de faibles niveaux de MALAT1 étaient souvent signalés pour des dommages potentiels, suggérant qu'ils pourraient contenir des fragments ou des restes d'autres cellules.

Importance du contrôle qualité

Avec le volume de données de séquençage d'ARN unicellulaire qui augmente rapidement, le contrôle qualité devient crucial. L'analyse de l'expression de MALAT1 offre un moyen rapide d'identifier les cellules endommagées ou les gouttelettes vides, aidant les chercheurs à garantir l'intégrité de leurs résultats.

Une norme pour le filtrage des cellules

La vérification simple de l'expression de MALAT1 devrait devenir une pratique courante dans les pipelines d'analyse de scRNA-seq. Cela permettrait d'améliorer la qualité globale des ensembles de données et de réduire les risques d'identifier faussement des cellules endommagées ou vides comme cellules intactes.

Dernières réflexions

En gros, l'utilisation de MALAT1 comme marqueur montre des promesses pour faire avancer la méthodologie utilisée dans le séquençage d'ARN unicellulaire. En intégrant cela dans les processus de filtrage existants, les chercheurs peuvent mieux identifier des cellules de haute qualité, conduisant à des analyses plus fiables et informatives. À mesure que le domaine évolue, le perfectionnement de ces techniques ne fera qu'améliorer notre compréhension de l'expression génétique et du comportement cellulaire dans des échantillons biologiques complexes.

Source originale

Titre: MALAT1 expression indicates cell quality in single-cell RNA sequencing data

Résumé: Single-cell RNA sequencing (scRNA-seq) has revolutionized our understanding of cell types and tissues. However, empty droplets and poor quality cells are often captured in single cell genomics experiments and need to be removed to avoid cell type interpretation errors. Many automated and manual methods exist to identify poor quality cells or empty droplets, such as minimum RNA count thresholds and comparing the gene expression profile of an individual cell to the overall background RNA expression of the experiment. A versatile approach is to use unbalanced overall RNA splice ratios of cells to identify poor quality cells or empty droplets. However, this approach is computationally intensive, requiring a detailed search through all sequence reads in the experiment to quantify spliced and unspliced reads. We found that the expression level of MALAT1, a non-coding RNA retained in the nucleus and ubiquitously expressed across cell types, is strongly correlated with this splice ratio measure and thus can be used to similarly identify low quality cells in scRNA-seq data. Since it is easy to visualize the expression of a single gene in single-cell maps, MALAT1 expression is a simple cell quality measure that can be quickly used during the cell annotation process to improve the interpretation of cells in tissues of human, mouse and other species with a conserved MALAT1 function.

Auteurs: Gary Bader, Z. A. Clarke

Dernière mise à jour: 2024-07-21 00:00:00

Langue: English

Source URL: https://www.biorxiv.org/content/10.1101/2024.07.14.603469

Source PDF: https://www.biorxiv.org/content/10.1101/2024.07.14.603469.full.pdf

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires