Rendre l'annotation des cellules uniques plus simple avec easybio
easybio simplifie le marquage des cellules uniques avec CellMarker2.0 pour une analyse plus rapide.
― 8 min lire
Table des matières
- Comment fonctionne easybio
- Recherche de marqueurs dans CellMarker2.0
- Annotation des clusters cellulaires avec CellMarker2.0
- Exemple de flux de travail
- Exécution du tutoriel guidé Seurat PBMC3K
- Correspondance avec CellMarker2.0
- Visualisation des clusters cellulaires et de leurs types
- Évaluer d'autres types cellulaires potentiels
- Comparaison de CellMarker2.0 avec SingleR
- Conclusion et discussion
- Source originale
Reconnaître différents Types de cellules dans des données unicellulaires est super important pour beaucoup d'études. Il y a plusieurs façons de labelliser ces cellules. Récemment, quelques méthodes ont été testées pour voir comment elles fonctionnent, y compris des outils comme GPT-4, SingleR et CellMarker2.0.
La méthode SingleR est une façon d’identifier les types de cellules, mais elle a besoin de données de référence, ce qui peut prendre du temps. Une autre méthode, scType, utilise des bases de données comme PanglaoDB et la base de données originale CellMarker pour aider à labelliser les cellules. Maintenant, CellMarker a une nouvelle version, CellMarker2.0. Cette version mise à jour a de nouveaux Marqueurs et a été soigneusement vérifiée pour ses infos sur les types de cellules humaines et de souris.
Bien que l'utilisation de CellMarker2.0 ne donne pas toujours les meilleurs résultats, c'est utile pour différents ensembles de données et ça donne des résultats clairs. Cependant, elle n'est accessible que via une interface en ligne, sans option logicielle.
Pour améliorer ça, on a créé un package R appelé easybio pour aider les utilisateurs à accéder facilement à la base de données CellMarker2.0. Cet outil peut aider à trouver des marqueurs et à labelliser les cellules uniques plus rapidement.
Comment fonctionne easybio
Recherche de marqueurs dans CellMarker2.0
Une fonctionnalité importante de la base de données CellMarker2.0 est sa capacité à chercher des marqueurs basés sur les gènes les plus exprimés dans chaque groupe de cellules. Ça aide à déterminer quel type de cellule pourrait être dans chaque groupe. Le package easybio permet aussi aux utilisateurs de trouver des marqueurs et d'apprendre de quels tissus ils viennent, comme noté dans des études précédentes. Les utilisateurs peuvent aussi obtenir des marqueurs pour des types de cellules spécifiques directement.
Par exemple, en utilisant le package easybio pour chercher le marqueur CD68, il montre où ce marqueur se trouve dans différents tissus et types de cellules.
Annotation des clusters cellulaires avec CellMarker2.0
Labelliser les clusters cellulaires est une étape essentielle de l'analyse de séquençage d'ARN unicellulaire. Ce processus attribue des identités biologiques à des groupes de cellules. En général, ça implique de comparer les gènes exprimés dans chaque cluster et de trouver les gènes les plus marquants dans chaque groupe. Ces gènes marquants servent de marqueurs pour identifier les types de cellules potentiels dans chaque cluster.
La base de données CellMarker2.0 est une super ressource pour cette tâche car elle contient une liste soigneusement collectée de marqueurs de type cellulaire provenant d'études antérieures. L'outil en ligne permet aux chercheurs de chercher des marqueurs en collant des listes de gènes, mais ça peut prendre trop de temps et nécessite de faire correspondre un cluster à la fois. Cette méthode manuelle peut ralentir l'analyse.
Pour résoudre ce problème, le package easybio automatise la correspondance des gènes principaux de chaque cluster avec les types de cellules potentiels en utilisant la base de données CellMarker2.0. Cela accélère le processus de labellisation et réduit les chances d'erreurs manuelles. Les utilisateurs peuvent aussi décider combien de gènes principaux utiliser pour la correspondance, ce qui aide à affiner le processus de labellisation. C'est utile pour équilibrer la spécificité et la sensibilité des marqueurs.
Bien que ça puisse être tentant de prendre le type cellulaire le mieux assorti comme le seul label pour chaque cluster, on encourage les utilisateurs à examiner aussi d'autres types de cellules assortis. Quand plusieurs types de cellules correspondent à un seul cluster, il est important de penser au contexte biologique et aux autres conditions expérimentales. Explorer ces différentes correspondances peut aider à trouver des types de cellules rares ou nouveaux et garantir que la labellisation est complète et précise. En profitant pleinement de CellMarker2.0, les utilisateurs peuvent améliorer leur analyse unicellulaire et obtenir de meilleures perspectives sur la diversité cellulaire.
Exemple de flux de travail
On peut illustrer comment utiliser le package easybio avec un exemple de flux de travail. On va utiliser le dataset PBMC3K et le package R Seurat.
Exécution du tutoriel guidé Seurat PBMC3K
On commence par exécuter le tutoriel guidé Seurat PBMC3K pour avoir un aperçu des clusters bruts et non annotés.
Correspondance avec CellMarker2.0
Dans cette étape suivante, on regarde les 50 gènes les plus exprimés pour chaque cluster cellulaire. On inclut seulement les gènes qui sont statistiquement significatifs et on les utilise pour chercher des marqueurs correspondants dans la base de données CellMarker2.0. Ça nous aide à aligner les profils d’expression génique avec des marqueurs connus pour labelliser les types de cellules.
On vérifie combien de marqueurs correspondent à chaque cluster dans la base de données CellMarker2.0. Une colonne montre le nombre total de marqueurs correspondants, tandis qu'une autre colonne montre le nombre de marqueurs uniques. On garde aussi une trace du nombre de fois que chaque marqueur apparaît.
Visualisation des clusters cellulaires et de leurs types
On peut créer des représentations visuelles des clusters cellulaires et des types qui leur sont associés. Ça nous donne une meilleure vue de la façon dont les annotations correspondent aux clusters.
Évaluer d'autres types cellulaires potentiels
Bien que regarder le type cellulaire le mieux assorti soit courant, c'est aussi une bonne idée de considérer d'autres types cellulaires possibles. C'est particulièrement important lorsqu'un cluster correspond à plusieurs types cellulaires distincts. En examinant les marqueurs d'autres types potentiels, on peut garantir des annotations plus précises et fiables. Pour faciliter ça, on peut examiner des clusters proches dans notre représentation visuelle en même temps.
L'expression des marqueurs pour les types cellulaires potentiels peut être montrée pour les clusters qui sont proches les uns des autres pour une vue plus détaillée.
Comparaison de CellMarker2.0 avec SingleR
Dans notre analyse, on va aussi utiliser le populaire package R SingleR pour labelliser les données. Ça nous permet de voir comment les résultats de CellMarker2.0 se comparent à ceux de SingleR, ce qui nous aide à évaluer la précision et la fiabilité de nos annotations.
Conclusion et discussion
Dans cet article, on a présenté le package easybio R, créé pour aider à simplifier l'annotation des cellules uniques en utilisant la base de données CellMarker2.0. À notre connaissance, easybio est le premier package R à inclure CellMarker2.0 à cette fin.
On a testé le package en l'appliquant au dataset tutoriel Seurat PBMC3K et en comparant les annotations avec celles faites manuellement via Seurat et en utilisant SingleR. Les résultats ont montré que les annotations de CellMarker2.0 étaient en ligne avec celles générées par SingleR et les méthodes manuelles de Seurat. Un des grands avantages d'easybio est qu'il ne dépend pas d'ensembles de données de référence externes, ce qui peut faire gagner du temps et des compétences par rapport aux processus manuels.
Le package easybio n'est pas seulement pour labelliser les cellules uniques avec CellMarker2.0 ; il aide aussi dans diverses analyses comme le séquençage d'ARN en vrac et l'exploration des données, et il permet une intégration avec d'autres bases de données.
Cependant, il est important de reconnaître certaines limitations. Le succès de l'annotation des cellules uniques avec CellMarker2.0 dépend de la manière dont les cellules sont groupées. Des facteurs comme les vérifications de qualité des données, l'analyse en composantes principales (PCA) et le choix des paramètres de résolution peuvent tous influencer les résultats de clustering. Des changements dans ces paramètres peuvent mener à des résultats différents en termes de regroupement cellulaire et, donc, d'annotations. Il est conseillé d'essayer différents paramètres pour mieux comprendre leurs effets.
On a aussi seulement testé le package avec le dataset PBMC3K. Pour avoir une vue complète, ce serait bénéfique d'analyser une gamme plus large de datasets, et des méthodes plus standardisées pourraient être utilisées pour vérifier rigoureusement la précision des résultats.
En résumé, easybio facilite l'annotation des cellules uniques en intégrant la base de données CellMarker2.0, fournissant aux chercheurs un outil plus efficace et reproductible pour leur travail.
Titre: easybio: an R Package for Single-Cell Annotation with CellMarker2.0
Résumé: Single-cell RNA sequencing (scRNA-seq) allows researchers to study biological activities at the cellular level, enabling the discovery of new cell types and the analysis of intercellular interactions. However, annotating cell types in scRNA-seq data is a crucial and time-consuming process, with its quality significantly influencing downstream analyses. Accurate identification of potential cell types provides valuable insights for discovering new cell populations or identifying novel markers for known cells, which may be utilized in future research. While various methods exist for single-cell annotation, one of the most common approaches is to use known cell markers. The CellMarker2.0 database, a human-curated repository of cell markers extracted from published articles, is widely used for this purpose. However, it currently offers only a web-based tool for usage, which can be inconvenient when integrating with workflows like Seurat. To address this limitation, we introduce easybio, an R package designed to streamline single-cell annotation using the CellMarker2.0 database in conjunction with Seurat. easybio provides a suite of functions for querying the CellMarker2.0 database locally, offering insights into potential cell types for each cluster. In addition to single-cell annotation, the package also supports various bioinformatics workflows, including RNA-seq analysis, making it a versatile tool for transcriptomic research.
Auteurs: Cui Wei
Dernière mise à jour: 2024-09-16 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2024.09.14.609619
Source PDF: https://www.biorxiv.org/content/10.1101/2024.09.14.609619.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.