Simple Science

La science de pointe expliquée simplement

# Biologie# Génomique

Avancer la classification des cellules avec la technologie MMoCHi

MMoCHi améliore la classification des cellules individuelles en utilisant des données d'ARN et de protéines.

― 9 min lire


MMoCHi améliore laMMoCHi améliore laclassification descellulesune meilleure analyse des cellules.données de l'ARN et des protéines pourUne nouvelle technologie intègre les
Table des matières

Les développements récents dans l'étude des cellules individuelles ont vraiment boosté notre capacité à comprendre comment différents Types de cellules fonctionnent et varient dans différents systèmes biologiques. L'une des avancées clés dans ce domaine est une méthode appelée séquençage ARN à cellule unique (scRNA-seq). Cette technique permet aux scientifiques d'examiner le matériel génétique de cellules uniques, ce qui nous aide à voir les différents rôles et caractéristiques de divers types de cellules.

Cependant, le scRNA-seq ne capture pas toutes les caractéristiques importantes qui définissent les différents types de cellules. Pour contourner cette limitation, de nouvelles technologies ont émergé, combinant des infos sur l'ARN et les protéines dans les cellules. Ces développements incluent des méthodes comme CITE-seq, REAP-seq et Ab-seq, qui rendent possible l'analyse du contenu ARN et protéine des cellules individuelles en même temps.

Malgré ces avancées, combiner les données de ces différentes méthodes pour identifier précisément les types cellulaires et leurs états à travers diverses études reste un défi.

L'Importance de la Classification Cellulaire

Après avoir traité les données brutes récoltées lors de ces expériences, la première étape pour analyser l'info est de classifier les cellules individuelles. Cette classification trie généralement les cellules en groupes partageant des caractéristiques similaires. La plupart des outils d'analyse, qui incluent des méthodes pour identifier les différences d'expression génique ou suivre le développement cellulaire dans le temps, dépendent de cette première étape de classification.

Il y a plein d'outils créés pour classifier les cellules sur la base des données scRNA-seq. Une approche populaire s'appelle le clustering non supervisé, qui regroupe les cellules avec des motifs d'expression similaires. Cette méthode a été essentielle pour comprendre les différents types de cellules présents et a aussi été adaptée pour une utilisation avec les données CITE-seq. Cependant, comparer le nombre et les types de groupes formés à travers différentes études peut être délicat.

En plus du clustering non supervisé, il y a aussi des méthodes d'apprentissage automatique supervisé qui peuvent aider à améliorer la précision de la classification. Ces techniques utilisent des données de référence ou des définitions connues pour différents types de cellules pour guider le processus de classification. Quelques exemples de ces outils incluent CellTypist, ImmClassifier, HieRFIT et Garnett, qui utilisent différentes stratégies pour identifier les types cellulaires.

Limitations des Méthodes Actuelles

Bien que ces méthodes supervisées aient leurs avantages, elles reposent souvent sur des jeux de données de référence qui peuvent ne pas toujours être disponibles pour tous les tissus ou conditions. De plus, il existe d'autres méthodes qui ne dépendent pas de jeux de données de référence, mais utilisent plutôt des marqueurs connus pour les types cellulaires afin de faciliter la classification. Une de ces méthodes est Garnett, qui utilise des marqueurs définis par l'utilisateur pour catégoriser les données scRNA-seq.

Les outils existants ont prouvé leur efficacité pour classifier les cellules sur la base des seules caractéristiques ARN, mais il y a encore un besoin d'approches qui peuvent intégrer à la fois les infos ARN et protéine pour créer des annotations cellulaires plus précises et complètes.

Présentation de MMoCHi

En réponse à ces défis, une nouvelle approche appelée Multi-Modal Classifier Hierarchy (MMoCHi) a été développée. Cette méthode est spécifiquement conçue pour annoter les types cellulaires dans les données CITE-seq en combinant à la fois les caractéristiques ARN et protéines pour la classification. Cette intégration est particulièrement importante dans l'étude du système immunitaire, qui se compose de divers types de cellules pouvant être fonctionnellement divers mais étroitement liés.

Les cellules immunitaires peuvent être regroupées en différentes lignées, chacune contenant éventuellement plusieurs sous-types, définis non seulement par leurs profils génétiques mais aussi par leurs marqueurs de surface-protéines situées sur la surface de la cellule. Ces marqueurs de surface peuvent influencer de manière significative les fonctions biologiques des cellules et peuvent parfois être difficiles à identifier uniquement à partir des données de séquençage génétique.

Pour évaluer les performances de MMoCHi, les chercheurs ont effectué des tests en utilisant différents sous-ensembles de Cellules T et ont montré que MMoCHi pouvait fournir des Classifications plus précises par rapport aux méthodes existantes, en particulier pour les sous-ensembles avec des profils d'expression étroitement liés.

Comment MMoCHi Fonctionne

L'algorithme MMoCHi fonctionne en utilisant une hiérarchie de classifieurs de forêt aléatoire qui ont été entraînés sur des données d'expression génique et des étiquettes dérivées d'anticorps (ADT). Avant que la classification ne commence, les données d'expression des ADT subissent un processus de correction pour s'assurer qu'elles sont comparables à travers différents lots. Cette étape est essentielle pour maintenir la précision et la pertinence dans la classification subséquente.

MMoCHi utilise une hiérarchie de types cellulaires définie par l'utilisateur couplée à des marqueurs spécifiques pour classifier les cellules. À chaque étape de la hiérarchie, des cellules à haute confiance qui répondent à certains seuils manuels basés sur les marqueurs fournis par l'utilisateur sont identifiées. Un classificateur de forêt aléatoire est ensuite entraîné sur ce groupe pour attribuer des étiquettes à toutes les cellules dans la hiérarchie, y compris celles qui n'ont pas été initialement classées.

Cette méthode hiérarchique permet une approche organisée de la classification, garantissant que les types cellulaires étroitement liés peuvent être distingués avec précision les uns des autres.

Évaluation de la Performance de MMoCHi

Pour tester les capacités de MMoCHi, les chercheurs ont trié et profilé divers sous-ensembles de cellules T en utilisant CITE-seq, en se concentrant sur des groupes connus pour avoir des motifs d'expression génique similaires. Ils ont comparé les performances de MMoCHi à d'autres outils, découvrant que MMoCHi avait un haut niveau d'accord avec les étiquettes triées, surpassant significativement les méthodes d'annotation manuelle.

Ces résultats ont montré que MMoCHi était particulièrement bon pour identifier des sous-ensembles de cellules T comme les cellules T naïves et les cellules T mémoire centrales, qui peuvent souvent sembler similaires sur la base des seules données génétiques.

Les chercheurs ont également testé les performances de MMoCHi dans une gamme plus large de conditions, y compris les changements de qualité des données et le nombre d'échantillons d'entraînement, pour assurer sa robustesse et fiabilité. Tout au long des tests, MMoCHi a réussi à maintenir un haut niveau de précision, montrant son potentiel en tant qu'outil puissant pour analyser des ensembles de données cellulaires complexes.

Analyse de Populations de Cellules Immunitaires Diverses

MMoCHi a été appliqué pour analyser des cellules immunitaires acquises de plusieurs sources tissulaires, donnant aux chercheurs une vue d'ensemble des différents types de cellules immunitaires dans divers contextes biologiques. En utilisant MMoCHi, les chercheurs ont pu classifier les types cellulaires efficacement, même au milieu des complexités posées par l'échantillonnage de tissus divers.

Grâce à cette analyse, les chercheurs ont construit une vue complète du paysage cellulaire immunitaire, illustrant le potentiel de MMoCHi à intégrer des données et fournir des insights plus profonds sur les rôles des différentes cellules immunitaires dans le corps.

Adaptabilité à D'autres Ensembles de Données

Au-delà des cellules immunitaires, MMoCHi possède une polyvalence et peut être appliqué à d'autres ensembles de données multimodaux. Par exemple, les chercheurs ont testé MMoCHi sur des données de transcriptome et de protéome de surface appariées provenant de cellules T et NK triées, montrant un haut degré d'accord avec les classifications connues.

De plus, MMoCHi a été appliqué à des données scRNA-seq dérivées d'une biopsie de gliome de haut grade, où identifier les cellules malignes peut être particulièrement difficile. En utilisant des caractéristiques à partir des données de transcriptome et des expressions chromosomiques, MMoCHi a réussi à distinguer les cellules tumorales des cellules non cancéreuses, montrant sa capacité à fonctionner à travers divers contextes biologiques.

MMoCHi a même été adapté pour le profilage spatial, permettant l'examen des types cellulaires dans leurs emplacements physiques dans des échantillons de tissus. Cette adaptabilité illustre le large potentiel de MMoCHi pour améliorer la compréhension de la biologie cellulaire à travers différentes applications.

Conclusion

L'évolution des technologies de cellules uniques multimodales a considérablement amélioré notre capacité à explorer les caractéristiques et fonctions cellulaires. Cependant, les outils disponibles pour classifier et analyser ces ensembles de données complexes ont besoin d'un raffinement continu. MMoCHi représente une avancée significative dans ce domaine, offrant une approche de classification hiérarchique qui intègre à la fois les infos ARN et protéine sans nécessiter de jeux de données de référence préexistants.

En répondant aux limitations des méthodes de classification existantes, MMoCHi a le potentiel de faciliter des annotations plus précises de divers types cellulaires, surtout dans des systèmes complexes comme le système immunitaire. Sa capacité à apprendre à partir des données observées et à identifier de nouveaux marqueurs augmente les possibilités pour la recherche future et les applications en génomique à cellule unique.

Dans l'ensemble, MMoCHi représente un développement prometteur dans les méthodes d'annotation des types cellulaires, ouvrant des portes non seulement en immunologie mais aussi dans la recherche biologique plus large, les applications cliniques et l'étude des structures tissulaires complexes. Son cadre adaptable lui permet d'être utilisé efficacement à travers divers ensembles de données et contextes biologiques, mettant en lumière son utilité dans le domaine en pleine expansion de l'analyse des cellules uniques.

Source originale

Titre: Multimodal hierarchical classification of CITE-seq data delineates immune cell states across lineages and tissues

Résumé: Single-cell RNA sequencing (scRNA-seq) is invaluable for profiling cellular heterogeneity and dissecting transcriptional states, but transcriptomic profiles do not always delineate subsets defined by surface proteins, as in cells of the immune system. Cellular Indexing of Transcriptomes and Epitopes (CITE-seq) enables simultaneous profiling of single-cell transcriptomes and surface proteomes; however, accurate cell type annotation requires a classifier that integrates multimodal data. Here, we describe MultiModal Classifier Hierarchy (MMoCHi), a marker-based approach for classification, reconciling gene and protein expression without reliance on reference atlases. We benchmark MMoCHi using sorted T lymphocyte subsets and annotate a cross-tissue human immune cell dataset. MMoCHi outperforms leading transcriptome-based classifiers and multimodal unsupervised clustering in its ability to identify immune cell subsets that are not readily resolved and to reveal novel subset markers. MMoCHi is designed for adaptability and can integrate annotation of cell types and developmental states across diverse lineages, samples, or modalities.

Auteurs: Peter A Sims, D. P. Caron, W. L. Specht, D. Chen, S. B. Wells, P. A. Szabo, I. J. Jensen, D. L. Farber

Dernière mise à jour: 2024-04-08 00:00:00

Langue: English

Source URL: https://www.biorxiv.org/content/10.1101/2023.07.06.547944

Source PDF: https://www.biorxiv.org/content/10.1101/2023.07.06.547944.full.pdf

Licence: https://creativecommons.org/licenses/by-nc/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires