Fortschrittliche Zellklassifizierung mit MMoCHi-Technologie
MMoCHi verbessert die Klassifizierung von einzelnen Zellen mithilfe von RNA- und Proteindaten.
― 7 min Lesedauer
Inhaltsverzeichnis
Jüngste Entwicklungen in der Untersuchung von Einzelzellen haben unsere Fähigkeit, zu verstehen, wie verschiedene Zelltypen in unterschiedlichen biologischen Systemen arbeiten und variieren, erheblich verbessert. Ein wichtiger Fortschritt in diesem Bereich ist eine Methode namens Einzelzell-RNA-Sequenzierung (scRNA-seq). Diese Technik ermöglicht es Wissenschaftlern, das genetische Material einzelner Zellen zu untersuchen und so die verschiedenen Rollen und Eigenschaften der verschiedenen Zelltypen zu erkennen.
Allerdings erfasst scRNA-seq nicht alle wichtigen Merkmale, die verschiedene Zelltypen definieren. Um dieses Limit zu umgehen, sind neue Technologien entstanden, die Informationen über RNA und Proteine in Zellen kombinieren. Zu den Entwicklungen gehören Methoden wie CITE-seq, REAP-seq und Ab-seq, die es ermöglichen, sowohl den RNA- als auch den Proteingehalt einzelner Zellen gleichzeitig zu analysieren.
Trotz dieser Fortschritte bleibt es eine Herausforderung, Daten aus diesen verschiedenen Methoden zu kombinieren, um spezifische Zelltypen und deren Zustände in verschiedenen Studien genau zu identifizieren.
Die Bedeutung der Zellklassifikation
Nach der Verarbeitung der Rohdaten aus diesen Experimenten ist der erste Schritt bei der Analyse der Informationen die Klassifikation der einzelnen Zellen. Diese Klassifikation sortiert Zellen normalerweise in Gruppen, die ähnliche Eigenschaften teilen. Die meisten Analysetools, die Methoden zur Identifizierung von Unterschieden in der Genexpression oder zur Verfolgung der Zellentwicklung über die Zeit umfassen, basieren auf diesem ersten Schritt der Klassifikation.
Es wurden viele Tools entwickelt, um Zellen basierend auf scRNA-seq-Daten zu klassifizieren. Ein beliebter Ansatz ist das unüberwachte Clustering, das Zellen mit ähnlichen Expressionsmustern zusammenfasst. Diese Methode war entscheidend, um die verschiedenen Zelltypen zu verstehen, und wurde auch für die Verwendung mit CITE-seq-Daten angepasst. Allerdings kann es knifflig sein, die Anzahl und die Arten der gebildeten Gruppen über verschiedene Studien hinweg zu vergleichen.
Zusätzlich zum unüberwachten Clustering gibt es auch überwachte Machine-Learning-Methoden, die die Klassifikationsgenauigkeit verbessern können. Diese Techniken verwenden Referenzdaten oder bekannte Definitionen für verschiedene Zelltypen, um den Klassifikationsprozess zu leiten. Beispiele für diese Tools sind CellTypist, ImmClassifier, HieRFIT und Garnett, die verschiedene Strategien zur Identifizierung von Zelltypen nutzen.
Einschränkungen der aktuellen Methoden
Während diese überwachten Methoden ihre Vorteile haben, basieren sie oft auf Referenzdatensätzen, die nicht immer für alle Gewebe oder Bedingungen verfügbar sind. Ausserdem gibt es alternative Methoden, die nicht von Referenzdatensätzen abhängen, sondern bekannte Marker für Zelltypen verwenden, um die Klassifikation zu erleichtern. Eine solche Methode ist Garnett, die benutzerdefinierte Marker verwendet, um scRNA-seq-Daten zu kategorisieren.
Die bestehenden Tools haben sich als effektiv erwiesen, um Zellen nur auf Basis von RNA-Merkmalen zu klassifizieren, aber es gibt weiterhin Bedarf für Ansätze, die sowohl RNA- als auch Proteininformationen integrieren, um genauere und umfassendere Zellannotationen zu erstellen.
Einführung von MMoCHi
Als Reaktion auf diese Herausforderungen wurde ein neuer Ansatz namens Multi-Modal Classifier Hierarchy (MMoCHi) entwickelt. Diese Methode ist speziell dafür ausgelegt, Zelltypen in CITE-seq-Daten zu annotieren, indem sie RNA- und Proteinmerkmale für die Klassifikation kombiniert. Diese Integration ist besonders wichtig in der Untersuchung des Immunsystems, das aus verschiedenen Zelltypen besteht, die funktional unterschiedlich und doch eng verwandt sein können.
Immunzellen können in verschiedene Linien gruppiert werden, wobei jede Linie möglicherweise mehrere Subtypen enthält, die nicht nur durch ihre genetischen Profile, sondern auch durch ihre Oberflächenmarker – Proteine, die sich auf der Zelloberfläche befinden – definiert sind. Diese Oberflächenmarker können die biologischen Funktionen der Zellen erheblich beeinflussen und können manchmal schwer zu identifizieren sein, wenn man sich nur auf genetische Sequenzierungsdaten stützt.
Um die Leistung von MMoCHi zu bewerten, führten die Forscher Tests mit verschiedenen T-Zell-Subtypen durch und zeigten, dass MMoCHi genauere Klassifikationen im Vergleich zu bestehenden Methoden liefern konnte, insbesondere für Subtypen mit eng verwandten Expressionsprofilen.
So funktioniert MMoCHi
Der MMoCHi-Algorithmus arbeitet mit einer Hierarchie von Random-Forest-Klassifikatoren, die sowohl auf Genexpressionsdaten als auch auf von Antikörpern abgeleiteten Marken (ADTs) trainiert wurden. Bevor die Klassifikation beginnt, durchläuft die ADT-Expressionsdaten einen Korrekturprozess, um sicherzustellen, dass sie über verschiedene Chargen hinweg vergleichbar sind. Dieser Schritt ist entscheidend, um Genauigkeit und Relevanz in der anschliessenden Klassifikation zu gewährleisten.
MMoCHi verwendet eine benutzerdefinierte Hierarchie von Zelltypen, die mit spezifischen Markern gekoppelt ist, um die Zellen zu klassifizieren. In jedem Schritt der Hierarchie werden hochkonfidente Zellen identifiziert, die bestimmte manuelle Schwellenwerte basierend auf vom Benutzer bereitgestellten Markern erfüllen. Ein Random-Forest-Klassifikator wird dann auf dieser Gruppe trainiert, um allen Zellen in der Hierarchie Labels zuzuweisen, einschliesslich derjenigen, die vielleicht nicht ursprünglich klassifiziert wurden.
Diese hierarchische Methode ermöglicht einen organisierten Ansatz zur Klassifikation und stellt sicher, dass eng verwandte Zelltypen genau voneinander unterschieden werden können.
Leistungsbewertung von MMoCHi
Um die Fähigkeiten von MMoCHi zu testen, sortierten und profilierten die Forscher verschiedene T-Zell-Subtypen mithilfe von CITE-seq und konzentrierten sich auf Gruppen, die bekannt dafür sind, ähnliche Muster in der Genexpression zu haben. Sie verglichen die Leistung von MMoCHi mit anderen Tools und fanden heraus, dass MMoCHi ein hohes Mass an Übereinstimmung mit den sortierten Labels aufwies und manuelle Annotierungsverfahren deutlich übertraf.
Diese Ergebnisse zeigten, dass MMoCHi besonders gut darin war, T-Zell-Subtypen wie naive T-Zellen und zentrale Gedächtnis-T-Zellen zu identifizieren, die basierend auf genetischen Daten oft ähnlich erscheinen können.
Die Forscher testeten auch die Leistung von MMoCHi über eine breitere Palette von Bedingungen hinweg, einschliesslich Änderungen in der Datenqualität und der Anzahl der Trainingsproben, um seine Robustheit und Zuverlässigkeit zu gewährleisten. Während der Tests konnte MMoCHi ein hohes Mass an Genauigkeit aufrechterhalten, was sein Potenzial als leistungsstarkes Werkzeug zur Analyse komplexer Zell-Datensätze zeigt.
Analyse vielfältiger Immunzellpopulationen
MMoCHi wurde angewendet, um Immunzellen zu analysieren, die aus mehreren Gewebetypen gewonnen wurden, wodurch die Forscher einen breiten Überblick über verschiedene Immunzelltypen in unterschiedlichen biologischen Kontexten erhielten. Durch die Nutzung von MMoCHi konnten die Forscher Zelltypen effektiv klassifizieren, selbst angesichts der Komplexitäten, die durch das Sampling aus unterschiedlichen Geweben entstehen.
Durch diese Analyse schufen die Forscher ein umfassendes Bild der Immunzelllandschaft und zeigten das Potenzial von MMoCHi auf, Daten zu integrieren und tiefere Einblicke in die Rollen unterschiedlicher Immunzellen im Körper zu bieten.
Anpassungsfähigkeit an andere Datensätze
Neben Immunzellen hat MMoCHi Vielseitigkeit und kann auf andere multimodale Datensätze angewendet werden. Zum Beispiel testeten die Forscher MMoCHi an gepaarten Transkriptom- und Oberflächenproteomdaten von sortierten T- und NK-Zellen und zeigten eine hohe Übereinstimmung mit bekannten Klassifikationen.
Darüber hinaus wurde MMoCHi auf scRNA-seq-Daten angewendet, die aus einer Biopsie eines hochgradigen Glioms stammten, wobei die Identifizierung von malignen Zellen besonders herausfordernd sein kann. Durch die Verwendung von Merkmalen aus sowohl Transkriptomdaten als auch chromosomalen Ausdrücken konnte MMoCHi Tumorzellen von nicht-krebsartigen Zellen erfolgreich unterscheiden und zeigte seine Fähigkeit, in verschiedenen biologischen Kontexten zu arbeiten.
MMoCHi wurde sogar für die räumliche Profilierung angepasst, was die Untersuchung von Zelltypen innerhalb ihrer physischen Standorte in Gewebeproben ermöglicht. Diese Anpassungsfähigkeit zeigt das breite Potenzial von MMoCHi zur Verbesserung des Verständnisses der Zellbiologie in verschiedenen Anwendungen.
Fazit
Die Entwicklung multimodaler Einzelzelltechnologien hat unsere Fähigkeit, zelluläre Eigenschaften und Funktionen zu erkunden, dramatisch verbessert. Allerdings benötigen die verfügbaren Tools zur Klassifikation und Analyse dieser komplexen Datensätze kontinuierliche Verfeinerung. MMoCHi stellt einen bedeutenden Fortschritt in diesem Bereich dar und bietet einen hierarchischen Klassifikationsansatz, der sowohl RNA- als auch Proteininformationen integriert, ohne auf vorhandene Referenzdatensätze angewiesen zu sein.
Durch die Behebung der Einschränkungen bestehender Klassifikationsmethoden hat MMoCHi das Potenzial, genauere Annotationen verschiedener Zelltypen zu erleichtern, insbesondere in komplexen Systemen wie dem Immunsystem. Seine Fähigkeit, aus beobachteten Daten zu lernen und neue Marker zu identifizieren, erweitert die Möglichkeiten für zukünftige Forschung und Anwendungen in der Einzelzell-Genomik.
Insgesamt stellt MMoCHi eine vielversprechende Entwicklung bei Methoden zur Zelltypannotation dar, die Türen nicht nur in der Immunologie, sondern auch in der breiteren biologischen Forschung, klinischen Anwendungen und der Untersuchung komplexer Gewebestrukturen öffnet. Sein anpassungsfähiges Framework ermöglicht eine effiziente Nutzung über diverse Datensätze und biologische Kontexte hinweg und hebt seinen Nutzen im sich ständig erweiternden Bereich der Einzelzellanalyse hervor.
Titel: Multimodal hierarchical classification of CITE-seq data delineates immune cell states across lineages and tissues
Zusammenfassung: Single-cell RNA sequencing (scRNA-seq) is invaluable for profiling cellular heterogeneity and dissecting transcriptional states, but transcriptomic profiles do not always delineate subsets defined by surface proteins, as in cells of the immune system. Cellular Indexing of Transcriptomes and Epitopes (CITE-seq) enables simultaneous profiling of single-cell transcriptomes and surface proteomes; however, accurate cell type annotation requires a classifier that integrates multimodal data. Here, we describe MultiModal Classifier Hierarchy (MMoCHi), a marker-based approach for classification, reconciling gene and protein expression without reliance on reference atlases. We benchmark MMoCHi using sorted T lymphocyte subsets and annotate a cross-tissue human immune cell dataset. MMoCHi outperforms leading transcriptome-based classifiers and multimodal unsupervised clustering in its ability to identify immune cell subsets that are not readily resolved and to reveal novel subset markers. MMoCHi is designed for adaptability and can integrate annotation of cell types and developmental states across diverse lineages, samples, or modalities.
Autoren: Peter A Sims, D. P. Caron, W. L. Specht, D. Chen, S. B. Wells, P. A. Szabo, I. J. Jensen, D. L. Farber
Letzte Aktualisierung: 2024-04-08 00:00:00
Sprache: English
Quell-URL: https://www.biorxiv.org/content/10.1101/2023.07.06.547944
Quell-PDF: https://www.biorxiv.org/content/10.1101/2023.07.06.547944.full.pdf
Lizenz: https://creativecommons.org/licenses/by-nc/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an biorxiv für die Nutzung seiner Open-Access-Interoperabilität.