Avançando a Classificação Celular com a Tecnologia MMoCHi
MMoCHi melhora a classificação de células individuais usando dados de RNA e proteína.
― 9 min ler
Índice
Desenvolvimentos recentes no estudo de células individuais melhoraram muito nossa capacidade de entender como diferentes Tipos de Células funcionam e variam dentro de diferentes sistemas biológicos. Um dos principais avanços nessa área é um método chamado sequenciamento de RNA de célula única (scRNA-seq). Essa técnica permite que os cientistas examinem o material genético de células únicas, ajudando a ver os diferentes papéis e características de vários tipos de células.
No entanto, o scRNA-seq não captura todas as características importantes que definem diferentes tipos de células. Para contornar essa limitação, novas tecnologias surgiram que combinam informações sobre RNA e proteínas nas células. Esses desenvolvimentos incluem métodos como CITE-seq, REAP-seq e Ab-seq, todos que possibilitam analisar tanto o conteúdo de RNA quanto de proteínas de células individuais ao mesmo tempo.
Apesar desses avanços, combinar dados desses diferentes métodos para identificar com precisão tipos específicos de células e seus estados em vários estudos continua sendo um desafio em andamento.
A Importância da Classificação de Células
Depois de processar os dados brutos coletados desses experimentos, o primeiro passo na análise das informações é classificar as células individuais. Essa classificação geralmente agrupa as células em grupos que compartilham características semelhantes. A maioria das ferramentas de análise, que incluem métodos usados para identificar diferenças na expressão gênica ou rastrear o desenvolvimento celular ao longo do tempo, depende desse primeiro passo de classificação.
Muitas ferramentas foram criadas para classificar células com base em dados de scRNA-seq. Uma abordagem popular é chamada de agrupamento não supervisionado, que agrupa células com padrões de expressão semelhantes. Esse método foi essencial para entender os diferentes tipos de células presentes e também foi adaptado para uso com dados de CITE-seq. No entanto, comparar o número e os tipos de grupos formados em diferentes estudos pode ser complicado.
Além do agrupamento não supervisionado, também existem métodos de aprendizado de máquina supervisionados que podem ajudar a melhorar a precisão da classificação. Essas técnicas usam dados de referência ou definições conhecidas para diferentes tipos de células para guiar o processo de classificação. Alguns exemplos dessas ferramentas incluem CellTypist, ImmClassifier, HieRFIT e Garnett, que utilizam várias estratégias para identificar tipos celulares.
Limitações dos Métodos Atuais
Embora esses métodos supervisionados tenham suas vantagens, eles muitas vezes dependem de conjuntos de dados de referência que podem não estar sempre disponíveis para todos os tecidos ou condições. Além disso, existem métodos alternativos que não dependem de conjuntos de dados de referência, mas sim utilizam marcadores conhecidos para tipos celulares para facilitar a classificação. Um desses métodos é o Garnett, que usa marcadores definidos pelo usuário para categorizar dados de scRNA-seq.
As ferramentas existentes mostraram eficácia em classificar células com base apenas em características de RNA, mas ainda há uma necessidade de abordagens que possam integrar informações de RNA e proteína para criar anotações celulares mais precisas e abrangentes.
Apresentando o MMoCHi
Em resposta a esses desafios, uma nova abordagem chamada Hierarquia de Classificador Multi-Modal (MMoCHi) foi desenvolvida. Esse método é projetado especificamente para anotar tipos celulares em dados de CITE-seq, combinando características de RNA e proteína para classificação. Essa integração é particularmente importante no estudo do sistema imunológico, que consiste em vários tipos de células que podem ser funcionalmente diversas, mas intimamente relacionadas.
As células imunológicas podem ser agrupadas em diferentes linhagens, com cada linhagem podendo conter múltiplos subtipos, definidos não apenas por seus perfis genéticos, mas também por seus marcadores de superfície-proteínas localizadas na superfície da célula. Esses marcadores de superfície podem influenciar significativamente as funções biológicas das células e podem ser difíceis de identificar com base apenas em dados de sequenciamento genético.
Para avaliar o desempenho do MMoCHi, os pesquisadores realizaram testes usando vários subconjuntos de Células T e demonstraram que o MMoCHi poderia fornecer classificações mais precisas em comparação com métodos existentes, especialmente para subconjuntos com perfis de expressão intimamente relacionados.
Como o MMoCHi Funciona
O algoritmo MMoCHi opera usando uma hierarquia de classificadores de floresta aleatória que foram treinados em dados de expressão gênica e tags derivadas de anticorpos (ADTs). Antes de iniciar a classificação, os dados de expressão de ADTs passam por um processo de correção para garantir que sejam comparáveis entre diferentes lotes. Esse passo é essencial para manter a precisão e relevância na classificação subsequente.
O MMoCHi usa uma hierarquia definida pelo usuário de tipos celulares emparelhados com marcadores específicos para classificar as células. Em cada etapa da hierarquia, células de alta confiança que atendem a certos limites manuais com base em marcadores fornecidos pelo usuário são identificadas. Um classificador de floresta aleatória é então treinado neste grupo para atribuir rótulos a todas as células na hierarquia, incluindo aquelas que podem não ter sido inicialmente classificadas.
Esse método hierárquico permite uma abordagem organizada à classificação, garantindo que tipos celulares intimamente relacionados possam ser distinguidos com precisão.
Avaliação de Desempenho do MMoCHi
Para testar as capacidades do MMoCHi, os pesquisadores separaram e perfilaram vários subconjuntos de células T usando CITE-seq, focando em grupos que são conhecidos por ter padrões de expressão gênica semelhantes. Eles compararam o desempenho do MMoCHi com outras ferramentas, constatando que o MMoCHi teve um alto nível de concordância com os rótulos separados, superando significativamente os métodos de anotação manual.
Esses resultados mostraram que o MMoCHi foi particularmente bom em identificar subconjuntos de células T, como células T ingênuas e células T de memória central, que podem frequentemente parecer semelhantes com base apenas em dados genéticos.
Os pesquisadores também testaram o desempenho do MMoCHi em uma gama mais ampla de condições, incluindo mudanças na qualidade dos dados e no número de amostras de treinamento, para garantir sua robustez e confiabilidade. Ao longo dos testes, o MMoCHi conseguiu manter um alto nível de precisão, mostrando seu potencial como uma ferramenta poderosa para analisar conjuntos de dados celulares complexos.
Análise de Populações Imunes Diversas
O MMoCHi foi aplicado para analisar células imunológicas adquiridas de várias fontes de tecido, dando aos pesquisadores uma visão ampla de vários tipos de células imunológicas em diferentes contextos biológicos. Ao utilizar o MMoCHi, os pesquisadores conseguiram classificar os tipos celulares de forma eficaz, mesmo em meio às complexidades impostas pela amostragem de tecidos diversos.
Por meio dessa análise, os pesquisadores construíram uma visão abrangente da paisagem das células imunológicas, ilustrando o potencial do MMoCHi de integrar dados e fornecer insights mais profundos sobre os papéis de diferentes células imunológicas dentro do corpo.
Adaptabilidade a Outros Conjuntos de Dados
Além de células imunológicas, o MMoCHi tem versatilidade e pode ser aplicado a outros conjuntos de dados multimodais. Por exemplo, os pesquisadores testaram o MMoCHi com dados pareados de transcriptoma e proteoma de superfície de células T e NK selecionadas, mostrando alta concordância com classificações conhecidas.
Além disso, o MMoCHi foi aplicado a dados de scRNA-seq derivados de uma biópsia de glioma de alto grau, onde identificar células malignas pode ser particularmente desafiador. Ao usar características tanto de dados de transcriptoma quanto de expressões cromossômicas, o MMoCHi conseguiu distinguir células tumorais de células não cancerosas, mostrando sua capacidade de trabalhar em vários contextos biológicos.
O MMoCHi foi até adaptado para perfilamento espacial, permitindo a análise de tipos celulares dentro de suas localizações físicas em amostras de tecido. Essa adaptabilidade ilustra o amplo potencial do MMoCHi para melhorar a compreensão da biologia celular em diferentes aplicações.
Conclusão
A evolução das tecnologias multimodais de célula única melhorou dramaticamente nossa capacidade de explorar características e funções celulares. No entanto, as ferramentas disponíveis para classificar e analisar esses conjuntos de dados complexos precisam de contínua refinamento. O MMoCHi representa um avanço significativo nessa área, oferecendo uma abordagem de classificação hierárquica que integra tanto informações de RNA quanto de proteína, sem exigir conjuntos de dados de referência pré-existentes.
Ao abordar as limitações dos métodos de classificação existentes, o MMoCHi tem o potencial de facilitar anotações mais precisas de vários tipos celulares, especialmente em sistemas complexos como o sistema imunológico. Sua capacidade de aprender com dados observados e identificar novos marcadores amplia as possibilidades para futuras pesquisas e aplicações em genômica de célula única.
No geral, o MMoCHi representa um desenvolvimento promissor nos métodos de anotação de tipos celulares, abrindo portas não apenas em imunologia, mas também em pesquisas biológicas mais amplas, aplicações clínicas e no estudo de estruturas teciduais complexas. Sua estrutura adaptável permite que seja usado de forma eficiente em conjuntos de dados diversos e contextos biológicos, destacando sua utilidade no campo em constante expansão da análise de célula única.
Título: Multimodal hierarchical classification of CITE-seq data delineates immune cell states across lineages and tissues
Resumo: Single-cell RNA sequencing (scRNA-seq) is invaluable for profiling cellular heterogeneity and dissecting transcriptional states, but transcriptomic profiles do not always delineate subsets defined by surface proteins, as in cells of the immune system. Cellular Indexing of Transcriptomes and Epitopes (CITE-seq) enables simultaneous profiling of single-cell transcriptomes and surface proteomes; however, accurate cell type annotation requires a classifier that integrates multimodal data. Here, we describe MultiModal Classifier Hierarchy (MMoCHi), a marker-based approach for classification, reconciling gene and protein expression without reliance on reference atlases. We benchmark MMoCHi using sorted T lymphocyte subsets and annotate a cross-tissue human immune cell dataset. MMoCHi outperforms leading transcriptome-based classifiers and multimodal unsupervised clustering in its ability to identify immune cell subsets that are not readily resolved and to reveal novel subset markers. MMoCHi is designed for adaptability and can integrate annotation of cell types and developmental states across diverse lineages, samples, or modalities.
Autores: Peter A Sims, D. P. Caron, W. L. Specht, D. Chen, S. B. Wells, P. A. Szabo, I. J. Jensen, D. L. Farber
Última atualização: 2024-04-08 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2023.07.06.547944
Fonte PDF: https://www.biorxiv.org/content/10.1101/2023.07.06.547944.full.pdf
Licença: https://creativecommons.org/licenses/by-nc/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.