Simple Science

Ciência de ponta explicada de forma simples

# Biologia# Bioinformática

Otimizando a Anotação de Células Únicas com easybio

easybio simplifica o rotulagem de célula única usando o CellMarker2.0 pra análise mais rápida.

― 7 min ler


easybio: Ferramentaeasybio: FerramentaEficiente de AnotaçãoCelularCellMarker2.0.células individuais com oUm novo pacote pra rotulagem rápida de
Índice

Reconhecer diferentes Tipos de Células em dados de célula única é vital pra muitas pesquisas. Tem várias maneiras de rotular essas células. Recentemente, alguns métodos foram verificados quanto à eficácia, incluindo ferramentas chamadas GPT-4, SingleR e CellMarker2.0.

O método SingleR é uma forma de identificar tipos de células, mas precisa de dados de referência, o que pode demorar pra usar. Outro método, o scType, utiliza bancos de dados como PanglaoDB e o banco original CellMarker pra ajudar a rotular as células. Agora, o CellMarker tem uma nova versão, a CellMarker2.0. Essa versão atualizada tem novos Marcadores e foi cuidadosamente verificada quanto às informações sobre tipos de células humanas e de camundongos.

Mesmo que usar a CellMarker2.0 não dê sempre os melhores resultados, ela é útil em vários conjuntos de dados e fornece resultados claros. No entanto, só dá pra acessar através de uma interface online, sem opção de software disponível.

Pra melhorar isso, criamos um pacote R chamado easybio pra ajudar os usuários a acessarem facilmente o banco de dados CellMarker2.0. Essa ferramenta pode ajudar a encontrar marcadores e rotular células únicas de forma mais conveniente.

Como o easybio Funciona

Buscando Marcadores na CellMarker2.0

Uma característica importante do banco de dados CellMarker2.0 é a capacidade de buscar marcadores com base nos genes que são mais expressos em cada grupo de células. Isso ajuda a descobrir que tipo de célula pode estar em cada grupo. O pacote easybio também permite que os usuários encontrem marcadores e aprendam sobre quais tecidos eles vêm, como notado em estudos anteriores. Os usuários também podem obter marcadores de tipos celulares específicos diretamente.

Por exemplo, ao usar o pacote easybio pra procurar o marcador CD68, ele mostra como esse marcador é encontrado em diferentes tecidos e tipos celulares.

Anotando Grupos de Células com CellMarker2.0

Rotular grupos de células é uma parte essencial da análise de sequenciamento de RNA de célula única. Esse processo atribui identidades biológicas a grupos de células. Geralmente, envolve comparar os genes que são expressos em cada grupo e encontrar os genes mais proeminentes em cada grupo. Esses genes proeminentes atuam como marcadores pra identificar os potenciais tipos de células em cada grupo.

O banco de dados CellMarker2.0 é um ótimo recurso pra essa tarefa porque contém uma lista cuidadosamente coletada de marcadores de tipos celulares de estudos anteriores. A ferramenta online permite que os pesquisadores busquem marcadores colando listas de genes, mas isso pode demorar e requer que um grupo seja correspondido por vez. Esse método manual pode atrasar a análise.

Pra resolver esse problema, o pacote easybio automatiza a correspondência dos principais genes de cada grupo com potenciais tipos de células usando o banco de dados CellMarker2.0. Isso acelera o processo de rotulagem e diminui as chances de cometer erros manualmente. Os usuários também podem decidir quantos dos principais genes usar pra correspondência, o que ajuda a ajustar o processo de rotulagem. Isso é útil pra equilibrar a especificidade e a sensibilidade dos marcadores.

Embora possa ser tentador pegar o tipo celular mais bem correspondido como o único rótulo pra cada grupo, os usuários são incentivados a considerar outros tipos celulares correspondidos também. Quando mais de um tipo de célula corresponde a um único grupo, é importante pensar sobre o contexto biológico e outras condições experimentais. Explorar essas diferentes correspondências pode ajudar a encontrar tipos celulares raros ou novos e garantir que a rotulagem seja completa e precisa. Ao aproveitar ao máximo a CellMarker2.0, os usuários podem melhorar sua análise de célula única e obter uma melhor percepção da diversidade celular.

Exemplo de Fluxo de Trabalho

Podemos ilustrar como usar o pacote easybio com um exemplo de fluxo de trabalho. Vamos usar o conjunto de dados PBMC3K e o pacote R Seurat.

Execute o Tutorial Guiado Seurat PBMC3K

Começamos executando o tutorial guiado Seurat PBMC3K pra ter uma visão geral dos grupos brutos, não anotados.

Correspondendo com CellMarker2.0

No próximo passo, olhamos para os 50 genes mais expressos em cada grupo celular. Incluímos apenas genes que são estatisticamente significativos e usamos esses pra buscar no banco de dados CellMarker2.0 marcadores correspondentes. Isso nos ajuda a alinhar perfis de expressão gênica com marcadores conhecidos pra rotular os tipos de células.

Verificamos quantos marcadores correspondem a cada grupo no banco de dados CellMarker2.0. Uma coluna mostra o número total de marcadores correspondentes, enquanto outra coluna mostra o número de marcadores únicos. Também mantemos o controle de quantas vezes cada marcador aparece.

Visualizando Grupos de Células e Seus Tipos

Podemos criar representações visuais dos grupos celulares e dos tipos correspondentes a eles. Isso nos dá uma visão mais clara de como as anotações se encaixam nos grupos.

Avaliando Tipos Celulares Potenciais Adicionais

Enquanto olhar pro tipo celular mais bem correspondido é comum, é uma boa ideia também considerar outros tipos celulares possíveis. Isso é especialmente importante quando um grupo corresponde a múltiplos tipos celulares distintos. Ao revisar os marcadores de outros tipos potenciais, podemos garantir anotações mais precisas e confiáveis. Pra facilitar, podemos examinar grupos que estão próximos uns dos outros na nossa representação visual ao mesmo tempo.

A expressão de marcadores pra tipos celulares potenciais pode ser mostrada pra grupos que estão próximos uns dos outros pra uma visão mais detalhada.

Comparando CellMarker2.0 com SingleR

Na nossa análise, também usaremos o popular pacote R SingleR pra rotular os dados. Isso nos permite ver como os resultados da CellMarker2.0 se comparam com os do SingleR, ajudando a avaliar a precisão e confiabilidade das nossas anotações.

Conclusão e Discussão

Neste artigo, apresentamos o pacote easybio R, criado pra ajudar a agilizar a anotação de células únicas usando o banco de dados CellMarker2.0. Até onde sabemos, o easybio é o primeiro pacote R a incluir a CellMarker2.0 pra esse propósito.

Testamos o pacote aplicando-o ao conjunto de dados do tutorial Seurat PBMC3K e comparando as anotações com aquelas feitas manualmente através do Seurat e usando o SingleR. Os resultados mostraram que as anotações da CellMarker2.0 estavam alinhadas com aquelas geradas pelo SingleR e pelos métodos manuais do Seurat. Uma grande vantagem do easybio é que ele não depende de conjuntos de dados de referência externos, o que pode economizar tempo e expertise em comparação com os processos manuais.

O pacote easybio não é apenas pra rotular células únicas com CellMarker2.0; ele também ajuda em várias análises, incluindo sequenciamento de RNA em massa e exploração de dados, além de permitir integração com outros bancos de dados.

No entanto, é importante reconhecer algumas limitações. O sucesso de rotular células únicas com CellMarker2.0 depende de quão bem as células estão agrupadas. Fatores como checagens de qualidade de dados, análise de componentes principais (PCA) e escolha das configurações de resolução podem influenciar os resultados de agrupamento. Mudanças nessas configurações podem levar a diferentes resultados em agrupamento celular e, portanto, nos resultados de rotulagem. É aconselhável tentar diferentes configurações pra entender melhor seus efeitos.

Também testamos o pacote apenas com o conjunto de dados PBMC3K. Pra ter uma visão mais completa, seria benéfico analisar uma gama mais ampla de conjuntos de dados, e métodos mais padronizados poderiam ser usados pra verificar rigorosamente a precisão dos resultados.

Em resumo, o easybio facilita a anotação de células únicas integrando o banco de dados CellMarker2.0, proporcionando aos pesquisadores uma ferramenta mais eficiente e reproduzível pra seu trabalho.

Fonte original

Título: easybio: an R Package for Single-Cell Annotation with CellMarker2.0

Resumo: Single-cell RNA sequencing (scRNA-seq) allows researchers to study biological activities at the cellular level, enabling the discovery of new cell types and the analysis of intercellular interactions. However, annotating cell types in scRNA-seq data is a crucial and time-consuming process, with its quality significantly influencing downstream analyses. Accurate identification of potential cell types provides valuable insights for discovering new cell populations or identifying novel markers for known cells, which may be utilized in future research. While various methods exist for single-cell annotation, one of the most common approaches is to use known cell markers. The CellMarker2.0 database, a human-curated repository of cell markers extracted from published articles, is widely used for this purpose. However, it currently offers only a web-based tool for usage, which can be inconvenient when integrating with workflows like Seurat. To address this limitation, we introduce easybio, an R package designed to streamline single-cell annotation using the CellMarker2.0 database in conjunction with Seurat. easybio provides a suite of functions for querying the CellMarker2.0 database locally, offering insights into potential cell types for each cluster. In addition to single-cell annotation, the package also supports various bioinformatics workflows, including RNA-seq analysis, making it a versatile tool for transcriptomic research.

Autores: Cui Wei

Última atualização: 2024-09-16 00:00:00

Idioma: English

Fonte URL: https://www.biorxiv.org/content/10.1101/2024.09.14.609619

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.09.14.609619.full.pdf

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes