Simplificando la anotación de células individuales con easybio
easybio simplifica el etiquetado de células individuales usando CellMarker2.0 para un análisis más rápido.
― 8 minilectura
Tabla de contenidos
- Cómo funciona easybio
- Búsqueda de marcadores en CellMarker2.0
- Anotando clústeres de células con CellMarker2.0
- Ejemplo de flujo de trabajo
- Ejecutar el tutorial guiado de Seurat PBMC3K
- Emparejamiento con CellMarker2.0
- Visualizando clústeres de células y sus tipos
- Evaluar tipos de células potenciales adicionales
- Comparar CellMarker2.0 con SingleR
- Conclusión y discusión
- Fuente original
Reconocer diferentes Tipos de Células en datos de celda única es super importante para muchos estudios. Hay varias formas de etiquetar estas células. Recientemente, se han revisado algunos métodos para ver qué tan bien funcionan, incluyendo herramientas como GPT-4, SingleR, y CellMarker2.0.
El método SingleR es una forma de identificar tipos de células, pero necesita datos de referencia, lo que puede tardar un buen rato. Otro método, scType, utiliza bases de datos como PanglaoDB y la base de datos original de CellMarker para ayudar a etiquetar células. Ahora, CellMarker tiene una nueva versión, CellMarker2.0. Esta versión actualizada cuenta con nuevos Marcadores y se ha revisado cuidadosamente para su información sobre tipos de células humanas y de ratón.
Aunque usar CellMarker2.0 no siempre da los mejores resultados, es útil en varios conjuntos de datos y proporciona resultados claros. Sin embargo, solo se puede acceder a través de una interfaz en línea, no hay opción de software disponible.
Para mejorar esto, creamos un paquete de R llamado easybio para ayudar a los usuarios a acceder fácilmente a la base de datos de CellMarker2.0. Esta herramienta puede ayudar a encontrar marcadores y etiquetar células individuales de manera más cómoda.
Cómo funciona easybio
Búsqueda de marcadores en CellMarker2.0
Una característica importante de la base de datos CellMarker2.0 es su capacidad para buscar marcadores en función de los genes que se expresan más en cada grupo de células. Esto ayuda a determinar qué tipo de célula podría estar en cada grupo. El paquete easybio también permite a los usuarios encontrar marcadores y aprender sobre de qué tejidos provienen, como se mencionó en estudios anteriores. Los usuarios también pueden obtener marcadores para tipos de células específicos directamente.
Por ejemplo, al usar el paquete easybio para buscar el marcador CD68, muestra cómo se encuentra este marcador en diferentes tejidos y tipos de células.
Anotando clústeres de células con CellMarker2.0
Etiquetar clústeres de células es una parte esencial del análisis de secuenciación de ARN de célula única. Este proceso asigna identidades biológicas a grupos de células. Generalmente, implica comparar los genes que se expresan en cada clúster y encontrar los genes más prominentes en cada grupo. Estos genes prominentes actúan como marcadores para identificar los tipos de células potenciales en cada clúster.
La base de datos CellMarker2.0 es un recurso excelente para esta tarea porque contiene una lista cuidadosamente recopilada de marcadores de tipos de células de estudios previos. La herramienta en línea permite a los investigadores buscar marcadores pegando listas de genes, pero esto puede llevar demasiado tiempo y requiere emparejar un clúster a la vez. Este método manual puede retardar el análisis.
Para solucionar este problema, el paquete easybio automatiza el emparejamiento de los genes principales de cada clúster con tipos de células potenciales usando la base de datos CellMarker2.0. Esto acelera el proceso de etiquetado y reduce las posibilidades de cometer errores manualmente. Los usuarios también pueden decidir cuántos genes principales usar para el emparejamiento, lo que ayuda a afinar el proceso de etiquetado. Esto es útil para equilibrar la especificidad y sensibilidad de los marcadores.
Aunque puede ser tentador tomar el tipo de célula mejor emparejado como la única etiqueta para cada clúster, se anima a los usuarios a investigar otros tipos de células emparejados también. Cuando más de un tipo de célula coincide con un solo clúster, es importante considerar el contexto biológico y otras condiciones experimentales. Explorar estos diferentes emparejamientos puede ayudar a encontrar tipos de células raras o nuevas y asegurar que el etiquetado sea completo y preciso. Al aprovechar al máximo CellMarker2.0, los usuarios pueden mejorar su análisis de célula única y obtener mejores perspectivas sobre la diversidad celular.
Ejemplo de flujo de trabajo
Podemos ilustrar cómo usar el paquete easybio con un ejemplo de flujo de trabajo. Usaremos el conjunto de datos PBMC3K y el paquete de R Seurat.
Ejecutar el tutorial guiado de Seurat PBMC3K
Comenzamos ejecutando el tutorial guiado de Seurat PBMC3K para tener una vista general de los clústeres crudos y no anotados.
Emparejamiento con CellMarker2.0
En este siguiente paso, miramos los 50 genes más expresados para cada clúster de células. Solo incluimos genes que son estadísticamente significativos y usamos estos para buscar en la base de datos CellMarker2.0 marcadores que coincidan. Esto nos ayuda a alinear los perfiles de expresión genética con marcadores conocidos para etiquetar los tipos de células.
Verificamos cuántos marcadores coinciden para cada clúster en la base de datos CellMarker2.0. Una columna muestra el número total de marcadores coincidentes, mientras que otra columna muestra el número de marcadores únicos. También hacemos seguimiento de cuántas veces aparece cada marcador.
Visualizando clústeres de células y sus tipos
Podemos crear representaciones visuales de los clústeres de células y los tipos que coinciden con ellos. Esto nos da una vista más clara de qué tan bien se ajustan las anotaciones a los clústeres.
Evaluar tipos de células potenciales adicionales
Si bien mirar el tipo de célula mejor emparejado es común, también es buena idea considerar otros tipos de células posibles. Esto es especialmente importante cuando un clúster coincide con múltiples tipos de células distintos. Al revisar los marcadores de otros tipos potenciales, podemos asegurar anotaciones más precisas y confiables. Para facilitar esto, podemos examinar clústeres que están cerca unos de otros en nuestra representación visual al mismo tiempo.
La expresión de marcadores para tipos de células potenciales se puede mostrar para clústeres que están cerca unos de otros para una vista más detallada.
Comparar CellMarker2.0 con SingleR
En nuestro análisis, también usaremos el popular paquete de R SingleR para etiquetar los datos. Esto nos permite ver cómo se comparan los resultados de CellMarker2.0 con los de SingleR, ayudándonos a evaluar la precisión y confiabilidad de nuestras anotaciones.
Conclusión y discusión
En este artículo, presentamos el paquete easybio de R, creado para ayudar a simplificar la anotación de células únicas usando la base de datos CellMarker2.0. Hasta donde sabemos, easybio es el primer paquete de R que incluye CellMarker2.0 para este propósito.
Probamos el paquete aplicándolo al conjunto de datos del tutorial Seurat PBMC3K y comparando las anotaciones con las realizadas manualmente a través de Seurat y usando SingleR. Los resultados mostraron que las anotaciones de CellMarker2.0 estaban alineadas con las generadas por SingleR y los métodos manuales de Seurat. Una ventaja clave de easybio es que no depende de conjuntos de datos de referencia externos, lo que puede ahorrar tiempo y experiencia en comparación con los procesos manuales.
El paquete easybio no solo sirve para etiquetar células únicas con CellMarker2.0; también ayuda en varios análisis, incluyendo secuenciación de ARN masiva y exploración de datos, y permite integración con otras bases de datos.
Sin embargo, es importante reconocer algunas limitaciones. El éxito de etiquetar células únicas con CellMarker2.0 depende de qué tan bien se agrupan las células. Factores como controles de calidad de datos, análisis de componentes principales (PCA) y elegir configuraciones de resolución pueden influir en los resultados de agrupamiento. Cambios en estas configuraciones pueden llevar a diferentes resultados en agrupación celular y, por lo tanto, en resultados de etiquetado. Se recomienda probar diferentes configuraciones para entender mejor sus efectos.
También solo probamos el paquete con el conjunto de datos PBMC3K. Para tener una imagen más completa, sería beneficioso analizar un rango más amplio de conjuntos de datos y se podrían usar métodos más estandarizados para verificar rigurosamente la precisión de los resultados.
En resumen, easybio facilita la anotación de células únicas al integrar la base de datos CellMarker2.0, proporcionando a los investigadores una herramienta más eficiente y reproducible para su trabajo.
Título: easybio: an R Package for Single-Cell Annotation with CellMarker2.0
Resumen: Single-cell RNA sequencing (scRNA-seq) allows researchers to study biological activities at the cellular level, enabling the discovery of new cell types and the analysis of intercellular interactions. However, annotating cell types in scRNA-seq data is a crucial and time-consuming process, with its quality significantly influencing downstream analyses. Accurate identification of potential cell types provides valuable insights for discovering new cell populations or identifying novel markers for known cells, which may be utilized in future research. While various methods exist for single-cell annotation, one of the most common approaches is to use known cell markers. The CellMarker2.0 database, a human-curated repository of cell markers extracted from published articles, is widely used for this purpose. However, it currently offers only a web-based tool for usage, which can be inconvenient when integrating with workflows like Seurat. To address this limitation, we introduce easybio, an R package designed to streamline single-cell annotation using the CellMarker2.0 database in conjunction with Seurat. easybio provides a suite of functions for querying the CellMarker2.0 database locally, offering insights into potential cell types for each cluster. In addition to single-cell annotation, the package also supports various bioinformatics workflows, including RNA-seq analysis, making it a versatile tool for transcriptomic research.
Autores: Cui Wei
Última actualización: 2024-09-16 00:00:00
Idioma: English
Fuente URL: https://www.biorxiv.org/content/10.1101/2024.09.14.609619
Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.09.14.609619.full.pdf
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.