Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Biología# Bioinformática

Nuevo método mejora la estimación de tipos de células a partir de muestras de tejido

GLDADec mejora la precisión al estimar tipos de células usando datos de transcriptoma.

― 10 minilectura


GLDADec: Una NuevaGLDADec: Una NuevaHerramienta de Estimaciónpreciso de tipos de células en tejidos.Método innovador para un análisis
Tabla de contenidos

Entender los diferentes tipos de células en una muestra de tejido es importante por muchas razones, como estudiar las respuestas inmunitarias o analizar muestras de tumores en la investigación del cáncer. Tradicionalmente, la citometría de flujo ha sido un método común para contar e identificar estas células. Sin embargo, este método tiene limitaciones, especialmente cuando se trata de analizar muestras de tejido humano. Además, no hay suficiente conocimiento sobre cómo combinar datos de citometría de flujo, lo que dificulta trabajar con datos más antiguos.

Con el crecimiento de las técnicas de secuenciación de alto rendimiento, se ha recopilado un montón de datos del transcriptoma. Los datos del transcriptoma muestran los niveles de expresión génica en diferentes tipos de células y se pueden estudiar en profundidad con bases de datos existentes. Aunque también ha surgido la tecnología de secuenciación de células individuales, es cara y difícil de analizar grandes grupos de datos. Por lo tanto, encontrar una forma de estimar los diferentes tipos de células a partir de datos de transcriptoma a granel es vital.

Deconvolución como solución

La deconvolución es un método computacional que puede estimar las proporciones de diferentes células inmunitarias en una muestra usando datos del transcriptoma. Recientemente, se han desarrollado muchos métodos de deconvolución para inferir proporciones de tipos celulares a partir de datos de expresión génica a granel. Estos métodos caen en dos categorías principales: métodos sin referencia y Métodos Basados en Referencia.

Los métodos sin referencia utilizan solo las muestras que se están analizando para estimar las proporciones de diferentes tipos de células. Este enfoque suele ser menos sensible a información externa que podría confundir los resultados. Es útil en casos donde los tipos celulares exactos presentes en el tejido no están bien definidos. Sin embargo, identificar los componentes y emparejarlos con tipos celulares específicos es un reto, y los resultados pueden no ser muy claros.

Por otro lado, los métodos basados en referencia dependen de perfiles de expresión génica específicos para cada tipo celular como comparación. Aunque algunos de estos métodos han tenido buenos resultados, su precisión depende de la calidad de los datos de referencia y de las diferencias entre lotes de muestras. Por esta razón, los métodos basados en referencia solo se pueden usar efectivamente en situaciones específicas donde los tipos de células principales se conocen y hay buenos datos de referencia disponibles.

Presentando la Deconvolución Guiada LDA

Proponemos un nuevo método llamado Deconvolución Guiada LDA (GLDADec), que utiliza los nombres de genes marcador como información previa para estimar proporciones de diferentes tipos de células. Este método busca combinar las fortalezas de los métodos convencionales basados en referencia y sin referencia. Usando un algoritmo de aprendizaje especial, GLDADec combina Genes Marcadores con otros factores importantes que pueden afectar la expresión génica para proporcionar estimaciones precisas de las proporciones celulares.

El método también emplea una estrategia para combinar resultados de diferentes ensayos con el fin de mejorar la precisión. Probamos GLDADec contra métodos existentes usando muestras de sangre que tenían tipos celulares bien definidos y encontramos que funcionó mejor en varios conjuntos de datos. Además, GLDADec se aplicó a datos de transcriptoma hepático de modelos animales de daño hepático inducido por medicamentos, demostrando ser útil para analizar datos de tejido.

Cómo funciona GLDADec

GLDADec utiliza un proceso derivado de un método llamado Asignación de Dirichlet Latente (LDA), comúnmente usado en el análisis de datos textuales. En nuestro caso, los perfiles de expresión génica se tratan como palabras, y el objetivo es identificar los temas específicos o tipos celulares presentes en las muestras. En el proceso estándar de LDA, los resultados se derivan de dos distribuciones principales, que reflejan la distribución general de la muestra y la distribución de genes relacionados con cada tema o tipo celular.

Al incorporar los nombres de genes marcador específicos de cada tipo celular, GLDADec guía el proceso de estimación para mejorar la precisión. Durante este proceso, el algoritmo se centra en los genes marcador conocidos mientras permite cambios y actualizaciones en las contribuciones génicas. De esta manera, el método puede adaptarse y mejorar sus estimaciones con el tiempo.

Selección de genes para análisis

Al usar GLDADec, el primer paso implica preparar una matriz de expresión génica que contenga datos de varios genes a través de múltiples muestras. Para mantener las cosas eficientes, seleccionamos genes que muestran cambios significativos en la expresión o están vinculados a respuestas inmunitarias. Al centrarnos en estos genes clave, podemos mejorar la relevancia de nuestro análisis mientras evitamos valores atípicos.

Además, los tejidos están compuestos por muchos tipos celulares diferentes. Por lo tanto, consideramos no solo los tipos celulares objetivo, sino también temas adicionales desconocidos que podrían surgir. Esta capacidad de adaptarse e incluir influencias desconocidas ayuda a reflejar con precisión la complejidad biológica de las muestras de tejido.

Estrategia de ensamblaje para estimaciones robustas

Para mejorar aún más las estimaciones de proporciones de tipos celulares, GLDADec emplea una estrategia de ensamblaje. Esto significa ejecutar múltiples ensayos y combinar los resultados de una manera que asegure que las proporciones totales sumen 1. Al promediar los resultados de estos diversos intentos, podemos mejorar la confiabilidad de las estimaciones y reducir cualquier error aleatorio que pueda ocurrir.

Análisis funcional de temas adicionales

Mientras analizamos los datos, podemos identificar contribuciones génicas para temas desconocidos y realizar análisis funcionales específicos. Al examinar los genes más importantes relacionados con estos temas adicionales, podemos descubrir procesos biológicos que pueden estar vinculados al tejido en cuestión. Por ejemplo, esto ayudará a entender funciones metabólicas u otras actividades críticas que ocurren en el tejido.

Preparación de datos y referencia

Para probar qué tan bien funciona GLDADec en la estimación de proporciones celulares, seleccionamos conjuntos de datos que incluyen datos de transcriptoma junto con proporciones de células inmunitarias identificadas a través de citometría de flujo. También se reunieron varios conjuntos de datos clínicos para análisis en el mundo real.

Por ejemplo, usamos muestras derivadas de sangre para evaluar nuestro método en comparación con técnicas de deconvolución existentes. Al realizar nuestras evaluaciones, GLDADec demostró un rendimiento sólido, logrando constantemente altas correlaciones con los valores medidos reales. La precisión de nuestro método indica su efectividad para predecir las proporciones de diferentes tipos celulares, especialmente en estudios relacionados con el sistema inmunológico.

Además de los datos derivados de sangre, también analizamos muestras de tejido afectadas por perturbaciones específicas. Usando datos de transcriptoma hepático de ratones y ratas, encontramos que GLDADec podía estimar de manera confiable las proporciones de diferentes células inmunitarias, demostrando aún más su utilidad para el análisis de tejidos variados.

Análisis completo de tipos celulares para datos de ratón

Exploramos cómo GLDADec podría proporcionar estimaciones completas para una amplia gama de tipos celulares. Al reunir información sobre genes marcador de bases de datos existentes, pudimos estimar efectivamente las proporciones de diversos tipos celulares a partir de muestras de tejido hepático durante una lesión inducida por fármacos. Algunos de los tipos celulares que antes se pasaban por alto, como los hepatocitos, también se podrían analizar de manera efectiva usando nuestro método.

Al verificar nuestras estimaciones contra resultados de citometría de flujo para células inmunitarias comunes, validamos la precisión de GLDADec. No solo el método propuesto funcionó bien para tipos celulares inmunitarios bien conocidos, sino que también proporcionó información sobre tipos celulares adicionales que antes eran difíciles de evaluar.

Aplicación de GLDADec a muestras tumorales

Otra aplicación crucial de GLDADec es en el análisis de tumores. Los tejidos tumorales comprenden varios tipos celulares, incluyendo células inmunitarias y células cancerígenas. Al aplicar nuestro método a una gran colección de muestras tumorales, pudimos estimar las proporciones de varios tipos celulares involucrados.

Los conocimientos obtenidos de este análisis fueron significativos. Al entender cómo diferentes tipos celulares contribuyen al crecimiento tumoral y los resultados en pacientes, los investigadores pueden obtener una imagen más clara de la biología del cáncer. Por ejemplo, observamos diferentes patrones de infiltración de células inmunitarias en varios subtipos de tumores, revelando información valiosa sobre la naturaleza de cada subtipo.

Además, evaluamos las relaciones entre las proporciones estimadas de tipos celulares específicos y las tasas de supervivencia de los pacientes. Tales hallazgos podrían ayudar a informar la toma de decisiones clínicas y mejorar la prognosticación del paciente.

Evaluando el impacto general de GLDADec

La introducción de GLDADec marca un avance significativo en la capacidad de estimar proporciones de tipos celulares en muestras biológicas complejas. Su diseño permite la incorporación de conocimientos existentes sobre genes marcador, lo que puede mejorar la precisión de las estimaciones en diferentes tejidos y especies.

Al incluir la capacidad de tener en cuenta tipos celulares desconocidos y sus contribuciones, este método ofrece un reflejo más claro del paisaje biológico dentro de las muestras. Los resultados permiten a los investigadores explorar varios aspectos de la biología, desde las respuestas inmunitarias hasta la progresión tumoral, con mayor confianza.

En resumen, GLDADec es una herramienta poderosa que mejora nuestra capacidad para analizar e interpretar datos complejos de tejido. Al aprovechar la información del gen marcador, proporciona conocimientos que podrían llevar a avances significativos en la investigación biomédica y aplicaciones clínicas.

Conclusión

En conclusión, GLDADec ofrece un enfoque novedoso para estimar proporciones de tipos celulares en varios contextos biológicos. Al combinar información de marcadores conocidos con técnicas analíticas avanzadas, este método tiene el potencial de remodelar la forma en que los investigadores estudian tejidos complejos. Ya sea mejorando nuestra comprensión de las respuestas inmunitarias o arrojando luz sobre la biología tumoral, GLDADec allana el camino para un mejor análisis y interpretación de datos en las ciencias biológicas.

A medida que más datos se vuelvan disponibles y nuestra comprensión de los tipos celulares se profundice, herramientas como GLDADec serán esenciales para avanzar en la investigación y abordar preguntas críticas en biología y medicina. La flexibilidad y robustez de este método abren nuevas posibilidades para estudiar la dinámica compleja de las poblaciones celulares, lo que finalmente conduce a mejores resultados en salud y enfermedad.

Fuente original

Título: GLDADec: marker-gene guided LDA modelling for bulk gene expression deconvolution

Resumen: Inferring cell type proportions from bulk transcriptome data is crucial in immunology and oncology. Here, we introduce GLDADec (Guided LDA Deconvolution), a bulk deconvolution method that guides topics using cell type-specific marker gene names to estimate topic distributions for each sample. Through benchmarking using blood-derived datasets, we demonstrate its high estimation performance and robustness. Moreover, we apply GLDADec to heterogeneous tissue bulk data and perform comprehensive cell type analysis in a data-driven manner. We show that GLDADec outperforms existing methods in estimation performance and evaluate its biological interpretability by examining enrichment of biological processes for topics. Finally, we apply GLDADec to TCGA tumor samples, enabling subtype stratification and survival analysis based on estimated cell type proportions, thus proving its practical utility in clinical settings. This approach, utilizing marker gene names as partial prior information, can be applied to various scenarios for bulk data deconvolution. GLDADec is available as an open-source Python package at https://github.com/mizuno-group/GLDADec.

Autores: Tadahaya Mizuno, I. Azuma, H. Kusuhara

Última actualización: 2024-06-13 00:00:00

Idioma: English

Fuente URL: https://www.biorxiv.org/content/10.1101/2024.01.08.574749

Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.01.08.574749.full.pdf

Licencia: https://creativecommons.org/licenses/by-nc/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares