Simple Science

Ciência de ponta explicada de forma simples

# Biologia# Bioinformática

Nova Abordagem para Analisar Dados de Transcriptômica em Lote

A Deconvolução Digital Adaptativa de Tecidos melhora a precisão na análise de transcriptômica em massa.

― 8 min ler


Avançando a Análise deAvançando a Análise deTranscritos em Massaestimativas de composição celular.Novo método melhora a precisão das
Índice

A transcriptômica em massa é uma forma de estudar a atividade dos genes em um grupo de células, em vez de em células individuais. Esse método analisa os padrões gerais de expressão gênica em uma amostra. Mas os resultados podem ser confusos, já que misturam sinais de diferentes Tipos de Células. Se não soubermos quais células estão presentes e em quais quantidades, fica difícil dizer de onde vem a atividade gênica específica.

Pra entender melhor essa complexidade, várias técnicas foram desenvolvidas pra estimar as proporções de diferentes tipos de células em amostras em massa. Algumas são baseadas em estatísticas tradicionais, enquanto outras usam abordagens mais modernas de machine learning. Recentemente, a adição da transcriptômica espacial, que confere expressão gênica dentro do contexto da arquitetura dos tecidos, aumentou ainda mais a necessidade de medir com precisão os diferentes tipos de células.

A Importância das Estimativas de Tipos Celulares

Estimativas precisas dos diferentes tipos de células são centrais para análises eficazes dos dados de transcriptômica em massa. Se a gente só focar na atividade total dos genes sem considerar os tipos de células subjacentes, corremos o risco de tirar conclusões erradas. Por exemplo, em uma amostra com células tumorais e células imunes, precisamos saber quantas de cada tipo estão presentes pra entender os resultados corretamente.

Pra melhorar as estimativas da composição celular, pesquisadores propuseram diferentes métodos que combinam dados de sequenciamento de RNA de célula única com dados de transcriptômica em massa. Isso permite ter pontos de referência melhores pra descobrir as proporções dos vários tipos celulares em uma mistura. Algumas das técnicas dependem de criar misturas artificiais de células com composições conhecidas pra treinar os modelos de forma eficaz.

Limitações dos Métodos Tradicionais

Mesmo com várias abordagens pra estimar tipos celulares, a maioria não considera contribuições desconhecidas de outros tipos de células e impactos ambientais. Modelos tradicionais podem falhar em identificar todos os diferentes tipos de células envolvidos, especialmente se alguns estiverem faltando nos dados de referência usados para análise. Isso é um problema significativo porque remover até um tipo celular da referência pode reduzir drasticamente a precisão dos resultados.

Além disso, de onde vêm os perfis de referência é muito importante. O ambiente em que as células existem pode afetar os padrões de expressão gênica delas. Portanto, é fundamental garantir que os perfis de referência sejam derivados de condições semelhantes às das amostras em massa que estão sendo estudadas.

Apresentando a Deconvolução Digital Adaptativa de Tecidos (ADTD)

Pra superar os desafios presentes nos métodos tradicionais, uma nova abordagem chamada Deconvolução Digital Adaptativa de Tecidos (ADTD) foi criada. Essa abordagem trata de dois problemas principais: a presença de tipos celulares ocultos e a influência do ambiente na expressão gênica.

Estimativa de Fundo

A ADTD começa se baseando em um método anterior conhecido como Deconvolução Digital de Tecidos (DTD). Enquanto o DTD usa dados de referência existentes pra estimar tipos celulares, a ADTD vai além, levando em conta também contribuições de arquivos de fundo que podem obscurecer os resultados. Isso significa que a ADTD procura tipos celulares ocultos que podem não ter sido incluídos nos dados de referência.

Por exemplo, se tivermos uma amostra em massa de um tumor, podemos conseguir identificar as células imunes presentes, mas isso pode ser afetado por sinais das células cancerosas. A ADTD tenta separar essas contribuições pra dar uma visão mais clara do que tá rolando na amostra.

Adaptando Perfis de Referência

Outra característica chave da ADTD é a capacidade de ajustar os perfis de referência com base na amostra específica que tá sendo analisada. Como as características moleculares das células podem mudar dependendo do ambiente, faz sentido ter perfis de referência que sejam flexíveis e se adaptem ao contexto particular de uma amostra.

A ADTD faz isso redimensionando os dados de referência com base nas características da amostra em massa. Isso significa que, em vez de usar perfis de referência estáticos, a ADTD cria perfis que são personalizados pra amostra em questão, ajudando a fornecer estimativas mais precisas dos tipos celulares e suas atividades.

O Processo de ADTD

A ADTD utiliza uma abordagem sistemática pra analisar dados de transcriptômica em massa. Esse processo inclui processamento de dados, treinamento do modelo e validação.

Criando Misturas Artificiais

Pra treinar a ADTD de forma eficaz, os pesquisadores criam misturas artificiais com composições celulares conhecidas. Essas misturas podem ser derivadas de dados sobre tecidos saudáveis ou tecidos cancerosos. Ao usar uma variedade de dados de célula única, os pesquisadores conseguem garantir que uma ampla gama de tipos celulares esteja representada nos dados de treinamento.

O objetivo de criar essas misturas artificiais é aperfeiçoar o modelo pra que ele consiga estimar com precisão as proporções dos diferentes tipos celulares em amostras reais.

Validando a ADTD

Depois de treinar o modelo, o próximo passo é validar sua eficácia. Isso envolve testar o modelo ADTD com novas misturas que incluam contribuições ocultas de tipos celulares que não estavam presentes nos dados de treinamento originais. Ao medir quão bem a ADTD consegue reconstruir as proporções conhecidas nessas misturas de teste, os pesquisadores podem avaliar sua precisão e confiabilidade.

Pra ADTD funcionar de forma eficaz, é necessário ter um número suficiente de amostras. Mesmo um tamanho de amostra modesto pode ajudar a produzir estimativas confiáveis se o método for robusto.

Desempenho da ADTD em Comparação com Outros Métodos

A ADTD mostrou superar vários métodos existentes, como EPIC e CIBERSORT, especialmente em ambientes onde contribuições ocultas desempenham um papel significativo. Em testes onde proporções conhecidas de diferentes tipos celulares foram usadas, a ADTD demonstrou consistentemente melhor precisão.

Uma das grandes vantagens da ADTD é sua flexibilidade em se adaptar a diferentes tipos de amostras. Em experimentos envolvendo tecidos cancerosos, a ADTD conseguiu estimar efetivamente as contribuições de tipos celulares previamente não vistos, oferecendo insights que métodos tradicionais poderiam perder.

Importância do Ajuste de Hiperparâmetros

Ao usar a ADTD, os pesquisadores precisam definir certos hiperparâmetros que influenciam como o modelo opera. Pra que as estimativas sejam precisas, é crucial encontrar o equilíbrio certo entre dois hiperparâmetros. No entanto, estudos mostraram que a ADTD é relativamente robusta, e seu desempenho não varia drasticamente com diferentes configurações desses parâmetros.

Isso sugere que os usuários podem adotar valores iniciais de parâmetros com base em conhecimentos prévios e ainda assim obter resultados satisfatórios, tornando a ADTD amigável e adaptável em vários contextos.

Aplicações da ADTD

A ADTD tem um grande potencial de uso em várias áreas, especialmente na compreensão da biologia do câncer. Analisando dados de transcriptômica em massa de amostras cancerosas, a ADTD pode destacar atividades gênicas específicas de tipos celulares que podem informar estratégias de tratamento.

Por exemplo, quando aplicada a dados do The Cancer Genome Atlas, a ADTD pode identificar padrões na regulação gênica entre diferentes subtipos de câncer de mama. Esse tipo de análise pode ajudar os pesquisadores a entender como diferentes tipos de células cancerosas interagem com células imunes, potencialmente levando a terapias mais direcionadas.

Conclusão

A transcriptômica em massa é uma ferramenta poderosa pra entender a atividade gênica entre diferentes tipos celulares. No entanto, a interpretação precisa desses dados requer consideração cuidadosa das proporções celulares e das condições ambientais.

A ADTD representa um avanço significativo nessa área ao fornecer uma abordagem adaptativa e flexível que considera contribuições celulares ocultas e ajusta perfis de referência com base em amostras específicas. Através de treinamento e validação sistemáticos, a ADTD demonstra melhor precisão em comparação com métodos tradicionais, especialmente ao analisar amostras complexas como tumores.

À medida que a pesquisa continua a evoluir, métodos como a ADTD desempenharão um papel crucial em extrair insights significativos dos dados de transcriptômica em massa, ajudando, por fim, no desenvolvimento de melhores diagnósticos e tratamentos para várias doenças.

Fonte original

Título: Adaptive Digital Tissue Deconvolution

Resumo: MotivationThe inference of cellular compositions from bulk and spatial transcriptomics data increasingly complements data analyses. Multiple computational approaches were suggested and recently, machine learning techniques were developed to systematically improve estimates. Such approaches allow to infer additional, less abundant cell types. However, they rely on training data which do not capture the full biological diversity encountered in transcriptomics analyses; data can contain cellular contributions not seen in the training data and as such, analyses can be biased or blurred. Thus, computational approaches have to deal with unknown, hidden contributions. Moreover, most methods are based on cellular archetypes which serve as a reference; e.g., a generic T-cell profile is used to infer the proportion of T-cells. It is well known that cells adapt their molecular phenotype to the environment and that pre-specified cell archetypes can distort the inference of cellular compositions. ResultsWe propose Adaptive Digital Tissue Deconvolution (ADTD) to estimate cellular proportions of pre-selected cell types together with possibly unknown and hidden background contributions. Moreover, ADTD adapts prototypic reference profiles to the molecular environment of the cells, which further resolves cell-type specific gene regulation from bulk transcriptomics data. We verify this in simulation studies and demonstrate that ADTD improves existing approaches in estimating cellular compositions. In an application to bulk transcriptomics data from breast cancer patients, we demonstrate that ADTD provides insights into cell-type specific molecular differences between breast cancer subtypes. Availability and implementationA python implementation of ADTD and a tutorial are available at Gitlab and zenodo (doi:10.5281/zenodo.7548362). [email protected] and [email protected] Supplementary informationSupplementary material is available at Bioinformatics online.

Autores: Michael Altenbuchinger, F. Görtler, M. Mensching-Buhr, O. Skaar, S. Schrod, T. Sterr, A. Schäfer, T. Beissbarth, A. Joshi, H. U. Zacharias, S. N. Grellscheid

Última atualização: 2024-04-11 00:00:00

Idioma: English

Fonte URL: https://www.biorxiv.org/content/10.1101/2023.02.08.527583

Fonte PDF: https://www.biorxiv.org/content/10.1101/2023.02.08.527583.full.pdf

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes