Enfrentando Desafios na Sequência de RNA de Células Únicas
Pesquisadores enfrentam problemas em scRNA-seq com agrupamento de amostras e identificação de duplicatas.
― 6 min ler
Índice
A sequência de RNA de célula única (ScRNA-seq) é uma técnica usada pra estudar os genes que são expressos em células individuais. Esse método tá se tornando mais popular já que os pesquisadores querem entender como as células funcionam de um jeito mais detalhado. Mas, conforme o scRNA-seq vai sendo mais usado, fazer testes separados pra cada amostra pode ficar bem caro. Pra economizar grana e reduzir os problemas que aparecem quando as Amostras são processadas separadamente, os cientistas começaram a juntar várias amostras pra fazer um único teste. Essa abordagem traz um novo desafio: identificar quais células vêm de quais amostras.
Marcação de Amostras
Uma solução comum pra saber a origem das amostras é marcar elas antes de juntar. Isso envolve adicionar marcadores únicos a cada amostra, normalmente usando anticorpos ou etiquetas químicas especiais, que são sequenciados junto com as informações genéticas. Embora esse método permita aos pesquisadores rastrear as amostras, ele também traz alguns problemas. O processo de marcação pode deixar a preparação das amostras mais complexa e talvez não funcione bem com todos os tipos de tecidos. Às vezes, nem todas as células são marcadas adequadamente, o que significa que a origem da amostra não pode ser identificada, mesmo que os dados de RNA sejam ótimos.
Protocolos Baseados em Gotículas
Nos métodos de scRNA-seq baseados em gotículas, as células são capturadas em gotículas minúsculas, onde elas se misturam com esferas cobertas por etiquetas únicas que se ligam ao RNA delas. Esse arranjo ajuda a conectar as leituras de RNA às gotículas específicas, permitindo que os pesquisadores atribuam as leituras a células individuais se cada gotícula tiver só uma célula. Mas, quando as gotículas têm mais de uma célula, chamadas de "doublets", o RNA de várias células se mistura. Essa mistura pode causar confusão nos resultados, fazendo parecer que há tipos de células novos ou especiais quando, na verdade, é só expressão gênica sobreposta de células diferentes.
Protocolo Flex
Pra lidar tanto com a marcação quanto com o problema dos doublets, o protocolo Flex de uma empresa chamada 10X Genomics foi desenvolvido. Em vez de usar etiquetas separadas, esse método utiliza Códigos de barras específicos de genes que se ligam a moléculas de RNA individuais. Cada um desses códigos de barras pode indicar uma amostra específica, e kits estão disponíveis com vários códigos de barras únicos de amostras. Ao misturar essas sondas com códigos de barras com as amostras antes de juntar, cada célula vai carregar informações sobre tanto sua gotícula quanto sua amostra.
Essa flexibilidade permite que os pesquisadores separem e identifiquem células de amostras diferentes, mesmo que acabem na mesma gotícula. Isso significa que os pesquisadores podem fazer testes com um maior número de células sem precisar de etapas de marcação e análise separadas, aumentando a eficiência.
Desafios com Multiplets
Embora o método Flex lide melhor com a marcação e os problemas de mistura de gotículas do que métodos anteriores, ainda há um desafio significativo quando células da mesma amostra acabam em uma gotícula. Quando várias células da mesma amostra estão em uma gotícula, não podem ser diferenciadas uma da outra, o que leva a um aumento do número de células não resolvidas conhecidas como doublets.
Os pesquisadores descobriram que o número desses doublets não resolvidos é muito maior do que se esperava ao realizar o scRNA-seq. Pra entender melhor esse fenômeno, os cientistas analisaram dados reais de múltiplos experimentos usando o protocolo Flex. Ao analisar esses conjuntos de dados, os pesquisadores podem encontrar padrões de quantos doublets aparecem e trabalhar em métodos pra prever sua ocorrência com precisão.
Analisando Dados
Na pesquisa deles, os cientistas analisaram conjuntos de dados de duas execuções do Flex. O primeiro conjunto foi retirado de um estudo que envolvia as vias aéreas de crianças, olhando diferentes tecidos coletados de doadores saudáveis. O segundo conjunto de dados envolveu amostras de sangue de um doador saudável.
Os pesquisadores então usaram vários métodos pra identificar doublets dentro desses conjuntos de dados. O objetivo era ver quão eficazes esses métodos eram em reconhecer doublets e quantos estavam presentes nos conjuntos de dados.
Identificando Doublets
A análise revelou que os métodos existentes não eram perfeitos e muitas vezes não conseguiam identificar doublets. Os pesquisadores usaram uma ferramenta específica chamada scDblFinder pra ter uma ideia mais clara de quantos doublets seriam considerados "singlets", ou células únicas, no conjunto de dados. Eles descobriram que o scDblFinder era melhor em identificar doublets em comparação com outras ferramentas.
Ao examinar mais a fundo, ficou claro que muitos desses doublets, que foram classificados incorretamente como células únicas, na verdade eram compostos por múltiplas células do mesmo tipo. Esse mal-entendido pode levar a erros significativos na interpretação e análise dos dados.
Impacto dos Multiplets na Análise
Esses doublets não resolvidos podem causar problemas nas análises subsequentes, que são as etapas tomadas após a coleta e processamento dos dados. Pra ilustrar esse impacto, os cientistas realizaram clustering não supervisionado em um dos conjuntos de dados. Clustering é uma técnica usada pra agrupar células com características semelhantes.
Os resultados mostraram que os doublets influenciam a formação de clusters. Quando os doublets foram removidos, o número de clusters diminuiu, indicando que muitos clusters foram formados artificialmente devido aos doublets. Esse efeito é crítico pros pesquisadores porque os clusters falsos podem levar a conclusões erradas sobre quais tipos de células estão presentes em uma amostra.
Conclusão
O protocolo Flex é um método promissor pra experimentos de scRNA-seq, pois aborda problemas-chave relacionados à identificação de amostras. Mas ainda enfrenta desafios com doublets não resolvidos, especialmente aqueles da mesma amostra. A presença desses doublets pode distorcer os dados e levar a imprecisões na análise.
Ao estudar sua ocorrência e como identificá-los, os pesquisadores podem melhorar a precisão dos dados de scRNA-seq. Esse avanço é crucial pra fazer conclusões biológicas confiáveis, aumentando nossa compreensão de como as células funcionam e interagem.
À medida que os estudos de célula única continuam a crescer em importância, a necessidade de soluções eficazes pra esses desafios só vai aumentar. Compreender e abordar questões relacionadas aos doublets vai ajudar a abrir caminho pra futuros avanços na biologia celular e medicina.
Título: More cells, more doublets in highly multiplexed single-cell data
Resumo: Sample barcoding allows deconvolution of multiplets in multiplexed droplet-based single-cell RNA-sequencing experiments. However, this is only possible when each cell comes from a different sample. As the number of cells in a droplet increases, the probability of two or more cells coming from the same sample increases rapidly. We show that the number of these unresolvable multiplets is greater than previously estimated for the 10X Flex scRNA-seq protocol, and provide a formula for estimating the fraction of multiplets in a data set given a measured average droplet occupancy and number of unique samples in a pool. We also show that existing doublet detection tools should be applied to Flex data to identify these multiplets, and demonstrate that filtering out barcodes identified by these tools improves downstream analysis.
Autores: Alicia Oshlack, G. Howitt, G. Dixit, R. Aharon, V. Streeton-Cook, L. Ling, P. F. Hickey, D. Amann-Zalcenstein, L. Gubbels, S. Shanthikumar, S. Ranganathan, M. Neeland, J. Maksimovic
Última atualização: 2024-10-08 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2024.10.03.616596
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.10.03.616596.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.