Comparando Seurat e Scanpy: Insights da Análise de scRNA-seq
Um estudo revelando diferenças importantes nas ferramentas de análise de dados de scRNA-seq.
― 7 min ler
Índice
O Sequenciamento de RNA de célula única (scRNA-seq) é um método usado pra estudar a expressão gênica em células individuais. Essa técnica permite que os cientistas vejam como os genes são ativados ou desativados em diferentes células, o que pode ajudar a entender vários processos biológicos e doenças. Com o aumento do uso do scRNA-seq, muitas ferramentas e métodos foram desenvolvidos pra analisar os dados gerados, sendo as mais populares o Seurat e o Scanpy.
O Básico do scRNA-seq
Em um experimento típico de scRNA-seq, o processo começa com a coleta de células de uma amostra. Essas células são tratadas pra extrair o RNA, que representa a expressão gênica ativa. O RNA é sequenciado pra gerar dados brutos que são depois convertidos em um formato chamado matriz de contagem célula-gênero. Essa matriz contém informações sobre quantas vezes cada gene é expresso em cada célula.
Antes da análise, os dados passam por uma série de etapas, incluindo filtragem pra remover dados de baixa qualidade e normalização pra corrigir qualquer variação que possa distorcer os resultados. Depois dessas etapas, os pesquisadores podem identificar genes altamente variáveis (HVGs) que podem ser do interesse e reduzir a complexidade dos dados pra facilitar a análise.
Ferramentas Comuns de Análise: Seurat e Scanpy
O Seurat, lançado em 2015, é amplamente usado no campo da bioinformática pra análise de dados de scRNA-seq. Ele é construído usando a linguagem de programação R. O Scanpy, que saiu em 2017, é uma ferramenta baseada em Python que oferece recursos similares. Ambas as ferramentas oferecem uma variedade de opções e têm suas próprias comunidades de usuários ativas. Os pesquisadores geralmente escolhem entre elas com base na familiaridade com as linguagens de programação.
A entrada para Seurat e Scanpy é a matriz de contagem célula-gênero. Muitos pesquisadores usam softwares específicos, como o Cell Ranger ou kallisto-bustools, pra gerar essa matriz a partir de dados brutos de sequenciamento. O Cell Ranger foi projetado pra funcionar perfeitamente com as plataformas da 10x Genomics, enquanto o kallisto-bustools é uma alternativa de código aberto conhecida pela sua rapidez e eficiência.
Custo dos Experimentos de scRNA-seq
Realizar um experimento padrão de scRNA-seq pode ser bem caro, custando muitas vezes milhares de dólares. Esse custo inclui vários fatores, como o preço de kits de sequenciamento e o número de leituras necessárias pra dados de alta qualidade. Por exemplo, algumas plataformas recomendam usar cerca de 20.000 a 50.000 pares de leituras pra cada célula. Preparar amostras também aumenta os custos, pois pode exigir materiais biológicos valiosos.
Variabilidade nos Resultados da Análise
Uma suposição comum na bioinformática é que a escolha do software ou versão não deve afetar significativamente a interpretação dos resultados. No entanto, estudos mostraram que diferenças substanciais podem surgir entre as ferramentas e suas versões. Este estudo tem como objetivo quantificar a variabilidade nos dados gerados usando Seurat e Scanpy, tanto em termos de diferentes versões dessas ferramentas quanto do impacto de trabalhar com diferentes quantidades de dados.
Comparando Seurat e Scanpy
Pesquisas comparando a versão 5 do Seurat com a versão 1.9 do Scanpy usando um conjunto de dados específico mostraram diferenças notáveis mesmo quando os mesmos dados de entrada foram utilizados e as configurações padrão aplicadas. Essas diferenças foram observadas em várias etapas da análise, desde a filtragem de células e seleção de HVGs até a execução de PCA, clustering e identificação de genes marcadores.
Filtragem Inicial e Normalização
Tanto o Seurat quanto o Scanpy inicialmente filtraram células e genes de forma semelhante. Após esse processo de filtragem, eles também normalizaram os dados de maneira idêntica, o que significa que ajustaram os valores pra considerar possíveis viéses. Contudo, a seleção de HVGs mostrou diferenças, com as duas ferramentas apresentando um índice de Jaccard de 0,22, indicando que apenas uma pequena fração dos HVGs se sobrepôs entre elas.
Análise de Componentes Principais (PCA)
A PCA é uma técnica usada pra reduzir a complexidade dos dados enquanto preserva suas características mais importantes. Ao comparar os resultados da PCA do Seurat e do Scanpy, houve diferenças notáveis em como as células foram representadas no espaço reduzido. Embora as formas gerais dos gráficos fossem semelhantes, as colocações específicas das células diferiram consideravelmente.
Clustering e UMAP
Clustering é o processo de agrupar células similares com base em seus padrões de expressão gênica. Ao aplicar algoritmos de clustering, Seurat e Scanpy produziram resultados diferentes. O grau de concordância entre os clusters formados por ambas as ferramentas foi relativamente baixo, destacando outra fonte de variabilidade. UMAP é outro método de visualização usado pra representar os clusters. A análise mostrou que as formas dos clusters nos gráficos UMAP diferiram entre os dois pacotes de software.
Análise de Expressão Gênica Diferencial
A Análise de Expressão Diferencial examina os genes pra ver quais estão significativamente mais expressos em um grupo de células em comparação com outros. Os resultados do Seurat e do Scanpy mostraram um índice de Jaccard de 0,62, sugerindo que, enquanto muitos genes marcadores eram similares, o número de genes marcadores significativos identificados pelo Seurat foi cerca de 50% maior do que o do Scanpy. Essa discrepância surgiu de configurações padrão diferentes para correções estatísticas e métodos de filtragem.
Redução de Dados
Pra entender melhor a variabilidade entre as duas ferramentas, o estudo explorou como a redução de dados (diminuindo o número de leituras ou células) afetou os resultados. A análise indicou que mesmo com frações muito baixas de leituras originais, os resultados ainda podiam ser comparáveis aos gerados por conjuntos de dados completos ao usar o Seurat ou o Scanpy. Essa descoberta sugere que os pesquisadores poderiam obter insights significativos sem precisar analisar todos os dados, o que é crucial pra gerenciar custos e recursos.
Impacto das Versões de Software
Além das diferenças entre Seurat e Scanpy, mudanças entre versões de software também podem impactar significativamente os resultados. Por exemplo, comparar a versão 4 do Seurat com a 5 revelou diferenças consideráveis em genes marcadores significativos devido a ajustes na forma como as mudanças logarítmicas são calculadas.
Sementes Aleatórias e Reprodutibilidade
Certas etapas na análise envolvem aleatoriedade, como clustering e UMAP. A análise descobriu que a variabilidade introduzida por diferentes sementes aleatórias era muito menor do que as diferenças observadas entre Seurat e Scanpy. Isso destaca a importância da reprodutibilidade na análise de scRNA-seq e incentiva um planejamento cuidadoso no design experimental.
Desafios e Recomendações
Trabalhar com diferentes versões de ferramentas de análise de scRNA-seq apresenta desafios. Por exemplo, o Seurat pode ter problemas de desempenho em certas condições, enquanto o Scanpy pode enfrentar problemas de dependência de pacotes. Esses desafios ressaltam a necessidade de que os desenvolvedores mantenham a compatibilidade retroativa e garantam que as atualizações sejam comunicadas claramente.
Pra os pesquisadores, usar a mesma versão de uma ferramenta durante um projeto é crítico pra consistência. Também é essencial documentar escolhas em parâmetros e entradas pra garantir que os resultados possam ser replicados em estudos futuros.
Conclusão
Essa análise mostra as diferenças em como Seurat e Scanpy lidam com dados de scRNA-seq, enfatizando a importância da escolha do software e da versão ao interpretar resultados. Ao entender essas complexidades, os pesquisadores podem tomar decisões mais informadas e melhorar a reprodutibilidade de suas descobertas na análise de sequenciamento de RNA de célula única.
Título: The impact of package selection and versioning on single-cell RNA-seq analysis
Resumo: Standard single-cell RNA-sequencing analysis (scRNA-seq) workflows consist of converting raw read data into cell-gene count matrices through sequence alignment, followed by analyses including filtering, highly variable gene selection, dimensionality reduction, clustering, and differential expression analysis. Seurat and Scanpy are the most widely-used packages implementing such workflows, and are generally thought to implement individual steps similarly. We investigate in detail the algorithms and methods underlying Seurat and Scanpy and find that there are, in fact, considerable differences in the outputs of Seurat and Scanpy. The extent of differences between the programs is approximately equivalent to the variability that would be introduced in benchmarking scRNA-seq datasets by sequencing less than 5% of the reads or analyzing less than 20% of the cell population. Additionally, distinct versions of Seurat and Scanpy can produce very different results, especially during parts of differential expression analysis. Our analysis highlights the need for users of scRNA-seq to carefully assess the tools on which they rely, and the importance of developers of scientific software to prioritize transparency, consistency, and reproducibility for their tools.
Autores: Lior Pachter, J. M. Rich, L. Moses, P. H. Einarsson, K. Jackson, L. Luebbert, A. S. Booeshaghi, S. Antonsson, D. K. Sullivan, N. Bray, P. Melsted
Última atualização: 2024-04-11 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2024.04.04.588111
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.04.04.588111.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.