Avaliação do GSEA para Análise de Dados de RNA-seq
Um estudo avaliando a Análise de Enriquecimento de Conjunto de Genes em vários tipos de câncer.
― 8 min ler
Índice
- Análise de Enriquecimento de Vias
- Abordagem do Estudo
- Conjuntos de Dados de RNA-seq
- Análise de Expressão Gênica Diferencial
- Conjuntos de Genes
- Sobreposição de Conjuntos de Genes
- Análise de Enriquecimento de Conjunto de Genes (GSEA)
- Análise de Super-Representação (ORA)
- Análise de Sensibilidade e Especificidade
- Análise Ampliada em Diferentes Tipos de Câncer
- Genes de Leading-Edge
- Importância do GSEA
- Conclusão
- Fonte original
Nos últimos anos, a Análise de Enriquecimento de Vias se tornou uma ferramenta popular usada por cientistas para entender melhor os dados em estudos relacionados a genes e doenças. Esse método ajuda os pesquisadores a verem o quadro geral, ligando dados de genes específicos a várias funções e processos biológicos. Com mais de 70 métodos diferentes disponíveis para análise de enriquecimento de vias e milhares de conjuntos de genes para escolher, navegar por essas opções se tornou bem desafiador.
Análise de Enriquecimento de Vias
A análise de enriquecimento de vias ajuda os pesquisadores a analisar dados de genes mantendo seu contexto biológico. Ao examinar conjuntos de genes que representam diferentes funções ou processos, os pesquisadores conseguem entender melhor suas descobertas em relação a doenças. Existem duas abordagens principais para a análise de enriquecimento de vias: análise de super-representação (ORA) e pontuação de classe funcional (FCS). A ORA usa uma lista selecionada de genes, enquanto a FCS considera toda a lista de genes medidos.
Embora existam várias ferramentas e métodos nesse espaço, nosso foco é em um método específico do tipo FCS chamado Análise de Enriquecimento de Conjunto de Genes (GSEA). Criado originalmente para dados de microarray, o GSEA agora é amplamente usado para analisar dados de RNA-seq. No entanto, diversos tipos de dados podem introduzir viés que pode afetar os resultados da análise de enriquecimento. Portanto, nosso objetivo é avaliar quão bem o GSEA se sai ao usar dados de RNA-seq.
Abordagem do Estudo
Para investigar o desempenho do GSEA, seguimos um método sugerido por outros pesquisadores, construindo um conjunto de vias de controle com base em anotações específicas. Usamos um grande conjunto de dados de amostras de RNA-seq de estudos sobre câncer, focando em amostras emparelhadas que incluíam tecidos tumores e não tumores. Após aplicar verificações de qualidade e filtrar dados desnecessários, analisamos 1.219 amostras emparelhadas em 12 tipos diferentes de câncer.
Comparamos vários conjuntos de genes de bancos de dados estabelecidos e identificamos 253 vias ligadas aos nossos 12 tipos de câncer selecionados. Executamos o GSEA usando a versão mais recente do software e criamos conjuntos de genes aleatórios para avaliar quão sensível e preciso o GSEA é nas suas várias opções.
Além disso, examinamos outros coortes de câncer para validar nossas descobertas. Usando esses resultados, apresentamos uma nova métrica chamada Pontuação de Evidência de Enriquecimento (EES) que ajuda a estabelecer um conjunto de vias essenciais que mostram um forte acordo na análise.
Conjuntos de Dados de RNA-seq
O Cancer Genome Atlas (TCGA) fornece uma riqueza de dados de expressão de RNA-seq. Ao baixar esses arquivos de expressão de genes, obtivemos um total de 11.274 arquivos de dados de 33 tipos diferentes de câncer. Para garantir a qualidade, incluímos apenas amostras com tecidos tumores e não tumores emparelhados, filtrando amostras que poderiam introduzir variabilidade. Isso nos deixou com 15 projetos da TCGA para uma análise mais detalhada.
Para outros tipos de câncer, usamos metodologias semelhantes. O estudo de câncer de tireoide obteve dados do Banco de Tecidos de Chernobyl, e um estudo de carcinoma hepatocelular foi obtido do repositório Gene Expression Omnibus do NCBI.
Análise de Expressão Gênica Diferencial
Todos os arquivos de expressão gênica foram analisados para quantificar os níveis de genes, observando 60.660 genes diferentes. Focamos em 19.962 genes codificadores de proteínas, filtrando aqueles que não eram informativos para nossa análise. Assim que identificamos Genes Diferencialmente Expressos, preparamos os dados para o GSEA classificando-os com base em sua significância estatística.
Comparando diferentes métodos para analisar dados de expressão gênica, incluindo abordagens como edgeR e limma, ao adotar múltiplos pipelines, garantimos que nossos resultados pudessem ser efetivamente comunicados.
Conjuntos de Genes
Para definir nossas vias de controle positivo, começamos com 33.591 conjuntos de genes de bancos de dados conhecidos. Usamos um script personalizado para filtrar esses conjuntos de genes com base em condições específicas, garantindo que todos os conjuntos de genes selecionados fossem relevantes para os tipos de câncer que estávamos estudando. Após o processo de filtragem, finalizamos nosso conjunto de vias de controle positivo para análise.
Sobreposição de Conjuntos de Genes
Um desafio comum na análise de enriquecimento de vias é a sobreposição de conjuntos de genes, onde alguns genes podem pertencer a mais de um conjunto. Esse problema complica a análise, especialmente quando diferentes coleções de genes mostram redundâncias. Para ajudar a navegar por esse desafio, usamos métricas como o índice de Jaccard para quantificar semelhanças entre conjuntos de genes.
Análise de Enriquecimento de Conjunto de Genes (GSEA)
O GSEA é uma ferramenta bem conhecida para avaliar o quanto certas vias estão enriquecidas em listas de genes classificadas. Ele considera todos os genes com base em sua classificação, ou seja, não requer filtragem prévia de genes, o que pode ser benéfico para estudos com muitos dados de genes.
O GSEA funciona somando as contribuições de genes em um conjunto de genes-alvo para a pontuação de enriquecimento geral. Essa abordagem oferece duas opções para realizar testes estatísticos: permutação de conjunto de genes e permutação de fenótipo. Cada método tem suas próprias vantagens, dependendo da estrutura e disponibilidade dos dados.
Análise de Super-Representação (ORA)
Embora o GSEA seja popular, a ORA é uma abordagem mais simples que vem sendo amplamente usada há bastante tempo. Esse método testa se há uma sobreposição significativa entre uma lista selecionada de genes e aqueles em um conjunto de genes-alvo. Apesar de ser simples, a ORA tem suas limitações, pois pode ser sensível aos critérios usados para selecionar genes.
Análise de Sensibilidade e Especificidade
Para avaliar o desempenho dos vários métodos do GSEA, geramos vias de controle aleatórias. Comparando controles positivos e negativos, criamos curvas características de operação do receptor (ROC) para avaliar como cada abordagem diferenciou verdadeiras vias de vias aleatórias.
Nossa análise revelou que a abordagem clássica de conjunto de genes do GSEA ofereceu o melhor equilíbrio entre sensibilidade e especificidade. Essa descoberta sugere que os métodos típicos do GSEA podem ser confiáveis para fornecer resultados consistentes.
Análise Ampliada em Diferentes Tipos de Câncer
Ampliamos nossa análise além da TCGA para incluir outros estudos sobre câncer. Usando nossa nova métrica de EES, comparamos vias identificadas na TCGA com aquelas de estudos adicionais. Encontramos um forte acordo entre as vias, destacando a robustez da nossa abordagem.
A análise também indicou diferenças entre os estudos, especialmente em câncer de tireoide e fígado. Essas diferenças podem lançar luz sobre os fatores únicos associados a cada tipo de câncer e oferecer insights sobre os potenciais mecanismos em jogo.
Genes de Leading-Edge
Além disso, examinamos os genes de leading-edge identificados através do GSEA. Esses genes desempenham um papel crucial no sinal de enriquecimento de vias e são vitais para entender o contexto biológico em que operam. Comparando genes de leading-edge em diferentes estudos, obtivemos insights mais profundos sobre sua importância e potenciais papéis na doença.
Importância do GSEA
O GSEA se estabeleceu como um método líder na análise de vias, mas é essencial que os pesquisadores entendam suas limitações. Várias estatísticas de classificação podem afetar os resultados, e é crucial usar métodos apropriados para análise de dados de RNA-seq. Usar valores de expressão gênica diferencial calculados fora do GSEA pode fornecer insights mais precisos e significativos.
Conclusão
O objetivo principal desse trabalho foi avaliar diferentes métodos do GSEA e fornecer orientações para a análise de dados de RNA-seq. Ao aproveitar conjuntos de dados extensos e coleções de vias curadas, buscamos ajudar os pesquisadores a entender melhor as nuances do GSEA.
Através de nossas avaliações, demonstramos que os métodos clássicos de permutação de conjuntos de genes não ponderados ofereceram um bom desempenho em vários tipos de câncer. Também introduzimos a métrica EES, que permite aos pesquisadores identificar vias e genes importantes em seus estudos.
Nosso objetivo é promover transparência e reprodutibilidade na pesquisa, enquanto incentivamos novos desenvolvimentos nos métodos de análise de vias. Ao tornar nosso código-fonte e documentação disponíveis publicamente, esperamos facilitar futuras análises e melhorias nesse campo.
Título: Assessment of Gene Set Enrichment Analysis using curated RNA-seq-based benchmarks
Resumo: Pathway enrichment analysis is a ubiquitous computational biology method to interpret a list of genes (typically derived from the association of large-scale omics data with phenotypes of interest) in terms of higher-level, predefined gene sets that share biological function, chromosomal location, or other common features. Among many tools developed so far, Gene Set Enrichment Analysis (GSEA) stands out as one of the pioneering and most widely used methods. Although originally developed for microarray data, GSEA is nowadays extensively utilized for RNA-seq data analysis. Here, we quantitatively assessed the performance of a variety of GSEA modalities and provide guidance in the practical use of GSEA in RNA-seq experiments. We leveraged harmonized RNA-seq datasets available from The Cancer Genome Atlas (TCGA) in combination with large, curated pathway collections from the Molecular Signatures Database to obtain cancer-type-specific target pathway lists across multiple cancer types. We carried out a detailed analysis of GSEA performance using both gene-set and phenotype permutations combined with four different choices for the Kolmogorov-Smirnov enrichment statistic. Based on our benchmarks, we conclude that the classic/unweighted gene-set permutation approach offered comparable or better sensitivity-vs-specificity tradeoffs across cancer types compared with other, more complex and computationally intensive permutation methods. Finally, we analyzed other large cohorts for thyroid cancer and hepatocellular carcinoma. We utilized a new consensus metric, the Enrichment Evidence Score (EES), which showed a remarkable agreement between pathways identified in TCGA and those from other sources, despite differences in cancer etiology. This finding suggests an EES-based strategy to identify a core set of pathways that may be complemented by an expanded set of pathways for downstream exploratory analysis. This work fills the existing gap in current guidelines and benchmarks for the use of GSEA with RNA-seq data and provides a framework to enable detailed benchmarking of other RNA-seq-based pathway analysis tools.
Autores: Julián Candia, L. Ferrucci
Última atualização: 2024-04-10 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2024.01.10.575094
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.01.10.575094.full.pdf
Licença: https://creativecommons.org/publicdomain/zero/1.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.