LEGEND: Um Novo Método para Análise Genética
Apresentando o LEGEND, um método pra analisar a expressão genética em diferentes tipos de células e tecidos.
Xiaobo Sun, T. Deng, M. Huang, K. Xu, Y. Lu, Y. Xu, S. Chen, Q. Tao, N. Xie, H. Wu
― 9 min ler
Índice
- Importância de Identificar Padrões de Expressão Gênica
- Métodos Computacionais para Análise de Expressão Gênica
- Apresentando o LEGEND: Um Novo Método para Análise Gênica
- O Processo de Pré-processamento de Dados
- A Estrutura do LEGEND
- Etapa I: Pseudo-etiquetagem
- Etapa II: Agrupamento de Genes
- Relevância Biológica do LEGEND
- Seleção de Clusters de Genes
- Análise de Enriquecimento
- Análise de Co-função
- Padrões de Expressão Gênica e Relevância Anatômica
- Identificando Interações Gênicas Associadas a Doenças
- Análise de Caminhos Gênicos Conhecidos
- Aumentando a Eficiência do Agrupamento de Genes
- Conclusão
- Fonte original
Sequenciamento de RNA de célula única (scRNA-seq) é um método usado pra ver a atividade dos genes em células individuais. Isso ajuda os cientistas a coletar info detalhada sobre como os genes funcionam em diferentes tipos de células e como esses processos mudam em tecidos complexos e doenças. Mas, uma limitação do scRNA-seq é que ele não diz onde cada célula tá localizada dentro do tecido. Isso dificulta entender como as funções dos genes se relacionam com o ambiente do tecido ao redor.
Pra resolver esse problema, os pesquisadores desenvolveram a transcriptômica espacialmente resolvida (SRT), que permite analisar padrões de expressão gênica no tecido, mantendo um pouco do contexto espacial. A SRT traz novas oportunidades pra examinar como diferentes tipos de células estão distribuídas nos tecidos e como elas interagem entre si. Mesmo assim, as tecnologias atuais de SRT geralmente sacrificam a capacidade de estudar células individuais em detalhes ou cobrir toda a gama de atividade gênica. Isso traz desafios pra identificar com precisão as características de cada célula com base em medições espaciais.
Combinando informações de SRT e scRNA-seq, os pesquisadores podem identificar padrões de expressão gênica de forma mais eficaz. Analisando os dados de expressão gênica espaciais e de célula única juntos, os cientistas conseguem ter uma visão mais aprofundada de como os genes funcionam tanto no nível do tecido quanto no nível da célula individual.
Importância de Identificar Padrões de Expressão Gênica
Identificar padrões de expressão gênica é crucial pra entender como os genes funcionam e interagem em vários processos biológicos, como desenvolvimento celular e organização do tecido. No contexto de scRNA-seq e SRT, os pesquisadores focam em vários tipos principais de padrões de expressão gênica:
Genes Diferencialmente Expressos (DEGs): Esses genes mostram níveis diferentes de expressão entre tipos celulares específicos ou regiões do tecido, ajudando a identificar potenciais biomarcadores específicos pra certas condições.
Genes Variavelmente Expressos: Isso inclui genes altamente variáveis (HVGs) no scRNA-seq, que destacam genes que mudam dramaticamente na expressão entre diferentes tipos de células, e genes espacialmente variáveis (SVGs) na SRT que mostram variação na expressão entre regiões do tecido.
Genes Co-expressos: Esses genes tendem a ser expressos juntos, indicando possíveis relacionamentos funcionais ou caminhos compartilhados.
Entender esses padrões pode revelar como os processos biológicos funcionam e fornecer insights sobre os mecanismos das doenças. Por exemplo, examinar genes co-expressos pode ajudar os cientistas a identificar grupos de genes que estão relacionados e que podem interagir em caminhos específicos, esclarecendo seus papéis nas doenças.
Métodos Computacionais para Análise de Expressão Gênica
Muitos métodos computacionais foram criados pra identificar padrões de expressão gênica em dados de scRNA-seq e SRT. Alguns métodos focam em encontrar genes co-expressos, como scGeneClust, CS-CORE, COTAN para scRNA-seq, e CNN-Preg, Giotto, STUtility e SPARK para SRT. Mas, esses métodos muitas vezes têm limitações.
A maioria dos métodos existentes analisa apenas dados de SRT ou scRNA-seq, o que pode levar à identificação de relações gênicas mais fracas que não consideram toda a complexidade das interações entre diferentes tipos celulares e regiões do tecido.
Muitos métodos de SRT avaliam a expressão gênica em pontos espaciais individuais sem considerar como esses pontos se relacionam entre si no contexto do tecido como um todo.
Por fim, os métodos atuais não utilizam efetivamente os genes co-expressos identificados para aplicações posteriores, como identificar genes com padrões de expressão espacial específicos ou melhorar a eficiência das informações para algoritmos analíticos.
Apresentando o LEGEND: Um Novo Método para Análise Gênica
Pra lidar com essas limitações, apresentamos um novo método chamado LEGEND. Esse método identifica genes co-expressos em tipos celulares e domínios de tecido usando princípios da teoria da informação. O LEGEND avalia como genes relevantes, redundantes e complementares são em conjuntos de dados de SRT e scRNA-seq de forma semi-supervisionada.
Através desse processo, o LEGEND constrói um gráfico que visualiza as relações entre os genes. Com base nesse gráfico, os genes são agrupados em clusters, que representam módulos de genes co-expressos e relacionados funcionalmente. Testamos o LEGEND em conjuntos de dados do cérebro de camundongo adulto e do córtex pré-frontal dorsolateral humano (DLPFC) e descobrimos que os genes dentro do mesmo cluster mostraram padrões de expressão espacial similares.
Em comparação com sete métodos existentes e uma versão adaptada do LEGEND que não utiliza dados de scRNA-seq, o LEGEND demonstrou melhor desempenho em Agrupamento de Genes em termos de co-expressão gênica entre diferentes tipos celulares e coerência espacial entre domínios de tecido. Através de análises adicionais, o LEGEND agrupou efetivamente genes co-funcionais em clusters, alinhando seus padrões de expressão com estruturas anatômicas e conexões de doenças.
O Processo de Pré-processamento de Dados
Pra análise de dados de scRNA-seq e SRT, seguimos um procedimento padrão de pré-processamento de dados. Isso inclui:
Filtrando Genes Indesejados: Excluímos genes que não são informativos, como genes mitocondriais e genes spike-in usados pra calibração.
Excluindo Genes Raramente Detectados: Genes que são detectados em menos de 10 células em conjuntos de dados de scRNA-seq ou em menos de 10 pontos em conjuntos de dados de SRT também são removidos.
Removendo Células de Baixa Qualidade: Filtramos células em conjuntos de dados de scRNA-seq que têm menos de 200 genes detectados pra garantir a qualidade dos dados.
Normalizando e Transformando em Log: Finalmente, normalizamos as contagens de expressão gênica pra levar em conta as diferenças no tamanho das bibliotecas, seguido de uma transformação logarítmica pra estabilizar a variância.
A Estrutura do LEGEND
A estrutura do LEGEND tem duas etapas principais:
Etapa I: Pseudo-etiquetagem
Nessa etapa inicial, o LEGEND gera pseudo-etiquetas pra pontos espaciais dentro dos dados de SRT, ajudando a agrupar pontos similares em domínios espaciais. O objetivo aqui é identificar áreas dentro do tecido onde a atividade gênica é semelhante.
Etapa II: Agrupamento de Genes
A segunda etapa aproveita as pseudo-etiquetas pra avaliar a similaridade e discriminabilidade dos padrões de expressão gênica em termos de relevância, redundância e complementaridade. Essas avaliações são usadas pra construir um gráfico de redundância, permitindo efetivamente o agrupamento de genes co-exprimidos.
Genes que compartilham relações fortes com base nesses critérios são agrupados, representando grupos de genes co-expressos e relacionados funcionalmente.
Relevância Biológica do LEGEND
Pra avaliar a importância biológica dos clusters de genes identificados pelo LEGEND, fizemos um estudo de caso usando conjuntos de dados da gyris temporal média (MTG) de indivíduos saudáveis e pacientes com doença de Alzheimer (AD).
Seleção de Clusters de Genes
Classificamos os clusters de genes com base em sua relevância e selecionamos os melhores pra análise posterior. Isso nos possibilitou comparar grupos de genes de amostras de doença e controle pra entender seu possível envolvimento em processos biológicos.
Análise de Enriquecimento
Pra destacar a relevância biológica dos conjuntos de genes identificados, realizamos uma análise de enriquecimento pra ontologia gênica (GO) e caminhos KEGG pra ver como esses grupos de genes se relacionam a processos biológicos conhecidos. Os resultados mostraram que os genes no grupo da doença eram significativamente mais propensos a estarem associados a processos biológicos relacionados à AD, enquanto o grupo normal tinha mais processos relacionados ao cérebro.
Análise de Co-função
Fizemos uma análise de co-função pra avaliar como os genes dentro de caminhos identificados interagem entre si. A análise revelou que os genes nos grupos da doença e normal mostraram forte coerência funcional, indicando ainda mais a relevância dos clusters de genes identificados.
Padrões de Expressão Gênica e Relevância Anatômica
Investigar padrões de expressão gênica visualmente através de agrupamentos revelou que os clusters identificados pelo LEGEND se alinham com estruturas anatômicas específicas. Por exemplo, vários clusters de genes de conjuntos de dados de AD mostraram padrões de expressão espacial distintos que correspondem a camadas conhecidas do córtex humano. Essa descoberta ressalta a capacidade do LEGEND de conectar a atividade gênica com contextos biológicos específicos.
Identificando Interações Gênicas Associadas a Doenças
Também avaliamos a capacidade do LEGEND de descobrir interações gênicas associadas a doenças, especialmente no contexto da doença de Alzheimer. Analisando mudanças nas redes de interação gênica entre estados saudáveis e doentes, encontramos mudanças notáveis nas interações envolvendo genes associados à AD.
Análise de Caminhos Gênicos Conhecidos
Ao examinar caminhos estabelecidos relacionados à AD, observamos mudanças significativas nas interações gênicas entre caminhos principais, esclarecendo os mecanismos moleculares que contribuem pra a doença.
Aumentando a Eficiência do Agrupamento de Genes
O LEGEND também ajuda a selecionar genes representativos que retêm informações valiosas enquanto reduz a redundância. Usando esses genes selecionados como entrada pra algoritmos de agrupamento, conseguimos melhor precisão em tarefas de agrupamento espacial e de célula única se comparado a métodos existentes.
Conclusão
Em resumo, o LEGEND é uma ferramenta poderosa pra integrar informações de dados de scRNA-seq e SRT pra identificar grupos de genes co-expressos e suas interações. Ele demonstra desempenho superior em agrupamento de genes, revelando insights biologicamente relevantes sobre doenças como a doença de Alzheimer. Esse método não só ajuda a identificar interações gênicas alteradas, mas também melhora a precisão do agrupamento, tornando-se uma abordagem promissora pra futuras pesquisas em análise de expressão gênica.
Título: LEGEND: Identifying Co-expressed Genes in Multimodal Transcriptomic Sequencing Data
Resumo: Identifying co-expressed genes across tissue domains and cell types is essential for revealing co-functional genes involved in biological or pathological processes. While both single-cell RNA-sequencing (scRNA-seq) and spatially-resolved transcriptomic (SRT) data offer insights into gene co-expression patterns, current methods typically utilize either data type alone, potentially diluting the co-functionality signals within co-expressed gene groups. To bridge this gap, we introduce LEGEND, a novel computational method that integrates scRNA-seq and SRT data for identifying groups of co-expressed genes at both cell type and tissue domain levels. LEGEND employs an innovative hierarchical clustering algorithm designed to maximize intra-cluster redundancy and inter-cluster complementarity, effectively capturing more nuanced patterns of gene co-expression and spatial coherence. Enrichment and cofunction analyses further showcase the biological relevance of these gene clusters, and their utilities in exploring context-specific novel gene functions. Notably, LEGEND can reveal shifts in gene-gene interactions under different conditions, furnishing insights for disease-associated gene crosstalk. Moreover, LEGEND can be utilized to enhance the annotation accuracy of both spatial spots in SRT and single-cells in scRNA-seq, and pioneers in identifying genes with designated spatial expression patterns. LEGEND is available at https://github.com/ToryDeng/LEGEND.
Autores: Xiaobo Sun, T. Deng, M. Huang, K. Xu, Y. Lu, Y. Xu, S. Chen, Q. Tao, N. Xie, H. Wu
Última atualização: 2024-10-29 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2024.10.27.620451
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.10.27.620451.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.