Simple Science

Ciência de ponta explicada de forma simples

# Biologia# Bioinformática

Avançando a Análise de CNVs Raros em Genética

Uma nova ferramenta melhora o estudo de CNVs raros na pesquisa sobre saúde.

― 7 min ler


Nova Ferramenta para CNVsNova Ferramenta para CNVsRarasestudos de saúde.Análise simplificada de CNVs raros em
Índice

A variação no número de cópias (CNV) se refere a mudanças no número de cópias de uma seção específica do DNA. Essas mudanças podem envolver a deleção ou duplicação de partes dos cromossomos que são maiores que 1.000 pares de bases. Os CNVs são importantes porque contribuem para as diferenças genéticas entre indivíduos e têm um papel em várias questões de saúde complexas, incluindo problemas de saúde mental, transtornos do desenvolvimento e diferentes tipos de câncer.

Alguns CNVs grandes, que têm mais de 1.000 quilobases de tamanho, estão associados a condições de saúde raras e podem também estar envolvidos em doenças poligênicas mais comuns. Métodos de alta tecnologia, conhecidos como arranjos de polimorfismo de nucleotídeo único (SNP), permitem que pesquisadores estudem essas variações em todo o genoma.

A Importância de Estudar CNV

Muitos pesquisadores analisaram CNVs raros usando técnicas especializadas, como genotipagem baseada em micro-arranjos, que fornecem informações detalhadas sobre variações genéticas. Esses estudos geralmente exigem uma série de passos complexos, incluindo análise de dados, seleção do software certo, ajuste de parâmetros e documentação dos processos. Resultados bem-sucedidos dependem muito da automação e do registro meticuloso.

Embora métodos básicos tenham sido sugeridos para identificar CNVs e realizar testes de associação, uma abordagem bioinformática amigável e abrangente ainda não está amplamente disponível.

Etapas para Analisar CNVs Raros

Ao conduzir um estudo comparando diferentes condições de saúde (conhecido como estudo caso-controle) focando em CNVs raros, existem várias etapas-chave envolvidas:

  1. Detecção de CNV: Identificando os CNVs presentes nas amostras.
  2. Controle de Qualidade: Garantindo que os dados sejam precisos e utilizáveis.
  3. Análise de carga: Avaliando o impacto dos CNVs na saúde.
  4. Análise de Enriquecimento de Conjuntos de Genes: Entendendo como os CNVs afetam conjuntos específicos de genes.

Tecnologias modernas de genotipagem fornecem os dados necessários para detectar CNVs. Ferramentas como PennCNV e Plink são frequentemente usadas nessas análises, focando tanto em chamadas individuais de CNVs quanto em variantes raras.

No entanto, até agora, não houve um sistema bioinformático estruturado e flexível disponível para realizar análise de CNVs raros.

Apresentando o Pipeline de Análise de CNV Raro

Este trabalho propõe uma solução bioinformática simples projetada para identificar CNVs raros em estudos caso-controle. O principal objetivo é criar uma ferramenta que permita aos usuários realizar uma análise de CNV raro usando dados de Arranjos SNP de vários estudos.

Para alcançar isso, planejamos usar um motor de fluxo de trabalho chamado Snakemake. Esse sistema permite que os pesquisadores construam um pipeline robusto para analisar CNVs raros. O código utilizado é modular, o que significa que os usuários podem ajustar partes dele de acordo com suas necessidades específicas. Se arquivos de entrada estiverem faltando ou ocorrerem erros durante a execução, o pipeline irá automaticamente excluir quaisquer arquivos de saída parcialmente criados para evitar confusão.

A estrutura modular permite automação, ao mesmo tempo em que permanece personalizável; os usuários podem modificar configurações, ferramentas de software ou até adicionar seu próprio código. O pipeline também gera arquivos de configuração e logs, além de plots diagnósticos usando programação em R.

Todo o projeto é open source e está disponível sob uma licença MIT permissiva, o que significa que pode ser usado livremente por qualquer pessoa que queira trabalhar com ele.

Como o Pipeline Funciona

Etapas Iniciais: Detecção de CNV e Controle de Qualidade

O pipeline começa detectando CNVs e realizando controle de qualidade. Ele pega dados de entrada de arranjos SNP, que contêm informações sobre os valores de intensidade do sinal associados a todos os marcadores em todas as amostras. A ferramenta PennCNV vem com diretrizes para preparar esses arquivos de intensidade derivados de várias tecnologias de arranjos.

O pipeline processa esses dados de intensidade do sinal para produzir arquivos individuais para cada amostra que são então usados no processo de chamada de CNV. Como parte dessa etapa, outros arquivos essenciais para a detecção precisa de CNV, como frequência populacional do alelo B e arquivos GCModel, também são criados.

Depois que os CNVs são detectados, o pipeline exclui amostras de baixa qualidade com base em métricas padrão relacionadas à qualidade de genotipagem. Ele também remove chamadas detectadas em regiões do genoma que são particularmente desafiadoras para avaliação, garantindo que apenas dados confiáveis sejam mantidos para análise posterior.

Analisando CNVs Raros

Uma vez que a etapa de controle de qualidade é concluída, a próxima fase é analisar os CNVs raros. As chamadas geradas anteriormente são convertidas em um formato adequado para processamento posterior no Plink. Neste estágio, apenas indivíduos não relacionados são mantidos para evitar possíveis efeitos de confusão.

A análise inclui filtrar CNVs menores, mantendo apenas aqueles maiores que 50 quilobases que são suportados por mais de cinco sondas. O pipeline então realiza uma análise de carga global, que compara o número de CNVs entre os grupos caso e controle em várias métricas.

Após a análise de carga, deleções e duplicações raras são identificadas, removendo variantes comuns com base em limiares pré-definidos. Isso ajuda a isolar os CNVs raros para uma avaliação mais detalhada.

Teste de Enriquecimento de Conjunto de Genes

A última etapa da análise usa o método de enriquecimento de conjuntos de genes do Plink para comparar quantos CNVs impactam conjuntos específicos de genes entre os casos e controles. Essa abordagem ajuda a avaliar se certos genes ou vias estão enriquecidos entre os CNVs encontrados no grupo caso em comparação com os controles.

Dois testes são incluídos por padrão: um avalia o enriquecimento geral de genes associados a CNVs, enquanto o segundo se concentra em vias específicas de genes. Ambos os testes dependem de testes de permutação para gerar valores estatísticos que fornecem insights sobre se há uma diferença significativa entre os grupos.

Registro e Desempenho

O pipeline cria automaticamente arquivos de log durante as etapas de controle de qualidade e análise de CNVs raros. Esses logs detalham informações importantes, como o número de amostras incluídas ou excluídas em cada etapa. Esse recurso facilita a compilação de relatórios que resumem as descobertas gerais da análise.

O pipeline foi projetado para executar tarefas de forma sequencial, mas também pode identificar quais partes do fluxo de trabalho podem ser executadas concorrentemente, reduzindo assim o tempo total de execução. Por exemplo, processar 6.112 amostras com mais de 700.000 marcadores levou cerca de 72 horas para controle de qualidade e cerca de 21,5 minutos para análise de CNVs raros.

Conclusão

Este trabalho apresenta um pipeline bioinformático automatizado e adaptável com o objetivo de melhorar a análise de CNVs raros em estudos caso-controle. Dada a rápida evolução das tecnologias de genotipagem, gerenciar grandes conjuntos de dados enquanto se realizam análises complexas é necessário para a pesquisa moderna.

Ao oferecer uma abordagem simplificada, o pipeline permite que os pesquisadores se concentrem nas descobertas em vez de se perderem em detalhes técnicos. Os princípios de design promovem a reutilização, tornando-o aplicável a uma ampla gama de tarefas bioinformáticas além da análise de CNVs raros.

Disponibilidade

O Pipeline de Análise de CNVs Raros está acessível para uso em vários sistemas operacionais, incluindo Linux e MacOS. Ele é construído usando R, Shell Scripting e Python, e está disponível sob uma licença MIT, permitindo uso gratuito sem restrições para fins acadêmicos e não acadêmicos.

Fonte original

Título: Rare Copy Number Variant analysis in case-control studies using SNP Array Data: a scalable and automated data analysis pipeline

Resumo: BackgroundRare copy number variants (CNVs) significantly influence the human genome and may contribute to disease susceptibility. High-throughput SNP genotyping platforms provide data that can be used for CNV detection, but it requires the complex pipelining of bioinformatic tools. Here, we propose a flexible bioinformatic pipeline for rare CNV analysis from human SNP array data. ResultsThe pipeline performs two major tasks: (1) CNV detection and quality control, and (2) rare CNV analysis. It is implemented in Snakemake following a rule-based structure that enables automation and scalability while maintaining flexibility. ConclusionsOur pipeline automates the detection and analysis of rare CNVs. It implements a rigorous CNV quality control, assesses the frequencies of these rare CNVs in patients versus controls, and evaluates the impact of CNVs on specific genes or pathways. We hence aim to provide an efficient yet flexible bioinformatic framework to investigate rare CNVs in biomedical research.

Autores: Stefan Johansson, H. Artaza, K. Lavrichenko, A. S. B. Wolff, E. C. Royrvik, M. Vaudel

Última atualização: 2024-03-14 00:00:00

Idioma: English

Fonte URL: https://www.biorxiv.org/content/10.1101/2024.03.13.584428

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.03.13.584428.full.pdf

Licença: https://creativecommons.org/licenses/by-nc/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes