Avanços na Detecção de Variação Estrutural Usando Dados Hi-C
O Charm simula mapas Hi-C pra ajudar na pesquisa de variações estruturais.
― 6 min ler
Índice
As Variações Estruturais (SVs) nos genes são importantes para as diferenças que vemos entre as espécies. Elas também estão envolvidas em várias doenças humanas. Os pesquisadores costumam usar cariótipo, um método que analisa o número e a estrutura dos cromossomos, pra encontrar grandes variações estruturais. Mas pode ser difícil identificar mudanças menores com precisão.
Pra contornar esse desafio, os cientistas começaram a usar um método chamado Hi-C, que foi feito inicialmente pra explorar como o DNA é organizado na célula. Esse método agora se mostrou útil pra identificar variações estruturais em mais detalhes. Estudos recentes mostraram que o Hi-C consegue detectar inversões balanceadas em genomas, que são um tipo específico de variação estrutural.
Existem vários programas de computador disponíveis pra ajudar a detectar variações estruturais usando dados de Hi-C. Alguns exemplos são Breakfinder, HiCTrans e ferramentas mais recentes como HiNT e EagleC. À medida que essas ferramentas melhoram, elas precisam de Conjuntos de dados com variações estruturais conhecidas pra validação. No entanto, coletar esses dados por meio de experimentos pode ser bem caro. Por isso, os pesquisadores estão apelando pra simulações de computador como uma forma mais barata de estudar padrões de variações estruturais. Essas simulações podem controlar fatores como o comprimento e o tipo das variações.
Vários algoritmos foram criados pra simular padrões de Hi-C. Ferramentas como Sim3C e FreeHi-C conseguem gerar dados de Hi-C, mas muitas vezes não modelam bem rearranjos específicos. AveSim, outra ferramenta, simula variações com base em padrões de contato de dados de Hi-C de referência, mas perde alguns vieses que podem afetar os resultados. Esses vieses podem mudar como os algoritmos detectam variações estruturais. Portanto, desenvolver ferramentas que simulem esses vieses com precisão poderia ajudar a melhorar os métodos de detecção.
Pra enfrentar esses desafios, apresentamos o Charm, um novo simulador projetado pra mapas Hi-C. O Charm consegue modelar vários aspectos dos dados de Hi-C, incluindo viés de cobertura e padrões de compartimentos no genoma. Isso torna a plataforma útil pra testar e comparar ferramentas projetadas pra detectar variações estruturais, especialmente o novo chamador de SV de Hi-C, EagleC. Além disso, disponibilizamos um conjunto de dados de variações estruturais simuladas que a comunidade científica pode usar pra futuras pesquisas.
Como o Charm Funciona
O Charm simula um mapa Hi-C representando uma variante estrutural em quatro etapas principais. Primeiro, ele calcula estatísticas do mapa Hi-C de referência. Segundo, ele cria mapas de liftover pra combinar coordenadas genômicas entre os genomas de referência e rearranjados. Terceiro, ele calcula as contagens de contato esperadas. Finalmente, ele randomiza os dados pra refletir níveis de ruído realistas.
A primeira etapa envolve calcular várias estatísticas, como o número médio de contatos entre áreas genômicas. O software também analisa como a cobertura varia entre diferentes áreas do genoma, o que é importante pra entender como as variações estruturais impactam as contagens de contato.
Na segunda etapa, o Charm cria mapas de liftover, que ajudam a identificar como as localizações genômicas mudam após um rearranjo. Isso permite que os pesquisadores comparem as contagens de contato corretamente entre o genoma de referência e a versão rearranjada.
A terceira etapa é a computação das contagens de contato, onde o Charm prevê quantos contatos devem ser esperados no genoma rearranjado. Se as contagens de contato forem zero, ele usa métodos alternativos pra estimar esses números com base na cobertura.
Por fim, pra simular ruído nos mapas Hi-C, o Charm utiliza aleatoriedade baseada em uma distribuição estatística. Isso permite que o simulador crie tanto mapas do tipo selvagem quanto rearranjados em diferentes profundidades de sequenciamento.
Validando o Charm
Pra provar que o Charm funciona de forma eficaz, testamos quão bem ele consegue criar simulações que correspondem a dados reais. Usando dados de Hi-C de diferentes tipos de células, geramos pseudo-replicas dos dados do tipo selvagem. As comparações mostraram que os dados Simulados se agrupam de perto com dados experimentais reais, indicando que o Charm consegue reproduzir mapas Hi-C realistas.
Em seguida, focamos em verificar quão precisamente o Charm podia simular variações estruturais específicas. Selecionamos várias variações estruturais que eram bem documentadas e visíveis em mapas Hi-C existentes. Isso incluiu uma deleção, uma inversão e um rearranjo complexo envolvendo múltiplos loci.
Pra cada um desses casos, criamos dois tipos de simulações: uma assumindo a presença da variante estrutural e outra assumindo que a região tinha o genoma de referência. Comparando os mapas simulados com dados reais de Hi-C, conseguimos medir quão bem o Charm capturou as mudanças estruturais.
Os resultados mostraram que as simulações com variantes estruturais mostraram maior semelhança com mapas Hi-C reais do que simulações que assumiam nenhuma variação estrutural. Isso indica que o Charm é capaz de simular com precisão variações estruturais e seu impacto nos dados de Hi-C.
Conjunto de Dados Público de Mapas Hi-C Simulados
Pra avançar a pesquisa nesse campo, criamos e compartilhamos uma coleção pública de mapas Hi-C simulados com várias variantes estruturais. Esse conjunto de dados inclui milhares de modelos representando diferentes tipos de variações estruturais, como translocações, inversões e variações no número de cópias (CNVs). Cada modelo é projetado pra ajudar os pesquisadores a avaliar e melhorar ferramentas pra detectar variações estruturais.
Ao fornecer esse extenso conjunto de dados, a gente pretende apoiar o desenvolvimento contínuo de ferramentas de detecção de SV e métodos de previsão de mapas Hi-C. A variedade no conjunto de dados permite que os pesquisadores testem quão bem diferentes ferramentas performam em uma variedade de cenários, o que é crucial pra melhorar a precisão da análise genética.
Conclusão
As variações estruturais desempenham um papel crucial na diversidade dos genomas e têm implicações significativas pra saúde humana. O desenvolvimento de ferramentas como o Charm oferece novas formas de simular e entender essas variações. Ao modelar com precisão as complexidades dos dados de Hi-C e fornecer um rico conjunto de dados pra benchmarking, podemos aprimorar nossa capacidade de detectar e interpretar variações estruturais em vários contextos.
Esse trabalho é um passo importante pra entender a diversidade genética e sua relação com saúde e doença. À medida que ferramentas e métodos continuam a evoluir, os pesquisadores terão melhores recursos pra estudar os detalhes intrincados dos nossos genomas. As percepções obtidas desse tipo de pesquisa não só contribuirão pro nosso conhecimento fundamental, mas também podem levar a novas estratégias pra diagnosticar e tratar condições genéticas.
Título: Charm is a flexible pipeline to simulate chromosomal rearrangements on Hi-C-like data.
Resumo: Identifying structural variants (SVs) remains a pivotal challenge within genomic studies. The recent advent of chromosome conformation capture (3C) techniques has emerged as a promising avenue for the accurate identification of SVs. However, development and validation of computational methods leveraging 3C data necessitate comprehensive datasets of well-characterized chromosomal rearrangements, which are presently lacking. In this study, we introduce Charm (https://zenodo.org/doi/10.5281/zenodo.10653353): a robust computational framework tailored for Hi-C data simulation. Our findings demonstrate Charms efficacy in benchmarking both novel and established tools for SV detection. Additionally, we furnish an extensive dataset of simulated Hi-C maps, paving the way for subsequent benchmarking endeavors.
Autores: Miroslav Nuriddinov, P. Belokopytova, V. Fishman
Última atualização: 2024-02-15 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2023.11.22.568374
Fonte PDF: https://www.biorxiv.org/content/10.1101/2023.11.22.568374.full.pdf
Licença: https://creativecommons.org/licenses/by-nc/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.