Simple Science

Ciência de ponta explicada de forma simples

# Biologia# Genómica

Entendendo a Variação do Número de Cópias em Genomas Humanos

Estudo revela variações de cópias de genes e seus impactos na saúde.

Mark Chaisson, W. Ma

― 8 min ler


Insights sobre Cópias deInsights sobre Cópias deGenes Reveladosgenéticas que afetam a saúde.Nova metodologia revela variações
Índice

Os genomas humanos costumam mostrar mudanças no número de cópias de certos genes. Essas mudanças podem acontecer de duas maneiras principais: duplicações, onde cópias extras de um gene são criadas, e deleções, onde cópias são perdidas. Juntas, essas mudanças são conhecidas como Variação no Número de Cópias (CNV). Até 10% dos genes codificadores de proteínas no genoma humano podem variar em seu número de cópias. Essa variação pode ser diferente de uma população para outra e pode afetar várias características, como índice de massa corporal, e doenças como câncer e problemas cardíacos.

Embora as CNVs estejam espalhadas pelo genoma, certas áreas com sequências repetidas, conhecidas como duplicações segmentares, têm mais chances de contribuir para essas variações. Essas mudanças frequentes nas Cópias de Genes levam a diferentes famílias ou grupos de genes relacionados. Os processos que causam CNVs também podem aumentar o risco de mutações nessas áreas gênicas. Isso pode levar a diferenças em como os genes funcionam, o que pode afetar a saúde de uma pessoa ou seu risco de desenvolver certas doenças, como pressão alta ou diabetes tipo 2. Curiosamente, muitos dos genes que mostram CNVs são específicos dos humanos e estão intimamente ligados às funções cerebrais.

No entanto, ainda há informações limitadas sobre variações em duplicatas de genes que não correspondem ao padrão de referência, especialmente ao usar métodos de sequenciamento específicos que analisam o DNA. A maioria das ferramentas atuais usadas para identificar CNVs foca principalmente em contar quantas cópias existem, em vez de examinar as diferenças genéticas reais. Além disso, alinhar os dados sequenciados a um genoma de referência pode introduzir erros e preconceitos.

Avanços recentes em tecnologia de sequenciamento que captura moléculas únicas de DNA tornaram possível criar catálogos detalhados de sequências gênicas de populações diversas. Esses novos métodos ajudam a identificar melhor as CNVs, mas ainda podem ser desafiadores devido à complexidade da informação genética, especialmente à medida que diferentes populações evoluem ao longo do tempo.

Para enfrentar esses desafios, um novo método chamado ctyper foi desenvolvido. Esse método ajuda a analisar o número de cópias de genes usando um grande banco de dados de sequências gênicas oriundas de vários projetos de genoma. Assim, ctyper evita os preconceitos que frequentemente vêm da comparação com um único genoma de referência e pode revelar diferenças que poderiam ser perdidas em outras análises. Graças ao ctyper, os pesquisadores agora podem estudar grandes conjuntos de dados genéticos de forma mais eficaz, o que é especialmente útil para biobancos que coletam informações genéticas de grandes populações.

Alelos de Pangenoma: Uma Nova Maneira de Categorizar Genes

Ao lidarem com genes que mostram CNVs, os pesquisadores têm trabalhado para categorizá-los em grupos conhecidos como alelos de pangenoma. Isso envolve olhar para várias sequências de genes em diferentes indivíduos e identificar características compartilhadas. Com a ajuda de diferentes montagens de genoma, essas sequências são organizadas em alelos de pangenoma (PAs), que representam segmentos de genes que contêm variações. Cada PA pode incluir o gene completo e seus elementos próximos ou pode ser pedaços menores que são menos propensos a mudar devido à recombinação.

No processo de criar um banco de dados para esses PAs, os pesquisadores identificaram milhares deles. O tamanho desses PAs pode variar, mas a maioria é composta de genes completos. Os pesquisadores então analisam esses PAs para ver como eles diferem dentro e entre categorias de genes, o que ajuda a entender como essas variações podem afetar a saúde de um indivíduo.

Para analisar amostras genéticas, o ctyper conta as partes únicas desses PAs na amostra de DNA e depois estima quantas cópias e variações estão presentes. Essa abordagem oferece uma maneira sofisticada de genotipar genes relacionados a certas características ou doenças, permitindo uma representação mais clara da composição genética de um indivíduo.

Como o Ctyper Funciona

Usar o ctyper envolve várias etapas. Primeiro, os pesquisadores coletam informações genéticas de grandes bancos de dados que incluem uma ampla gama de montagens de genes. Comparando esses dados, eles podem identificar padrões nos números de cópias de genes. O método ctyper processa essas informações para gerar um mapa detalhado das cópias de genes presentes em qualquer amostra dada.

Para garantir precisão, o ctyper foi testado em diversos conjuntos de dados, incluindo o Projeto 1000 Genomas, que inclui dados de milhares de indivíduos. O método foca em verificar o equilíbrio das cópias de genes e combiná-las com sequências conhecidas. Esse processo também ajuda a reduzir erros que podem surgir durante o manuseio de dados, especialmente em regiões do genoma onde as sequências de genes são repetidas.

Em testes práticos, o ctyper mostrou alta precisão. Muitos genótipos corresponderam de perto com dados genéticos existentes, demonstrando que pode identificar efetivamente variações nas cópias de genes. A abordagem também permite que os pesquisadores analisem grandes coleções de dados em um tempo razoável, tornando-a adequada para pesquisas focadas em saúde e doença.

Tendências e Diversidade Populacional em Variações Gênicas

Ao estudar como essas variações gênicas aparecem em diferentes populações, os pesquisadores usaram técnicas como análise de componentes principais (PCA). Essa análise ajuda a visualizar como diferentes populações estão geneticamente relacionadas com base em seus números de cópias de genes. Muitas vezes, mostra agrupamentos que se alinham com antecedentes geográficos ou étnicos, indicando como fatores históricos e ambientais moldam a diversidade genética.

Os dados revelaram que certas populações, especialmente na África, tendem a ter um número maior de cópias de genes, o que pode estar relacionado a preferências dietéticas históricas ou outros fatores de estilo de vida. Por exemplo, variações em genes associados à amilase, uma enzima ligada à digestão de carboidratos, demonstram diferenças significativas entre diferentes grupos.

Insights sobre Expressão Gênica e Impacto

Olhando além dos números de cópias, entender como essas variações influenciam a expressão gênica é essencial. A expressão gênica pode mudar com base no número de cópias de genes presentes, e os variantes específicos podem ter efeitos diferentes. Por exemplo, estudos mostraram que algumas cópias de genes podem levar a níveis de expressão mais altos, enquanto outras podem resultar em função reduzida.

A pesquisa se concentrou em genes específicos, como os genes SMN, que são importantes em certas doenças como a atrofia muscular espinhal. Analisando os níveis de expressão em relação ao número de cópias de genes, os cientistas podem identificar quais variações gênicas podem levar à suscetibilidade ou resistência a doenças.

De maneira semelhante, a análise do gene para amilase mostrou que sua expressão pode ser afetada pela presença de genes próximos. Essa descoberta pode ajudar a explicar por que certas populações podem processar carboidratos de maneira diferente e pode levar a vantagens nutricionais em ambientes específicos.

Desafios e Direções Futuras

Embora tenha havido um progresso significativo na compreensão das CNVs usando ctyper, ainda há desafios a serem superados. Por um lado, métodos adicionais são necessários para apoiar totalmente a detecção de variações muito pequenas. As ferramentas atuais também não fornecem pontuações de confiança para os números de cópias de genes identificados, deixando algumas questões sobre a precisão sem resposta.

A complexidade de analisar dados genéticos de alta dimensão também pode dificultar a interpretação. À medida que novos genomas de referência de alta qualidade se tornam disponíveis, o uso de métodos como o ctyper provavelmente se tornará cada vez mais valioso para pesquisadores que buscam conectar variações genéticas com características e condições.

Em resumo, entender a variação no número de cópias é crucial na genética, pois desempenha um papel significativo na saúde e na doença humana. Com os avanços nas tecnologias de sequenciamento e novos métodos como o ctyper, os pesquisadores estão mais bem equipados para analisar os detalhes intrincados de como essas variações influenciam características individuais em diferentes populações. Essa pesquisa contínua promete aumentar nossa compreensão da genética e seu impacto na saúde.

Fonte original

Título: Genotyping sequence-resolved copy-number variation using pangenomes reveals paralog-specific global diversity and expression divergence of duplicated genes

Resumo: Copy-number variable (CNV) genes are important in evolution and disease, yet sequence variation in CNV genes is a blindspot for large-scale studies. We present a method, ctyper, that leverages pangenomes to produce copy-number maps with allele-specific sequences containing locally phased variants of CNV genes from NGS reads. We extensively characterized accuracy and efficiency on a database of 3,351 CNV genes including HLA, SMN, and CYP2D6 as well as 212 non-CNV medically-relevant challenging genes. The genotypes capture 96.5% of underlying variants in new genomes, requiring 0.9 seconds per gene. Expression analysis of ctyper genotypes explains more variance than known eQTL variants. Comparing allele-specific expression quantified divergent expression on 7.94% of paralogs and tissue-specific biases on 4.7% of paralogs. We found reduced expression of SMN-1 converted from SMN-2, which potentially affects diagnosis of spinal muscular atrophy, and increased expression of a duplicative translocation of AMY2B. Overall, ctyper enables biobank-scale genotyping of CNV and challenging genes.

Autores: Mark Chaisson, W. Ma

Última atualização: 2024-10-24 00:00:00

Idioma: English

Fonte URL: https://www.biorxiv.org/content/10.1101/2024.08.11.607269

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.08.11.607269.full.pdf

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes