Simple Science

Ciência de ponta explicada de forma simples

# Biologia# Genómica

Comparando Construções do Genoma: GRCh37 vs. GRCh38

Pesquisadores comparam as montagens do genoma GRCh37 e GRCh38, revelando diferenças importantes na detecção de variantes.

Nicholas K. Wang, Nicholas Wiltsie, Helena K. Winata, Sorel Fitz-Gibbon, Alfredo E. Gonzalez, Nicole Zeltser, Raag Agrawal, Jieun Oh, Jaron Arbet, Yash Patel, Takafumi N. Yamaguchi, Paul C. Boutros

― 6 min ler


Insights sobre ComparaçãoInsights sobre Comparaçãode Construções de GenomaGRCh38.detecção de variantes entre GRCh37 eEstudo revela diferenças críticas na
Índice

Em 2001, os cientistas terminaram de montar a primeira versão do genoma humano, que é tipo nosso manual de instruções genético. Desde então, eles acharam e corrigiram milhares de erros, localizaram áreas que variam entre as pessoas e incluíram uma gama mais ampla de indivíduos no estudo. Como resultado, eles criaram várias versões atualizadas ou "construções" desse genoma, mas tem um porém: cada uma dessas construções tem sua própria forma de numerar as seções. Pense nisso como ter diferentes edições de um livro, mas cada edição tem seus próprios números de página.

Embora essas novas construções sejam geralmente mais precisas, fazer todo mundo adotar elas na pesquisa e medicina leva tempo. Um grande motivo para essa mudança lenta é que custa dinheiro e tempo atualizar os sistemas de computador que lidam com esses dados. Quando os pesquisadores querem usar novas construções, muitas vezes precisam realinhar todos os seus dados de sequenciamento, o que significa guardar um monte de dados brutos e rodar alguns cálculos pesados. Para economizar tempo e dinheiro, os cientistas criaram ferramentas para mudar ou "transferir" as coordenadas genômicas de uma construção para outra, parecido com converter uma receita de unidades métricas para imperiais.

No entanto, essas ferramentas úteis foram principalmente projetadas para lidar com pedaços do genoma que são maiores do que mutações individuais. Quando são usadas para transferir variantes únicas de uma construção para outra, erros podem surgir, e nem sempre é claro que tipo de problemas esses erros causam, especialmente para mudanças complexas dentro dos nossos genes.

O Grande Conflito de Variantes: GRCh37 vs. GRCh38

Para resolver isso, os pesquisadores decidiram comparar duas das construções de genoma mais populares: GRCh37 e GRCh38. Eles analisaram DNA de 50 pares de tumores e tecidos normais, usando as mesmas ferramentas e processos. Alinhando os dados de sequenciamento a ambas as construções, eles puderam ver quais variantes foram detectadas em cada uma. Depois disso, converteram as variantes encontradas em GRCh37 para GRCh38 e compararam.

Eles analisaram de perto quatro tipos de mudanças genéticas: variações regulares de nucleotídeo único, Variantes Estruturais, variantes de nucleotídeo único somáticas que ocorrem apenas em tecidos tumorais, e variantes estruturais somáticas.

O Que Eles Encontraram: Variantes Germinativas vs. Somáticas

Quando contaram os resultados, a maioria das mudanças genéticas regulares encontradas eram semelhantes entre as duas construções, com mais de 93% de sobreposição. No entanto, eles ainda descobriram cerca de 166.700 variações específicas em GRCh37 que não apareceram em GRCh38. Para variantes estruturais, os números eram menores, com cerca de 900 mudanças únicas por indivíduo. Analisando os dados alinhados a GRCh38, os pesquisadores perceberam que estavam identificando mais dessas variantes do que em GRCh37.

Para variantes somáticas, as coisas ficaram um pouco mais complicadas. Apenas cerca de 82% das variantes de nucleotídeo único e 53% das variantes estruturais apareceram em ambas as construções, levando a muitas discrepâncias. Em média, os pesquisadores encontraram mais de 3.600 variantes somáticas únicas em GRCh37 que não puderam ser pareadas em GRCh38, enquanto GRCh38 revelou mais dessas mudanças no geral.

O Mistério da Discordância

Para investigar mais a fundo, os pesquisadores calcularam com que frequência os chamados genéticos de cada construção discordavam entre si. Eles examinaram três medidas diferentes de precisão e descobriram que as discordâncias para variantes genéticas regulares eram muito menores do que para as somáticas. Por exemplo, apenas cerca de 3,8% das variantes regulares de nucleotídeo único mostraram discordância, enquanto a taxa de discordância para variantes somáticas de nucleotídeo único disparou para quase 26%.

Essa suposta discrepância indica que se os pesquisadores se apegarem a GRCh37 para suas análises, eles podem estar perdendo mutações somáticas cruciais-um pouco como tentar encontrar o Waldo na edição errada de "Onde Está o Waldo?". Os pesquisadores também notaram que diferentes tipos de variantes estruturais tinham níveis variados de discordância. Por exemplo, deleções e inserções estavam frequentemente em concordância, enquanto duplicações geravam confusão.

Variabilidade no Genoma

Os pesquisadores também verificaram se as discordâncias estavam espaçadas aleatoriamente no genoma. Eles descobriram que algumas áreas eram definitivamente mais problemáticas do que outras. Uma seção do genoma, em particular, tinha muita variabilidade, com 16.784 mudanças genéticas, mas também uma alta taxa de discordância.

Outros fatores aumentaram a complexidade de entender esses resultados. Por exemplo, discrepâncias em variantes de nucleotídeo único somáticas tendiam a estar ligadas a pontuações de qualidade mais baixas, mas com maior conteúdo de GC. Os pesquisadores também notaram que o nível de cobertura, que indica quantas vezes uma parte específica do genoma foi sequenciada, influenciava essas discordâncias.

Falsos Positivos e Validação

A maioria das diferenças detectadas poderia provavelmente ser explicada por erros nos processos de detecção de variantes. Usando sequenciamento profundo direcionado, os pesquisadores tentaram validar suas descobertas. Eles descobriram que variantes confirmadas como precisas tinham uma taxa de validação de mais de 93%. No entanto, encontraram que muitas das variantes únicas de cada construção tinham mais chances de serem falsos positivos, com cerca de 34,6% das variantes específicas de GRCh37 e 51,3% das variantes específicas de GRCh38 sendo validadas.

Apresentando o StableLift: Uma Nova Ferramenta

À luz de todas essas descobertas, os cientistas apresentaram uma nova ferramenta chamada StableLift. Essa abordagem de aprendizado de máquina usa muitos recursos de dados para calcular a probabilidade de que qualquer variante específica apareça em diferentes construções do genoma. Os pesquisadores treinaram o StableLift com dados dos mesmos 50 pares de tumores-normais e depois validaram em outros conjuntos de dados.

O StableLift teve um bom desempenho, especialmente com variantes regulares de nucleotídeo único, mostrando um alto nível de precisão. Ele conseguiu descartar muitas das chamadas de variantes problemáticas, tornando as análises mais limpas e confiáveis. Os pesquisadores também aplicaram o StableLift a variantes estruturais e encontraram resultados igualmente impressionantes.

Conclusão: Um Aviso para Cautela

Esse estudo lança luz importante sobre como os pesquisadores lidam com dados entre diferentes construções de genoma. Embora seja mais fácil simplesmente usar a construção de genoma mais recente, muitos ainda usam a mais antiga GRCh37, às vezes levando a conclusões enganosas.

À medida que o campo genético continua a evoluir, passando de referências genômicas lineares para modelos mais complexos, gerenciar discrepâncias se tornará ainda mais crucial. Com ferramentas como o StableLift, os pesquisadores podem navegar melhor por esses desafios, reduzindo erros e entendendo as variações genéticas no nosso manual de instruções biológico.

Então, da próxima vez que alguém mencionar o genoma humano, lembre-se: é muito parecido com cozinhar. Você precisa da receita certa, dos ingredientes certos e, às vezes, precisa saber qual edição do livro de receitas você está usando!

Fonte original

Título: StableLift: Optimized Germline and Somatic Variant Detection Across Genome Builds

Resumo: Reference genomes are foundational to modern genomics. Our growing understanding of genome structure leads to continual improvements in reference genomes and new genome "builds" with incompatible coordinate systems. We quantified the impact of genome build on germline and somatic variant calling by analyzing tumour-normal whole-genome pairs against the two most widely used human genome builds. The average individual had a build-discordance of 3.8% for germline SNPs, 8.6% for germline SVs, 25.9% for somatic SNVs and 49.6% for somatic SVs. Build-discordant variants are not simply false-positives: 47% were verified by targeted resequencing. Build-discordant variants were associated with specific genomic and technical features in variant- and algorithm-specific patterns. We leveraged these patterns to create StableLift, an algorithm that predicts cross-build stability with AUROCs of 0.934 {+/-} 0.029. These results call for significant caution in cross-build analyses and for use of StableLift as a computationally efficient solution to mitigate inter-build artifacts.

Autores: Nicholas K. Wang, Nicholas Wiltsie, Helena K. Winata, Sorel Fitz-Gibbon, Alfredo E. Gonzalez, Nicole Zeltser, Raag Agrawal, Jieun Oh, Jaron Arbet, Yash Patel, Takafumi N. Yamaguchi, Paul C. Boutros

Última atualização: 2024-11-03 00:00:00

Idioma: English

Fonte URL: https://www.biorxiv.org/content/10.1101/2024.10.31.621401

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.10.31.621401.full.pdf

Licença: https://creativecommons.org/licenses/by-nc/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes