Simple Science

Ciência de ponta explicada de forma simples

# Biologia # Bioinformática

Novos Padrões em Pesquisa Genética: Uma Grande Avanço em Mutação Somática

Pesquisadores desenvolvem um novo padrão para estudar mutações somáticas de baixa frequência na genética.

Camille A. Daniels, Adetola Abdulkadir, Megan H. Cleveland, Jennifer H. McDaniel, David Jáspez, Luis Alberto Rubio-Rodríguez, Adrián Muñoz-Barrera, José Miguel Lorenzo-Salazar, Carlos Flores, Byunggil Yoo, Sayed Mohammad Ebrahim Sahraeian, Yina Wang, Massimiliano Rossi, Arun Visvanath, Lisa Murray, Wei-Ting Chen, Severine Catreux, James Han, Rami Mehio, Gavin Parnaby, Andrew Carroll, Pi-Chuan Chang, Kishwar Shafin, Daniel Cook, Alexey Kolesnikov, Lucas Brambrink, Mohammed Faizal Eeman Mootor, Yash Patel, Takafumi N. Yamaguchi, Paul C. Boutros, Karolina Sienkiewicz, Jonathan Foox, Christopher E. Mason, Bryan R. Lajoie, Carlos A. Ruiz-Perez, Semyon Kruglyak, Justin M. Zook, Nathan D. Olson

― 10 min ler


Avaliação de Variantes Avaliação de Variantes Genéticas variações genéticas. Novos padrões melhoram o estudo das
Índice

No estudo dos genomas humanos, os cientistas procuram variações que podem revelar informações importantes sobre saúde e doenças. Essas variações podem ser divididas em dois tipos: Variantes Germinativas e mutações somáticas. As variantes germinativas são herdadas dos pais, enquanto as mutações somáticas acontecem após a concepção e não são transmitidas para a próxima geração. Pense nas variantes germinativas como heranças familiares, enquanto as mutações somáticas são mais como presentes surpresa que aparecem de repente.

As variantes germinativas podem ser heterozigotas ou homozigotas. Quando uma pessoa tem duas cópias diferentes de um gene (uma de cada pai), isso é chamado de heterozigoto. Se ambas as cópias são iguais, é chamado de homozigoto. Os pesquisadores geralmente se concentram em variantes que estão presentes em pelo menos 50% ou 100% das células para essas duas categorias. No entanto, às vezes, variações podem ocorrer em uma fração menor de células, o que pode torná-las mais difíceis de detectar. Isso pode acontecer devido a um fenômeno chamado mosaicismo somático, onde algumas células em um indivíduo têm uma composição genética diferente.

As mutações somáticas se tornaram um assunto quente na pesquisa porque podem levar a problemas de saúde sérios, como câncer ou outras doenças. Enquanto algumas dessas mutações podem não causar nenhum dano, outras podem resultar em crescimento celular descontrolado. Os pesquisadores querem identificar e entender melhor essas mutações para melhorar o diagnóstico e o tratamento de várias condições.

A Iniciativa dos Institutos Nacionais de Saúde

Um esforço notável foi feito pelos Institutos Nacionais de Saúde (NIH) para estudar essas mutações somáticas através de um programa chamado Mosaicismo Somático em Tecidos Humanos (SMaHT). Esta iniciativa tem como objetivo criar um recurso para cientistas estudarem essas variantes de baixa frequência, coletando dados de tecidos saudáveis. Ao estabelecer um repositório de variantes mosaicas, os pesquisadores podem acessar essas informações para analisar o papel das mutações somáticas nas doenças e na saúde em geral.

Para enfrentar os desafios da identificação dessas variações difíceis, os cientistas desenvolveram vários métodos projetados especificamente para a chamada de variantes de baixa frequência. Então, em vez de se limitar às variações fáceis de encontrar, os pesquisadores estão agora olhando mais a fundo na composição genética dos indivíduos para encontrar pérolas escondidas.

A Confusão em Torno do Projeto Genome in a Bottle

Um dos recursos significativos nesta área de pesquisa é o projeto Genome in a Bottle (GIAB), que fornece materiais de referência para sequenciamento genético. O programa produziu uma coleção de genomas de referência de linhas celulares linfoblastoides humanas, que são frequentemente usadas para comparar e validar métodos de análise genética.

Em seu trabalho, os cientistas se concentram em variações que têm uma porcentagem menor de ocorrência nas células, geralmente abaixo de 30%. Os benchmarks padrão enfatizam principalmente variantes que são facilmente detectáveis, o que pode deixar de lado as variações mais sutis, mas importantes, que podem fornecer insights adicionais sobre condições de saúde.

A Necessidade de Benchmarks

Para avançar no conhecimento e nos métodos relacionados às mutações somáticas, os pesquisadores estão constantemente em busca de benchmarks. Esses benchmarks são conjuntos de variações conhecidas que os pesquisadores podem usar para confirmar suas descobertas ao analisar novas amostras. Pense nisso como um livro de receitas para cientistas – eles querem saber quais ingredientes (ou variantes) são essenciais para o prato (ou entendimento) que estão tentando criar.

Benchmarks previamente estabelecidos se concentraram em variantes de alta confiança e detalhes estruturalmente significativos, mas houve uma lacuna quando se trata de variantes de baixa frequência. Os novos benchmarks propostos vão ajudar os cientistas a avaliar a precisão de seus métodos e fornecer um sistema para identificar verdadeiros positivos (variantes corretamente identificadas) e falsos negativos (variantes perdidas).

O Conjunto de Benchmarks Mosaicos

Para preencher essa lacuna, os pesquisadores criaram um novo conjunto de benchmarks focando em variantes mosaicas, especificamente de um indivíduo bem caracterizado da coleção de materiais de referência do GIAB. O benchmark consiste em variantes de nucleotídeo único (SNVs) cuidadosamente selecionadas que caem dentro de uma faixa de fração de alelos variantes (VAF) de 5% a 30%. A equipe usou um processo complexo envolvendo dados de sequenciamento de alta cobertura tanto do indivíduo quanto dos pais para identificar potenciais variantes mosaicas que existem no genoma do indivíduo.

A coleção de variantes mosaicas pode servir a múltiplos propósitos. Por exemplo, elas podem ajudar a refinar métodos para detectar mutações somáticas e fornecer uma referência para distinguir entre verdadeiras e falsas variantes na pesquisa. Esse recurso será inestimável para a comunidade científica à medida que buscam entender como essas variações genéticas sutis contribuem para a saúde e a doença.

A Aventura de Chamar Variantes

No mundo do teste genético, a chamada de variantes é como uma caça ao tesouro onde os pesquisadores vasculham montanhas de dados para encontrar preciosidades de informação. O processo de caça envolve várias ferramentas e técnicas para detectar a presença de variantes específicas nos dados genéticos. No entanto, quando se trata de variantes de baixa frequência, as ferramentas devem ser ajustadas para pegar os detalhes que são facilmente perdidos.

Os pesquisadores costumam empregar diferentes tecnologias de sequenciamento para olhar as mesmas amostras, o que ajuda a fornecer uma visão mais abrangente do que está acontecendo no genoma. Ao analisar dados de diferentes plataformas e comparar resultados, eles podem alcançar um nível mais alto de confiança em suas descobertas.

Técnicas em Uso

Ao criar o benchmark mosaico, os pesquisadores usaram uma abordagem baseada em trio, que envolve examinar os dados genéticos de uma criança e ambos os pais. Isso ajuda a distinguir entre mutações herdadas e somáticas. Os pesquisadores usaram uma ferramenta chamada Strelka2 para sua análise, que é projetada para chamar variantes somáticas a partir de dados de sequenciamento.

Eles tomaram cuidado para validar suas descobertas usando vários métodos de sequenciamento e garantindo que as variantes identificadas pudessem ser suportadas por dados independentes. Dessa forma, podem ter mais confiança sobre a legitimidade de seus benchmarks mosaicos e a precisão de sua chamada de variantes.

A Importância da Alta Cobertura

Um aspecto vital de gerar dados confiáveis é garantir que a cobertura de sequenciamento seja alta. Alta cobertura significa que cada parte do genoma é lida muitas vezes, o que aumenta a probabilidade de detectar variantes reais e filtrar o ruído. Os pesquisadores usaram esses dados de alta cobertura para criar uma lista de potenciais variantes mosaicas que estão dentro do intervalo desejado de VAF.

Em suas descobertas, identificaram um número substancial de potenciais variantes mosaicas. Dessa pool maior, eles se concentraram nos candidatos mais promissores para inclusão em seu material de referência benchmark. Ao curar manualmente essas variantes e confirmar sua presença em várias fontes de dados, eles refinam seu benchmark mosaico final.

Os Resultados

O conjunto final de benchmarks mosaicos inclui 85 SNVs validados, cada um cuidadosamente selecionado por suas características específicas e potencial relevância na pesquisa. Essas variantes cobrem uma grande parte do genoma e incluem regiões que costumam ser desafiadoras de estudar devido à sua complexidade.

Enquanto algumas dessas variantes estão em genes clinicamente relevantes, outras apresentam oportunidades para uma compreensão mais profunda dos impactos mais sutis na saúde. Com o benchmark mosaico em vigor, os pesquisadores podem avaliar de forma confiável seus métodos de chamada de variantes e aprofundar a pesquisa sobre como variantes mosaicas contribuem para várias condições.

O Desafio dos Efeitos de Lote

Uma descoberta interessante nesta pesquisa é que os efeitos de lote podem influenciar os resultados das análises genéticas. Ao comparar diferentes lotes de DNA, os pesquisadores encontraram variações nos perfis de VAF, sugerindo que diferenças na maneira como as amostras são processadas podem afetar o resultado da identificação de variantes.

Essa descoberta destaca a importância de usar materiais de referência bem caracterizados, pois eles fornecem uma linha de base estável para comparação. Os pesquisadores querem garantir que os dados que analisam reflitam variações biológicas reais, em vez de serem influenciados pela forma como a amostra foi preparada ou processada.

Feedback da Validação Externa

Para garantir a confiabilidade do benchmark mosaico, os pesquisadores entraram em contato com outros grupos que trabalham na chamada de variantes somáticas. Esse processo de validação externa envolveu comparar suas descobertas com a versão preliminar do benchmark mosaico. Ao coletar feedback e avaliar diferenças, eles puderam refinar ainda mais seus métodos.

Os resultados dessas avaliações confirmaram que o conjunto de benchmarks identifica de maneira confiável falsos positivos e negativos através de diferentes métodos de chamada de variantes. Essa camada adicional de validação fortalece a confiança que os pesquisadores podem ter ao usar o benchmark mosaico para futuros estudos.

Direções Futuras

Com a criação do benchmark mosaico, os pesquisadores agora podem olhar para novas possibilidades no estudo das mutações somáticas. O benchmark fornece um recurso robusto para investigar variantes de baixa frequência em vários contextos, desde pesquisa sobre câncer até compreensão de doenças complexas.

Os cientistas são incentivados a usar esse benchmark para avaliar seus próprios métodos, identificar possíveis erros na chamada de variantes e aprimorar sua compreensão do mosaicismo somático. Ao aproveitar os benchmarks e recursos recém-criados, os pesquisadores podem avançar na forma como estudam a saúde humana e doenças associadas a mudanças genéticas.

Conclusão: O Tesouro da Pesquisa Genética

Em resumo, o desenvolvimento do benchmark mosaico representa um passo significativo à frente no campo da pesquisa genômica. Ao fornecer uma referência confiável para variantes de baixa frequência, os pesquisadores podem investigar de forma mais eficaz os papéis que essas variantes desempenham na saúde e na doença.

Enquanto a comunidade científica continua a desvendar os segredos escondidos dentro do nosso DNA, a esperança é melhorar diagnósticos e tratamentos para uma variedade de condições. Então, enquanto a busca por respostas pode ser cheia de reviravoltas, este novo benchmark é um mapa importante que guia os pesquisadores em sua missão de entender as complexidades do genoma humano. E quem disse que caças ao tesouro não podiam ser divertidas?

Fonte original

Título: A robust benchmark for detecting low-frequency variants in the HG002 Genome In A Bottle NIST reference material.

Resumo: Somatic mosaicism is an important cause of disease, but mosaic and somatic variants are often challenging to detect because they exist in only a fraction of cells. To address the need for benchmarking subclonal variants in normal cell populations, we developed a benchmark containing mosaic variants in the Genome in a Bottle Consortium (GIAB) HG002 reference material DNA from a large batch of a normal lymphoblastoid cell line. First, we used a somatic variant caller with high coverage (300x) Illumina whole genome sequencing data from the Ashkenazi Jewish trio to detect variants in HG002 not detected in at least 5% of cells from the combined parental data. These candidate mosaic variants were subsequently evaluated using >100x BGI, Element, and PacBio HiFi data. High confidence candidate SNVs with variant allele fractions above 5% were included in the HG002 draft mosaic variant benchmark, with 13/85 occurring in medically relevant gene regions. We also delineated a 2.45 Gbp subset of the previously defined germline autosomal benchmark regions for HG002 in which no additional mosaic variants >2% exist, enabling robust assessment of false positives. The variant allele fraction of some mosaic variants is different between batches of cells, so using data from the homogeneous batch of reference material DNA is critical for benchmarking these variants. External validation of this mosaic benchmark showed it can be used to reliably identify both false negatives and false positives for a variety of technologies and detection algorithms, demonstrating its utility for optimization and validation. By adding our characterization of mosaic variants in this widely-used cell line, we support extensive benchmarking efforts using it in simulation, spike-in, and mixture studies.

Autores: Camille A. Daniels, Adetola Abdulkadir, Megan H. Cleveland, Jennifer H. McDaniel, David Jáspez, Luis Alberto Rubio-Rodríguez, Adrián Muñoz-Barrera, José Miguel Lorenzo-Salazar, Carlos Flores, Byunggil Yoo, Sayed Mohammad Ebrahim Sahraeian, Yina Wang, Massimiliano Rossi, Arun Visvanath, Lisa Murray, Wei-Ting Chen, Severine Catreux, James Han, Rami Mehio, Gavin Parnaby, Andrew Carroll, Pi-Chuan Chang, Kishwar Shafin, Daniel Cook, Alexey Kolesnikov, Lucas Brambrink, Mohammed Faizal Eeman Mootor, Yash Patel, Takafumi N. Yamaguchi, Paul C. Boutros, Karolina Sienkiewicz, Jonathan Foox, Christopher E. Mason, Bryan R. Lajoie, Carlos A. Ruiz-Perez, Semyon Kruglyak, Justin M. Zook, Nathan D. Olson

Última atualização: 2024-12-05 00:00:00

Idioma: English

Fonte URL: https://www.biorxiv.org/content/10.1101/2024.12.02.625685

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.12.02.625685.full.pdf

Licença: https://creativecommons.org/publicdomain/zero/1.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes