Avançando o Diagnóstico de Doenças Raras com Regiões Genômicas PSAP
Um novo método melhora a identificação de variantes genéticas em doenças raras.
― 8 min ler
Doenças raras são condições que afetam poucas pessoas. Apesar de serem raras, essas doenças impactam coletivamente cerca de 350 milhões de indivíduos no mundo todo. Uma grande parte dessas doenças raras, cerca de 80%, tem uma base genética, ou seja, são causadas por mudanças em genes herdados dos pais. Muitas delas seguem um padrão chamado herança mendeliana, onde uma única alteração em um gene pode levar a uma doença específica.
O Desafio do Diagnóstico
Um dos maiores desafios para diagnosticar doenças raras é que, em mais da metade dos casos, a causa molecular subjacente continua desconhecida. Isso acontece principalmente porque muitas doenças raras têm uma composição genética complexa, com cada pessoa afetada carregando mudanças genéticas únicas que podem nunca ter sido vistas antes. Essa situação é conhecida como o problema "n-of-one".
À medida que a ciência e a tecnologia avançam, métodos como sequenciamento de exoma completo (WES) e sequenciamento de genoma completo (WGS) se tornaram ferramentas comuns nas clínicas. Esses métodos permitem que pesquisadores e profissionais de saúde analisem todo o material genético de um indivíduo para encontrar potenciais causas de doenças raras. No entanto, esse processo pode ser complicado pelo grande número de alterações genéticas raras encontradas no DNA de cada pessoa. A causa de uma doença muitas vezes está enterrada entre muitas mudanças raras, tornando difícil identificar qual variante é responsável pela condição. O desafio está em distinguir quais dessas variantes são prejudiciais e quais são benignas.
O Método de Amostragem Populacional (PSAP)
Para ajudar a resolver o problema de identificar variantes genéticas prejudiciais em indivíduos, foi criado um método chamado Método de Amostragem Populacional (PSAP). O PSAP calcula uma medida estatística para cada gene com base na probabilidade de encontrar alterações que poderiam contribuir para uma doença na população geral. Esse método oferece uma maneira de priorizar quais variantes investigar mais a fundo.
A versão inicial do PSAP, conhecida como PSAP-genes, tem sido útil para identificar variantes em várias condições, como infertilidade e perda de gravidez. No entanto, esse método só analisa as regiões codificadoras dos genes, que são apenas uma pequena parte do genoma inteiro. Muitas mudanças genéticas importantes, especialmente as envolvidas em doenças raras, ocorrem em regiões não codificadoras, que não codificam diretamente para proteínas, mas ainda podem impactar como os genes funcionam.
Expandindo Além dos Genes: A Importância das Regiões Não Codificadoras
Pesquisas sugerem que variantes não codificadoras podem desempenhar um papel significativo no desenvolvimento de doenças raras. Isso é apoiado por diversos estudos que encontraram associações genéticas nessas áreas não codificadoras. Além disso, as regiões não codificadoras são cruciais para regular a expressão gênica, ou seja, ajudam a controlar quando e como os genes são ativados ou desativados.
Apesar dessa importância, muitos métodos existentes não conseguem avaliar variantes em regiões não codificadoras de forma eficaz. A maioria dessas ferramentas requer amplo conhecimento prévio sobre a doença e geralmente foca apenas em genes candidatos, deixando muitas variantes potencialmente relevantes de fora.
Apresentando o PSAP-Regiões Genômicas
Para resolver as limitações do PSAP-genes, foi desenvolvida uma nova abordagem chamada PSAP-regiões genômicas. Esta versão estende o método PSAP para incluir tanto regiões codificadoras quanto não codificadoras do genoma. Usando regiões genômicas pré-definidas com base em sua importância funcional, esse método pode analisar uma gama mais ampla de variantes.
Essa nova estratégia utiliza regiões pré-definidas chamadas regiões CADD, que são áreas do genoma caracterizadas pela falta de variantes de alta funcionalidade e alta patogenicidade. Usar essas regiões permite que os pesquisadores criem medidas estatísticas que são mais informativas e relevantes para priorizar variantes no genoma de um indivíduo.
O Papel do Easy-PSAP
O Easy-PSAP é uma ferramenta que incorpora o método PSAP-regiões genômicas. Ele fornece aos pesquisadores uma maneira acessível de gerar distribuições nulas, que são essenciais para identificar quais variantes genéticas são significativas e podem contribuir para a doença. Essa ferramenta usa dados genéticos atualizados para avaliar o potencial de prejudicialidade das variantes com base em suas frequências e pontuações de patogenicidade conhecidas.
Avaliando o PSAP-Regiões Genômicas
A eficácia do PSAP-regiões genômicas foi avaliada usando modelos de doenças artificiais que imitam cenários genéticos da vida real. Essa avaliação envolveu a introdução de Variantes Patogênicas conhecidas em dados genômicos da população geral para verificar como o PSAP-regiões genômicas poderia identificá-las.
Ao avaliar variantes patogênicas não codificadoras, os resultados mostraram que o uso do PSAP-regiões genômicas superou significativamente os métodos tradicionais baseados apenas em pontuações de patogenicidade. O novo método demonstrou maior precisão em identificar variantes prejudiciais em várias condições de modelo.
Priorizando Variantes Não Codificadoras
Em um estudo avaliando variantes não codificadoras, os pesquisadores descobriram que o PSAP-regiões genômicas classificou consistentemente variantes patogênicas entre os principais candidatos identificados, superando significativamente a eficácia do uso de pontuações de patogenicidade sozinhas. As melhorias foram especialmente pronunciadas ao olhar para as variantes mais bem classificadas, mostrando que a capacidade de analisar regiões não codificadoras amplia a identificação de mudanças genéticas críticas.
Variantes de Splicing: Um Foco Importante
Entre as variantes não codificadoras, aquelas relacionadas ao splicing foram particularmente notáveis. Variantes de splicing podem afetar como os produtos gênicos são feitos e, portanto, podem ter impactos substanciais na saúde. A avaliação revelou que variantes de splicing tiveram um bom desempenho sob o sistema de pontuação PSAP-regiões genômicas-ACS, ressaltando a força do método em identificar mudanças genéticas cruciais que poderiam ser perdidas.
O Impacto do PSAP-Regiões Genômicas em Dados Reais
Para demonstrar ainda mais a utilidade do PSAP-regiões genômicas, os pesquisadores aplicaram esse método a dados reais de pacientes com condições genéticas conhecidas. Em um cenário envolvendo Doença Cerebral de Pequenos Vasos (CSVD), todas as variantes causais identificadas estavam classificadas entre as 100 principais usando PSAP-regiões genômicas. Esse nível de priorização é essencial para clínicos que trabalham para restringir quais variantes investigar para um diagnóstico e tratamento potenciais.
Em um estudo separado sobre infertilidade masculina, as variantes identificadas também foram significativamente priorizadas pelo PSAP-regiões genômicas. Isso forneceu aos clínicos uma lista relevante de candidatos potenciais para investigar mais a fundo, mostrando a adaptabilidade da abordagem em diferentes condições e tipos de variantes genéticas.
Vantagens sobre Métodos Tradicionais
A grande vantagem do PSAP-regiões genômicas é sua capacidade de avaliar todo o genoma, ao invés de ser restrito às regiões codificadoras. Essa flexibilidade permite uma análise mais abrangente das variantes que podem contribuir para o desenvolvimento de uma doença. O método não requer conhecimento prévio sobre os genes específicos envolvidos em uma condição particular, tornando-o amplamente aplicável a vários distúrbios genéticos.
Análises comparativas revelaram que, para variantes codificadoras identificadas em sequenciamento de genoma completo, o PSAP-regiões genômicas também poderia fornecer percepções valiosas. Embora não tenha superado a abordagem original do PSAP-genes para variantes codificadoras, forneceu informações úteis que poderiam ajudar os clínicos a priorizar candidatos com base no contexto do histórico genético do paciente.
Direções Futuras para PSAP-Regiões Genômicas
Há muitas oportunidades para o desenvolvimento adicional do PSAP-regiões genômicas. Melhorias futuras poderiam incluir a incorporação de outros tipos de mudanças genéticas, como inserções e deleções, e o exame dos efeitos de variações genômicas maiores. Pesquisadores também estão investigando como descobertas de análises ômicas - como proteômica e metabolômica - podem melhorar a pontuação e identificação de variantes relevantes.
Uma limitação do método atual envolve o sistema de pontuação usado para avaliar variantes genéticas. A eficácia das pontuações CADD em classificar variantes patogênicas pode variar, especialmente para mudanças não codificadoras. Atualizações contínuas no sistema de pontuação, incluindo avanços nas anotações regulatórias, prometem aprimorar futuras iterações do PSAP-regiões genômicas.
Conclusão
Em resumo, o PSAP-regiões genômicas representa um avanço significativo no campo da priorização de variantes genéticas. Ao sair das limitações das regiões codificadoras e utilizar regiões funcionalmente relevantes em todo o genoma, esse método aprimora a capacidade de identificar variantes patogênicas em doenças raras de forma eficaz. A validação e o aprimoramento contínuos dessa abordagem mostram grande potencial para melhorar diagnósticos e entender a base genética de doenças raras, abrindo caminho para melhores opções de tratamento e resultados para os indivíduos afetados.
Título: PSAP-genomic-regions: a method leveraging population data to prioritize coding and non-coding variants in whole genome sequencing for rare disease diagnosis
Resumo: The introduction of next generation sequencing technologies in the clinics has improved rare disease diagnosis. Nonetheless, for very heterogeneous or very rare diseases, more than half of cases still lack molecular diagnosis. Novel strategies are needed to prioritize variants within a single individual. The PSAP (Population Sampling Probability) method was developed to meet this aim but only for coding variants in exome data. To address the challenge of the analysis of non-coding variants in whole genome sequencing data, we propose an extension of the PSAP method to the non-coding genome called PSAP-genomic-regions. In this extension, instead of considering genes as testing units (PSAP-genes strategy), we use genomic regions defined over the whole genome that pinpoint potential functional constraints. We conceived an evaluation protocol for our method using artificially-generated disease exomes and genomes, by inserting coding and non-coding pathogenic ClinVar variants in large datasets of exomes and genomes from the general population. We found that PSAP-genomic-regions significantly improves the ranking of these variants compared to using a pathogenicity score alone. Using PSAP-genomic-regions, more than fifty percent of non-coding ClinVar variants, especially those involved in splicing, were among the top 10 variants of the genome. In addition, our approach gave similar results compared to PSAP-genes regarding the scoring of coding variants. On real sequencing data from 6 patients with Cerebral Small Vessel Disease and 9 patients with male infertility, all causal variants were ranked in the top 100 variants with PSAP-genomic-regions. By revisiting the testing units used in the PSAP method to include non-coding variants, we have developed PSAP-genomic-regions, an efficient whole-genome prioritization tool which offers promising results for the diagnosis of unresolved rare diseases. PSAP-genomic-regions is implemented as a user-friendly Snakemake workflow, accessible to both researchers and clinicians which can easily integrate up-to-date annotation from large databases. Author summaryIn recent years, improvement in DNA sequencing technologies has allowed the identification of many genes involved in rare diseases. Nonetheless, the molecular diagnosis is still unknown for more than half of rare diseases cases. This is in part due to the large heterogeneity of molecular causes in rare diseases. This also highlights the need for the development of new methods to prioritize pathogenic variants from DNA sequencing data at the scale of the whole genome and not only coding regions. With PSAP-genomic-regions, we offer a strategy to prioritize coding and non-coding variants in whole-genome data from a single individual in need of a diagnosis. The PSAP-genomic-regions combines information on the predicted pathogenicity and frequency of variants in the context of functional regions of the genome. In this work, we compare the PSAP-genomic-regions strategy to other variant prioritization strategies on simulated and real data. We show the better performance of PSAP-genomic-regions over a classical approach based on variant pathogenicity scores alone. PSAP-genomic-regions provides a straightforward approach to prioritize causal pathogenic variants, especially non-coding ones, that are often missed with other strategies and could explain the cause of undiagnosed rare diseases.
Autores: Marie-Sophie Ogloblinsky, O. Bocher, C. Aloui, A.-L. Leutenegger, O. Ozisik, A. Baudot, E. Tournier-Lasserve, H. Castillo-Madeen, D. Lewinsohn, D. F. Conrad, E. Genin, G. Marenne
Última atualização: 2024-02-13 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2024.02.13.580050
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.02.13.580050.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.