Novos Modelos para Prever Mecanismos de Doenças Genéticas
Modelos avançados ajudam a identificar variações genéticas ligadas a processos de doenças.
― 9 min ler
Índice
Doenças genéticas são enfermidades causadas por mudanças nos genes. Essas mudanças podem afetar como as proteínas funcionam no nosso corpo. As proteínas são essenciais para várias funções, e quando não funcionam como deveriam, isso pode levar a problemas de saúde.
Uma forma dessas mudanças genéticas, conhecidas como mutações, gerarem problemas é fazendo com que uma proteína perca sua função. Isso é chamado de Perda de função (LOF). Às vezes, a mutação pode impedir que a proteína seja produzida ou pode criar uma versão da proteína que não funcione direito. Quando isso acontece, várias doenças genéticas surgem. A maioria dos distúrbios recessivos envolve mutações de LOF. Distúrbios recessivos exigem duas cópias do gene mutado para a doença aparecer, enquanto os distúrbios dominantes podem ocorrer com apenas uma cópia do gene mutado.
Em alguns casos, a cópia funcional restante do gene não consegue compensar a perda causada pela mutação. Essa situação é chamada de haploinsuficiência e pode levar a doenças dominantes. Por outro lado, algumas doenças dominantes são causadas por outros mecanismos que não dependem só do LOF. Esses mecanismos podem incluir ganho de função (GOF), onde a mutação cria uma nova ou alterada função na proteína, ou efeitos dominantes-negativos (DN), onde a proteína mutada interfere na normal.
Entender como essas mutações afetam as proteínas pode ajudar muito no diagnóstico e tratamento de distúrbios genéticos. Nos últimos anos, a tecnologia melhorou para que os cientistas consigam estudar várias variantes ao mesmo tempo. Novos métodos, como a varredura mutacional profunda, estão sendo usados para entender melhor como mudanças específicas nos genes afetam as funções das proteínas.
Diferentes Mecanismos de Doenças Genéticas
As doenças genéticas dominantes podem ser causadas por vários mecanismos moleculares. Por exemplo, uma doença cardíaca chamada cardiomiopatia pode ser influenciada por mutações genéticas que levam a efeitos de LOF e DN. Isso significa que uma mutação pode fazer com que uma proteína tenha tanto perda de função quanto perturbar a atividade normal da proteína.
Embora cada mutação em um gene geralmente tenha um efeito principal, pesquisas mostraram que muitos genes tendem a mostrar mecanismos específicos mais frequentemente do que outros. Essa percepção levou à identificação de características ligadas a proteínas não-LOF. No entanto, as ferramentas atuais para prever como variantes genéticas afetam proteínas têm dificuldades em identificar com precisão variantes não-LOF.
É fundamental melhorar essas ferramentas de previsão, pois existe a chance de perder variantes importantes porque não conseguimos prever com precisão seus efeitos. Ter um modelo que preveja mecanismos moleculares poderia ajudar a encontrar genes onde ferramentas existentes possam falhar, evitando que informações valiosas sejam negligenciadas.
Em trabalhos anteriores, um modelo simples foi criado para identificar genes provavelmente ligados a mecanismos não-LOF. As previsões iniciais, no entanto, foram limitadas devido à informação incompleta sobre as características estruturais e funcionais das proteínas, especialmente porque se baseavam em dados estruturais detalhados que nem sempre estão disponíveis. Além disso, como os mecanismos DN e GOF compartilham características semelhantes, foram agrupados em uma categoria. Isso tornou as previsões menos precisas.
Aperfeiçoando Modelos de Previsão
Para lidar com esses desafios, três modelos de previsão separados foram criados usando técnicas estatísticas avançadas. Cada modelo foca em diferenciar entre várias classes de mecanismos moleculares, especificamente LOF versus não-LOF, DN versus LOF e GOF versus LOF. Dessa forma, eles maximizam a quantidade de informação usada para treinamento e permitem uma classificação flexível.
A análise de proteínas ligadas a doenças mostra que esses mecanismos previstos se alinham com características conhecidas dos processos subjacentes. Isso indica fortemente que a nova abordagem de modelo é útil.
Para ajudar a comunidade em geral a entender variantes genéticas, previsões para todos os genes codificadores de proteína humana foram disponibilizadas. Essas previsões podem ajudar a identificar o mecanismo provável de uma variante em genes dominantes que antes não tinham associação a nenhum processo conhecido. Além disso, podem orientar pesquisadores a priorizar genes para estudos em laboratório e a examinar as características relacionadas a esses mecanismos.
Ferramentas e Técnicas Usadas no Estudo
Neste projeto, várias ferramentas e bancos de dados foram utilizadas para reunir e analisar dados. O estudo se baseou em estruturas de proteínas previstas pelo AlphaFold, que forneceram insights sobre as estruturas das proteínas humanas. Cálculos de propriedades como área de superfície e estabilidade da proteína foram realizados usando ferramentas de software especializadas.
Para construir os modelos de previsão, várias medições-chave foram tiradas das proteínas, incluindo características que indicam seu potencial funcional e interações com outras proteínas. Essas características foram derivadas de dados experimentais e previsões feitas por vários métodos computacionais.
Técnicas de aprendizado de máquina foram então aplicadas para criar classificadores. Esses classificadores aprenderam com os dados de treinamento para fazer previsões sobre novos dados, avaliando a probabilidade de que uma determinada mutação leve a um mecanismo molecular dominante no contexto de doenças genéticas.
Design do Modelo e Processamento de Dados
Usar três classificadores binários em vez de um modelo de múltiplas classes melhorou significativamente as previsões. Se um único modelo tivesse sido usado, teria que lidar com muitas classes, o que não funcionaria bem devido ao número limitado de casos para certas combinações.
Na fase de treinamento, os dados foram processados para garantir que estavam normalizados e que valores ausentes fossem considerados. Isso envolveu a remoção de características altamente correlacionadas que poderiam distorcer os resultados. Ao criar um conjunto de dados não redundante de proteínas que não compartilhavam muitas semelhanças de sequência, os pesquisadores puderam analisar melhor as propriedades únicas associadas a cada mecanismo molecular.
Avaliando os Modelos
O desempenho desses modelos foi cuidadosamente avaliado usando várias métricas. Um processo conhecido como validação cruzada foi usado para garantir que os modelos não estavam superajustando, o que significa que não apenas se sairiam bem nos dados de treinamento, mas também generalizariam efetivamente para novos dados não vistos.
A capacidade dos classificadores de fazer previsões precisas foi medida usando testes estatísticos específicos. Os pesquisadores calcularam várias métricas de desempenho, como a área sob a curva do receptor (AUROC), para avaliar como cada modelo se saiu em distinguir entre os diferentes mecanismos.
Os modelos foram comparados com base em quão consistentemente faziam previsões precisas em diferentes conjuntos de teste, e suas previsões foram comparadas com dados clínicos conhecidos.
Resultados e Descobertas
Os modelos previram com sucesso as características das proteínas nos diferentes mecanismos moleculares. As análises mostraram que mutações em proteínas com funções DN ou GOF eram frequentemente menos prejudiciais em comparação àquelas em proteínas LOF. Isso alinha-se com a ideia de que mutações LOF geralmente levam à desestabilização, enquanto mutações GOF tendem a ajustar funções sem causar danos severos.
Os modelos foram testados ainda mais para ver quão bem conseguiam prever o agrupamento de mutações patogênicas dentro das estruturas proteicas. Os resultados indicaram que proteínas classificadas como DN ou GOF exibiam um maior agrupamento de mutações do que proteínas LOF. Essa observação apoia a noção de que mutações LOF estão mais amplamente dispersas por toda a estrutura da proteína, enquanto mutações associadas a mecanismos não-LOF tendem a se concentrar em regiões funcionais.
Além disso, a análise demonstrou que as ferramentas de previsão atuais têm dificuldade em prever com precisão mutações missense patogênicas ligadas a proteínas DN ou GOF. Essas descobertas indicam claramente a necessidade de novos métodos que possam interpretar melhor variantes missense em contextos não-LOF.
Avaliação Funcional de Proteínas
Para validar ainda mais as previsões feitas pelos modelos, os pesquisadores examinaram as funções moleculares associadas a proteínas classificadas como DN ou GOF. A análise funcional revelou que proteínas com características DN frequentemente compartilham funções relacionadas à sua capacidade de interromper interações normais de proteínas, aprimorando a compreensão de como essas mutações impactam a função das proteínas.
Em comparação, proteínas com características GOF tendem a estar ligadas a funções que são mais sensíveis a eventos de ativação. Essas funções geralmente envolvem papéis de sinalização e regulação em processos celulares.
Ao identificar as funções enriquecidas associadas a cada categoria, os pesquisadores puderam compreender melhor as implicações mais amplas dessas mutações no comportamento das proteínas e no desenvolvimento de doenças.
Conclusão
O projeto criou e validou com sucesso modelos de previsão para entender como mutações específicas em genes podem levar a diferentes mecanismos de doenças moleculares. Ao focar nas interações LOF, GOF e DN, os cientistas podem antecipar melhor os efeitos das mudanças genéticas.
As descobertas enfatizam a necessidade de previsões aprimoradas para mecanismos não-LOF, especialmente dada sua importância na pesquisa genética. Esses modelos fornecem uma estrutura para que os pesquisadores priorizem variantes genéticas para estudo adicional e para obter insights mais profundos sobre os fundamentos moleculares das doenças.
À medida que o conhecimento sobre doenças genéticas continua a crescer, as percepções obtidas a partir desta pesquisa abrirão caminho para diagnósticos mais precisos e estratégias terapêuticas aprimoradas, beneficiando, em última análise, aqueles afetados por distúrbios genéticos.
Título: Proteome-scale prediction of molecular mechanisms underlying dominant genetic diseases
Resumo: Many dominant genetic disorders result from protein-altering mutations, acting primarily through dominant-negative (DN), gain-of-function (GOF), and loss-of-function (LOF) mechanisms. Deciphering the mechanisms by which dominant diseases exert their effects is often experimentally challenging and resource intensive, but is essential for developing appropriate therapeutic approaches. Diseases that arise via a LOF mechanism are more amenable to be treated by conventional gene therapy, whereas DN and GOF mechanisms may require gene editing or targeting by small molecules. Moreover, pathogenic missense mutations that act via DN and GOF mechanisms are more difficult to identify than those that act via LOF using nearly all currently available variant effect predictors. Here, we introduce a tripartite statistical model made up of support vector machine binary classifiers trained to predict whether human protein-coding genes are likely to be associated with DN, GOF, or LOF molecular disease mechanisms. We test the utility of the predictions by examining biologically and clinically meaningful properties known to be associated with the mechanisms. Our results strongly support that the models are able to generalise on unseen data and offer insight into the functional attributes of proteins associated with different mechanisms. We hope that our predictions will serve as a springboard for researchers studying novel variants and those of uncertain clinical significance, guiding variant interpretation strategies and experimental characterisation. Predictions for the human UniProt reference proteome are available at https://osf.io/z4dcp/.
Autores: Mihaly Badonyi, J. A. Marsh
Última atualização: 2024-01-30 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2023.09.08.556798
Fonte PDF: https://www.biorxiv.org/content/10.1101/2023.09.08.556798.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.