Enzimas e Engenharia de Proteínas: Perspectivas Futuras
Descubra como a engenharia de proteínas melhora o desempenho de enzimas usando aprendizado de máquina.
― 8 min ler
Índice
- O Papel da Engenharia de Proteínas
- Usando Aprendizado de Máquina na Engenharia de Proteínas
- Desafios nos Modelos de VEP
- Investigando Mutações e Sua Previsibilidade
- Criando um Conjunto de Dados Único para Análise
- Previsibilidade e Características Estruturais
- Abordando Limitações em Conjuntos de Dados Existentes
- Direções Futuras para a Pesquisa
- Conclusão
- Fonte original
- Ligações de referência
As Enzimas são proteínas especiais que aceleram reações químicas na natureza. Elas são essenciais para muitos processos, ajudando as reações a acontecerem mais rápido do que aconteceriam sem elas. Por exemplo, as enzimas estão presentes nos nossos corpos, na comida que a gente come e até em produtos como detergentes para roupa.
As enzimas não são apenas importantes para a vida, mas também para resolver vários problemas da sociedade. Por exemplo, elas podem capturar dióxido de carbono, ajudando a reduzir a poluição. Elas também podem degradar plástico, que é uma grande questão ambiental. Além disso, enzimas são usadas em muitos produtos do dia a dia, como na remoção de manchas de roupas ou na produção de cerveja.
Engenharia de Proteínas
O Papel daA engenharia de proteínas é uma área que foca em melhorar o desempenho das enzimas. Isso geralmente é feito fazendo pequenas mudanças, chamadas Mutações, na estrutura da enzima. O objetivo é criar uma enzima que funcione melhor para uma aplicação específica. Por exemplo, os cientistas podem introduzir mutações em uma enzima para torná-la mais eficaz na remoção de manchas.
Para escolher quais mutações testar, os pesquisadores muitas vezes usam um método chamado previsão do efeito de variantes (VEP). Essa técnica permite que eles adivinhem como diferentes mutações vão afetar o desempenho da enzima. O VEP é útil não só na engenharia de proteínas, mas também na medicina e na agricultura, onde mudar a estrutura de uma proteína pode levar a resultados diferentes.
Aprendizado de Máquina na Engenharia de Proteínas
UsandoO aprendizado de máquina é um tipo de tecnologia que permite que os computadores aprendam com dados. No contexto da engenharia de proteínas, o aprendizado de máquina pode ajudar a prever como as mutações vão afetar o desempenho da enzima. Isso é valioso porque criar e testar mutações de enzimas no laboratório pode ser caro e demorado.
Usando aprendizado de máquina, os pesquisadores podem avaliar várias mutações possíveis usando modelos de computador. Isso permite que eles identifiquem as opções mais promissoras que provavelmente vão melhorar o desempenho da enzima antes de realizar experimentos caros.
Recentes avanços em aprendizado de máquina tiveram um impacto significativo em áreas como biologia estrutural. Por exemplo, os cientistas agora podem prever a estrutura tridimensional de proteínas com base em suas sequências. No entanto, prever com precisão como as mutações vão afetar a estrutura e a função de uma enzima ainda é um desafio.
Desafios nos Modelos de VEP
Um problema significativo com os modelos de VEP atuais é que eles muitas vezes não funcionam bem ao prever os efeitos das mutações. Esse problema pode surgir porque muitos modelos de aprendizado de máquina assumem que as proteínas que estão estudando têm estruturas semelhantes às proteínas naturais. No entanto, quando mutações arbitrárias são feitas, essas suposições podem não ser verdadeiras.
Além disso, enquanto modelos de linguagem podem prever efeitos com base em sequências naturais, eles não levam em conta as mudanças específicas que engenheiros de proteínas podem introduzir. Adicionalmente, as proteínas podem ter muitas estruturas diferentes, e não há uma única maneira de medir a eficácia de uma enzima, já que isso pode depender de vários fatores.
Para melhorar os modelos de VEP, é fundamental entender por que algumas previsões falham. Compreender os motivos desses erros pode ajudar os pesquisadores a projetar modelos melhores e incluir características adicionais, como a estrutura ou dinâmica da proteína, em suas previsões.
Previsibilidade
Investigando Mutações e SuaPara enfrentar os desafios mencionados, os pesquisadores buscam identificar padrões que influenciam o quão bem os modelos de VEP podem prever os efeitos das mutações. Eles se concentram em aspectos específicos das mutações, como sua localização dentro da estrutura da enzima. Esse conhecimento pode ajudar a selecionar mutações que são mais propensas a gerar previsões precisas, levando a melhores designs de enzimas.
Nos estudos, os pesquisadores projetaram seus experimentos para analisar diferentes tipos de mutações com base em suas características estruturais. Eles categorizaram as mutações com base em estarem enterradas ou expostas, quão próximas estavam do local ativo, quão conectadas estavam a outras partes da enzima e se estavam localizadas em estruturas estáveis como hélices e folhas.
O objetivo era determinar como essas características impactavam a previsibilidade do desempenho da enzima. Ao examinar várias variantes de enzimas, os pesquisadores buscavam encontrar tendências que pudessem guiar futuros esforços de engenharia.
Criando um Conjunto de Dados Único para Análise
Para investigar a influência das características estruturais na previsibilidade, os pesquisadores criaram um conjunto de dados de variantes de enzimas. Eles escolheram uma enzima específica conhecida como alfa-amilase, que é útil para remover manchas de amido em tecidos. Eles geraram uma ampla gama de mutações e, em seguida, testaram sua eficácia na remoção de manchas.
Criar esse conjunto de dados envolveu rotular cada mutação com base em suas características estruturais. Os pesquisadores buscaram uma representação equilibrada de diferentes tipos de mutações, permitindo que eles analisassem como a previsibilidade variava entre esses grupos.
Após realizar experimentos e coletar dados, os pesquisadores descobriram que todas as classes estruturais continham algumas variantes com propriedades melhoradas. No entanto, o desempenho das variantes variou significativamente, indicando que a relação entre características estruturais e previsibilidade era complexa.
Previsibilidade e Características Estruturais
Após a análise inicial, os pesquisadores se aprofundaram nos fatores que tornavam certas mutações mais difíceis de prever. Eles descobriram que características estruturais desempenhavam um papel significativo na previsibilidade da atividade da enzima. Por exemplo, mutações que estavam enterradas dentro da enzima ou próximas ao local ativo eram muitas vezes mais desafiadoras de modelar com precisão.
Curiosamente, eles descobriram que até mesmo mutações únicas seguiam padrões semelhantes de previsibilidade. Enquanto a direção dos efeitos poderia variar com base na análise específica, as tendências gerais permaneciam consistentes entre diferentes conjuntos de dados.
Essa informação enfatizou a importância das características estruturais no design de enzimas. Ao entender melhor essas relações, os pesquisadores poderiam aprimorar seus modelos preditivos e focar em áreas que precisavam de melhorias.
Abordando Limitações em Conjuntos de Dados Existentes
O estudo também destacou as limitações dos conjuntos de dados de variantes de proteínas atuais. Muitos conjuntos de dados disponíveis consistem principalmente em mutações únicas, e enquanto alguns consideram múltiplas mutações, eles frequentemente incluem mudanças sobrepostas que dificultam a análise.
Para preencher essa lacuna, os pesquisadores buscaram criar um conjunto de dados que permitisse uma melhor compreensão da relação entre estrutura e função. Sua abordagem permitiria avaliar os efeitos de diferentes mutações sem a interferência de posições sobrepostas.
Ao projetar cuidadosamente seu conjunto de dados para focar em características estruturais e garantir que as variações fossem distintas, os pesquisadores esperavam fornecer um recurso valioso para futuros estudos em engenharia de proteínas.
Direções Futuras para a Pesquisa
Os resultados da pesquisa abriram várias avenidas para exploração futura na engenharia de proteínas. Um desafio central permanece a capacidade de prever a adequação de novas mutações que estão fora dos dados existentes. À medida que os cientistas trabalham para criar enzimas com propriedades aprimoradas, eles também precisam se concentrar em melhorar os métodos que usam para fazer previsões.
Uma abordagem é integrar princípios biológicos nos modelos de VEP. Usar modelos mecanicistas que levem em conta propriedades físicas poderia ajudar a modelar mais precisamente os efeitos das mutações.
Além disso, os pesquisadores reconheceram os desafios impostos pelos espaços de design combinatorial. Enquanto é possível caracterizar exaustivamente mutações únicas, o grande número de combinações potenciais para múltiplas mutações apresenta um desafio muito maior. Avançando, entender como essas combinações influenciam a previsibilidade será fundamental.
Os pesquisadores também destacaram a necessidade de métodos aprimorados para avaliar o desempenho dos modelos preditivos. Técnicas de avaliação tradicionais podem não abordar adequadamente a capacidade de um modelo de se generalizar para novos dados. Ao desenvolver estratégias de avaliação mais eficazes, os cientistas podem entender melhor como seus modelos funcionam.
Conclusão
Resumindo, as enzimas desempenham um papel vital em muitos processos biológicos e industriais, e melhorar suas capacidades por meio da engenharia de proteínas tem um grande potencial. O uso de aprendizado de máquina e o design cuidadoso de conjuntos de dados são cruciais para prever os efeitos das mutações e melhorar o desempenho das enzimas.
Por meio de pesquisas contínuas, os cientistas buscam aprofundar sua compreensão das relações entre características estruturais e previsibilidade. Esse conhecimento permitirá que eles refinam seus modelos e aprimorem as capacidades das enzimas para várias aplicações, contribuindo, em última análise, para soluções para desafios do mundo real.
Título: Enzyme structure correlates with variant effect predictability
Resumo: Protein engineering increasingly relies on machine learning models to computationally pre-screen promising novel candidates. Although machine learning approaches have proven effective, their performance on prospective screening data leaves room for improvement; prediction accuracy can vary greatly from one protein variant to the next. So far, it is unclear what characterizes variants that are associated with large prediction error. In order to establish whether structural characteristics influence predictability, we created a combinatorial variant dataset for an enzyme, that can be partitioned into subsets of variants with mutations at positions exclusively belonging to a particular structural class. By training four different variant effect prediction (VEP) models on structurally partitioned subsets of our data, we found that predictability strongly depended on all four structural characteristics we tested; buriedness, number of contact residues, proximity to the active site and presence of secondary structure elements. These same dependencies were found in various single mutation enzyme variant datasets, with effect directions being specific to the assay. Most importantly, we found that these dependencies are highly alike for all four models we tested, indicating that there are specific structure and function determinants that are insufficiently accounted for by popular existing approaches. Overall, our findings suggest that significant improvements can be made to VEP models by exploring new inductive biases and by leveraging different data modalities of protein variants, and that stratified dataset design can highlight areas of improvement for machine learning guided protein engineering.
Autores: Dick de Ridder, F. J. van der Flier, D. Estell, S. Pricelius, L. Dankmeyer, S. van Stigt Thans, H. Mulder, R. Otsuka, F. Goedegebuur, L. Lammerts, D. Staphorst, A. D. J. van Dijk, H. Redestig
Última atualização: 2024-06-12 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2023.09.25.559319
Fonte PDF: https://www.biorxiv.org/content/10.1101/2023.09.25.559319.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.