Simple Science

Ciência de ponta explicada de forma simples

# Biologia# Bioinformática

Avanços na Previsão da Estrutura de Proteínas

Novos modelos melhoram como os cientistas preveem as formas e interações das proteínas.

Toshiyuki Oda

― 7 min ler


Avanço na Previsão deAvanço na Previsão deProteínasproteínas.barreiras na análise da estrutura deNovas técnicas estão quebrando
Índice

A previsão da estrutura de proteínas é um desafio grande e complicado na biologia. As proteínas são essenciais pra quase todos os processos biológicos, e suas funções dependem muito das suas formas. É como uma chave se encaixando numa fechadura; se a forma não for certinha, nada funciona. Por anos, os cientistas têm buscado maneiras de prever essas formas intricadas sem precisar vê-las fisicamente, o que pode ser um trabalho demorado e caro.

O Papel do AlphaFold e Seu Sucessor

Uma grande evolução nessa área é um sistema chamado AlphaFold. Desenvolvido por uma equipe que queria decifrar o código das formas das proteínas, o AlphaFold conseguiu fazer avanços incríveis em prever como as proteínas se dobram em suas formas funcionais. Em uma competição chamada CASP14, o AlphaFold superou os concorrentes ao modelar com precisão uma grande quantidade de domínios de proteínas, mostrando seu potencial pra revolucionar a previsão de Estruturas de proteínas.

Depois do sucesso do AlphaFold, uma nova versão chamada AlphaFold-Multimer foi lançada, que ampliou a capacidade do AlphaFold de prever como múltiplas proteínas interagem entre si, o que é crucial já que muitas proteínas não funcionam isoladas. A verdade é que prever como as proteínas se juntam, como peças de um quebra-cabeça, é mais complicado do que prever a forma de uma única proteína.

Os Desafios nas Previsões de Multímeros

Apesar da performance impressionante do AlphaFold-Multimer, ainda tem espaço pra melhorar, especialmente quando o assunto é prever as estruturas de várias proteínas, conhecidas como multímeros. Embora tenha sido bem-sucedido com algumas estruturas de multímeros, a precisão cai muito pra certos tipos, principalmente em proteínas relacionadas ao sistema imunológico.

Os pesquisadores notaram que esse desafio parece vir de alguns problemas. Primeiro, os métodos atuais muitas vezes dependem de informações de co-evolução, que significa que eles observam como diferentes proteínas evoluíram juntas. Pra usar essas informações, os cientistas precisam encontrar os pares de sequências corretas, o que pode ser complicado. Muitas proteínas têm versões similares, chamadas de paralogos, e desvendar isso não é fácil.

Segundo, os métodos usados pra analisar sequências de proteínas frequentemente incorporam dados de proteínas relacionadas. Isso pode ajudar porque proteínas similares tendem a ter estruturas parecidas. No entanto, no caso de regiões únicas, como as encontradas em proteínas do sistema imunológico, a dependência de similaridades evolutivas pode levar a imprecisões.

Pra enfrentar esses desafios, os pesquisadores pensaram em se afastar dos métodos tradicionais baseados em sequências e buscaram novas abordagens pra melhorar as previsões.

Uma Nova Abordagem: AFM-Refine-G

Aí que entra o AFM-Refine-G, uma versão ajustada do AlphaFold-Multimer. Esse sistema foi desenvolvido pra pegar as estruturas de proteínas previstas e deixá-las ainda melhores. Em vez de usar ferramentas tradicionais de sequência, o AFM-Refine-G foca em refinar estruturas com base nas suas propriedades físicas. Ele se baseia na forma prevista da proteína e busca aprimorá-la, como se estivesse polindo um diamante pra brilhar mais.

Essa nova abordagem foi testada em vários conjuntos de dados de estruturas de proteínas. A ideia era usar as formas previstas das proteínas como ponto de partida e então ajustar essas formas pra alcançar uma representação mais precisa das estruturas reais das proteínas. Isso envolveu selecionar estruturas que provavelmente interagiriam bem e focar em melhorar essas interações durante o processo de refinamento.

Treinando e Testando o Modelo

Treinar o AFM-Refine-G envolveu um processo meticuloso pra garantir que ele pudesse refinar efetivamente as estruturas de proteínas. As previsões iniciais foram geradas usando o AlphaFold-Multimer, e essas estruturas previstas foram então alimentadas no AFM-Refine-G pra uma melhoria adicional.

O sistema avaliou a qualidade de cada estrutura refinada através de várias métricas. Os pesquisadores observaram como as estruturas refinadas se compararam com as previsões originais e os dados experimentais reais. Eles usaram vários conjuntos de dados pra testar, permitindo uma avaliação abrangente do desempenho do modelo.

Curiosamente, os resultados foram mistos. Pra alguns conjuntos de dados, o AFM-Refine-G melhorou significativamente as estruturas previstas, enquanto pra outros, os resultados foram menos favoráveis. Essa inconsistência sugeriu que o modelo poderia estar tendencioso em relação a certos tipos de estruturas de proteínas.

Analisando Resultados e Áreas pra Melhorar

Após a análise, ficou claro que certas estruturas foram melhoradas enquanto outras enfrentaram desafios. Em particular, estruturas multiméricas associadas a respostas imunológicas frequentemente acabaram na categoria "Incorreto" quando avaliadas com base em critérios estabelecidos. Isso indicou que mais melhorias eram necessárias, principalmente pra essas proteínas complicadas.

Além disso, foi notado que a conexão entre quão bem um modelo previa uma estrutura e o nível de confiança atribuído a essa previsão poderia ser enganosa. Às vezes, uma estrutura pode parecer boa no papel, mas na real, pode ter falhas grandes, como átomos colidindo de uma maneira indesejada.

Os pesquisadores especularam que essa inconsistência poderia vir de como o modelo foi treinado. Como o AFM-Refine-G foi desenvolvido com foco em estruturas mais "normais", ele teve dificuldades com formas não convencionais, principalmente aquelas relacionadas ao sistema imunológico.

Acompanhando os Avanços

Conforme a ciência avança, as ferramentas disponíveis pros pesquisadores também evoluem. Depois da criação do AFM-Refine-G, uma versão mais nova do AlphaFold-Multimer foi introduzida. Essa versão atualizada se baseou nos sucessos e lições aprendidas dos modelos anteriores. Ela utilizou novos métodos de treinamento e conjuntos de dados maiores, aumentando as chances de previsões melhores.

Pra avaliar como o AFM-Refine-G se saiu em relação a esses novos modelos, os pesquisadores o testaram novamente em desafios mais recentes. O objetivo era ver se o AFM-Refine-G ainda poderia agregar valor mesmo quando enfrentando os últimos avanços na previsão de estruturas de proteínas.

O Futuro da Previsão de Estruturas de Proteínas

A jornada da previsão de estruturas de proteínas está longe de acabar. Embora novos modelos como o AFM-Refine-G tenham mostrado potencial, o cenário da biologia está em constante mudança. As ferramentas e métodos precisarão evoluir pra acompanhar interações de proteínas cada vez mais complexas, especialmente aquelas envolvidas em doenças.

Em conclusão, embora seja um campo desafiador com muitos quebra-cabeças ainda por resolver, o trabalho em andamento na previsão de estruturas de proteínas está ajudando os cientistas a abrir novas portas na biologia. À medida que os pesquisadores refinam suas abordagens e desenvolvem modelos melhores, podemos esperar descobertas empolgantes. Com cada peça do quebra-cabeça que se encaixa, nossa compreensão do mundo intrincado das proteínas vai se aprofundar, abrindo caminho pra novas descobertas na medicina e além.

Então, um brinde aos cientistas e à sua perseverança! Afinal, no mundo da previsão de proteínas, eles são os heróis navegando por um labirinto, segurando a chave pra inúmeros mistérios biológicos. Quem diria que estudar moléculas minúsculas poderia levar a descobertas tão grandiosas?

Fonte original

Título: Refinement of AlphaFold-Multimer structures with single sequence input

Resumo: AlphaFold2, introduced by DeepMind in CASP14, demonstrated outstanding performance in predicting protein monomer structures. It could model more than 90% of targets with high accuracy, and so the next step would surely be multimer predictions, since many proteins do not act by themselves but with their binding partners. After the publication of AlphaFold2, DeepMind published AlphaFold-Multimer, which showed excellent performance in predicting multimeric structures. However, its accuracy still has room for improvement compared to that of monomer predictions by AlphaFold2. In this paper, we introduce a fine-tuned version of AlphaFold-Multimer, named AFM-Refine-G, which uses structures predicted by AlphaFold-Multimer as inputs and produces refined structures without the help of multiple sequence alignments or templates. The performance of AFM-Refine-G was assessed using four datasets: Ghani_et_al_Benchmark2 and Yin_et_al_Hard using AlphaFold-Multimer version 2.2 outputs, and CASP15_multimer and Yin_and_Pierce_af23 using AlphaFold-Multimer version 2.3 outputs. Of 1925 predicted structures, 203 had DockQ improvement > 0.05 after refinement, demonstrating that our model is useful for the refinement of multimer structures. However, considering the per target success rate, the overall improvement was modest, suggesting that the original AlphaFold-Multimer network had already learned a biophysical energy function independent of MSAs or templates, as proposed by Roney and Ovchinnikov (Roney and Ovchinnikov, 2022). Furthermore, both the default AlphaFold-Multimer and our refinement model showed lower performance for immune-related targets compared to general targets, indicating that room for improvement remains. AvailabilityThe inference scripts are available from https://github.com/t-oda-ic/afm_refiner under the Apache License, Version 2.0. The network parameters are available from https://figshare.com/articles/online_resource/afm_refine_g_20230110_zip/21856407 under the license CC BY 4.0.

Autores: Toshiyuki Oda

Última atualização: Dec 26, 2024

Idioma: English

Fonte URL: https://www.biorxiv.org/content/10.1101/2022.12.27.521991

Fonte PDF: https://www.biorxiv.org/content/10.1101/2022.12.27.521991.full.pdf

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais do autor

Artigos semelhantes