Avanços na Predição de Estruturas de Proteínas Usando Modelos de Linguagem
Novos métodos melhoram a previsão da estrutura de proteínas a partir de sequências de aminoácidos.
― 7 min ler
Índice
As proteínas são moléculas essenciais na biologia que desempenham várias funções. A forma ou estrutura de uma proteína é crucial para sua função. Por isso, prever a estrutura de uma proteína a partir da sua sequência de aminoácidos é uma área de pesquisa super importante. Nos últimos anos, métodos avançados foram desenvolvidos para melhorar a precisão dessas previsões.
Uma grande novidade é o AlphaFold2, que mostrou resultados impressionantes na previsão da estrutura de proteínas apenas com base nas suas sequências. Esse método usa alinhamentos de múltiplas sequências, que comparam uma sequência de proteína com outras que estão relacionadas evolutivamente. Analisando esses alinhamentos, o AlphaFold2 consegue inferir como os aminoácidos interagem uns com os outros em uma proteína dobrada.
Porém, tem desafios com essa abordagem. Primeiro, nem todas as proteínas têm muitas sequências relacionadas disponíveis para comparação. Além disso, proteínas que se dobram em solução não necessariamente dependem de sua história evolutiva. Isso motivou os pesquisadores a desenvolver métodos que podem prever a estrutura da proteína usando apenas uma sequência, sem depender de múltiplos alinhamentos.
Novos métodos como OmegaFold, RGN2 e ESMFold foram criados para resolver esse problema. Esses métodos são diferentes do AlphaFold2 porque não se baseiam em dados evolutivos. Em vez disso, eles usam modelos de linguagem que são projetados para entender sequências de proteínas de um jeito parecido com como os modelos de linguagem entendem a linguagem humana. Isso levanta uma pergunta importante: será que esses modelos de linguagem entenderam os princípios da dobra de proteínas apenas com sequências únicas?
Para responder a essa pergunta, os pesquisadores examinaram como o ESMFold funciona e propuseram várias hipóteses sobre seu funcionamento. Uma hipótese era que o ESMFold aprendeu a física da dobra das proteínas. No entanto, as evidências mostraram que seu desempenho está intimamente ligado ao número de sequências similares nos dados de treinamento, sugerindo que ele pode não entender realmente a dobra.
Eles também notaram erros consistentes em como o ESMFold previa estruturas para Isoformas de Proteínas, que são variações das proteínas que podem ocorrer devido ao splicing alternativo. Os pesquisadores identificaram que o ESMFold parecia usar informações de sequências relacionadas, levando a previsões incorretas. Com base em suas descobertas, propuseram duas ideias alternativas: o ESMFold pode estar combinando dobras completas de proteínas com novas sequências ou pode ter memorizado padrões ou motivos específicos dos dados de treinamento.
Para testar essas ideias, os pesquisadores realizaram experimentos para determinar se o modelo aprendeu dependências com base em motivos de sequência. As descobertas deles indicaram que o ESMFold parece realmente referenciar pares de fragmentos ao fazer previsões.
Desafios com Isoformas de Proteínas
As isoformas de proteínas são variações que surgem quando segmentos de uma proteína são spliced de maneira diferente. Essas variações podem ser complicadas para métodos de previsão de estrutura porque muitas vezes mantêm um alto grau de semelhança com seus equivalentes de comprimento total, mas podem ter formas e funções diferentes. Os pesquisadores queriam entender quão bem os métodos de previsão de estrutura atuais, incluindo AlphaFold2, OmegaFold e ESMFold, poderiam lidar com essas isoformas.
Criando um conjunto de dados de isoformas, os pesquisadores testaram quão bem os três métodos de previsão poderiam modelar as estruturas com precisão. Um caso envolveu uma isoforma de mioglobina humana, que já tinha sido discutida na literatura. As estruturas previstas do AlphaFold2, OmegaFold e ESMFold mostraram diferenças baixas em relação à estrutura conhecida da mioglobina, mas revelaram alguns problemas. Especificamente, descobriram que partes da proteína que deveriam estar enterradas no núcleo da estrutura estavam expostas, indicando uma falha significativa nas previsões do modelo.
Padrões semelhantes surgiram para outras isoformas, onde as previsões frequentemente indicavam áreas de resíduos hidrofóbicos expostos que não deveriam estar visíveis em uma estrutura de proteína estável. Essa tendência sugeriu que tanto os métodos baseados em MSA quanto os baseados em Modelo de Linguagem poderiam estar tendo dificuldades em prever as formas corretas para sequências modificadas, contradizendo a hipótese de que esses modelos entendem profundamente os princípios de dobra.
Avaliando Modelos de Linguagem
Com os problemas vistos nas previsões de isoformas, os pesquisadores exploraram mais a fundo como o ESMFold estava fazendo suas previsões. Focaram em quão bem o ESMFold poderia extrair informações coevolutivas sem qualquer orientação externa. Eles desenvolveram um método para avaliar como o modelo de linguagem poderia aprender relacionamentos entre aminoácidos e determinar previsões de contato.
Os pesquisadores descobriram que a capacidade do ESMFold de prever quais aminoácidos interagiriam era surpreendentemente eficaz. Analisando como mutações na sequência afetavam as previsões do modelo, eles conseguiram entender melhor as estatísticas coevolutivas que o modelo poderia utilizar. Essa abordagem metodológica permitiu comparar as previsões do modelo de linguagem com métodos estatísticos tradicionais usados para analisar sequências de proteínas.
A análise deles revelou que o ESMFold podia gerar previsões de contato confiáveis que eram apenas um pouco menos precisas do que as previsões feitas por métodos mais tradicionais. Essa descoberta sugere que modelos de linguagem podem ser ferramentas poderosas no campo da previsão de estrutura de proteínas, apesar de suas diferenças.
Recuperação de Contato e Contexto de Sequência
Para investigar mais a fundo como o ESMFold previa contatos entre diferentes partes de uma proteína, os pesquisadores experimentaram mascarar certas partes da proteína e observar como o modelo se comportava. Eles descobriram que o modelo era particularmente bom em recuperar contatos quando desmascaravam regiões adjacentes ao contato, sugerindo que ele dependia bastante do contexto local da sequência em vez da estrutura da proteína inteira.
A eficácia desse método destacou que o ESMFold parece utilizar uma faixa específica de resíduos ao redor para prever interações de forma precisa. Em muitos casos, desmascarar apenas um pequeno número de resíduos ao redor permitiu que o modelo recuperasse a previsão de contato de forma eficaz, sublinhando a ideia de que padrões locais podem ser mais críticos do que a estrutura geral.
Tendências semelhantes foram observadas ao examinar interações entre elementos estruturais mais distantes. O modelo manteve sua precisão ao se basear em um contexto de resíduos flanqueadores, apoiando ainda mais a ideia de que o modelo tende a se concentrar em motivos em vez de dobras completas.
Conclusão
Os avanços feitos na previsão de estrutura de proteínas por meio de modelos de linguagem representam um marco significativo no campo. Embora esses modelos, como o ESMFold, mostrem um potencial promissor, eles podem não capturar completamente a complexidade da física da dobra das proteínas. Em vez disso, parecem funcionar aproveitando padrões e estatísticas aprendidas a partir de uma riqueza de dados evolutivos e estruturais disponíveis em seus conjuntos de treinamento.
À medida que a pesquisa continua, é crucial interpretar essas descobertas com cuidado. Modelos de linguagem podem não ser infalíveis ou entender completamente a dinâmica da dobra, mas oferecem um caminho empolgante para prever estruturas de proteínas com precisão com base em sequências únicas. Estudos futuros provavelmente trarão mais insights sobre como esses modelos operam e como podem ser refinados para uma confiabilidade ainda maior na pesquisa biológica. Entender seus pontos fortes e fracos ajudará a guiar o desenvolvimento de melhores ferramentas para previsão de estrutura de proteínas nos próximos anos.
Título: Protein language models learn evolutionary statistics of interacting sequence motifs
Resumo: Protein language models (pLMs) have emerged as potent tools for predicting and designing protein structure and function, and the degree to which these models fundamentally understand the inherent biophysics of protein structure stands as an open question. Motivated by a discovery that pLM-based structure predictors erroneously predict nonphysical structures for protein isoforms, we investigated the nature of sequence context needed for contact predictions in the pLM ESM-2. We demonstrate by use of a "categorical Jacobian" calculation that ESM-2 stores statistics of coevolving residues, analogously to simpler modelling approaches like Markov Random Fields and Multivariate Gaussian models. We further investigated how ESM-2 "stores" information needed to predict contacts by comparing sequence masking strategies, and found that providing local windows of sequence information allowed ESM-2 to best recover predicted contacts. This suggests that pLMs predict contacts by storing motifs of pairwise contacts. Our investigation highlights the limitations of current pLMs and underscores the importance of understanding the underlying mechanisms of these models. Significance StatementProtein language models (pLMs) have exhibited remarkable capabilities in protein structure prediction and design. However, the extent to which they comprehend the intrinsic biophysics of protein structures remains uncertain. We present a suite of analyses that dissect how the flagship pLM ESM-2 predicts structure. Motivated by a consistent error of protein isoforms predicted as structured fragments, we developed a completely unsupervised method to uniformly evaluate any protein language model that allows for us to compare coevolutionary statistics to older linear models. We further identified t hat E SM-2 a ppears to have a precise context size that is needed to predict inter-residue contacts. Our study highlights the current limitations of pLMs and contributes to a deeper understanding of their underlying mechanisms, paving the way for more reliable protein structure predictions.
Autores: Sergey Ovchinnikov, Z. Zhang, H. K. Wayment-Steele, G. Brixi, H. Wang, M. Dal Peraro, D. Kern
Última atualização: 2024-01-31 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2024.01.30.577970
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.01.30.577970.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.