Simple Science

Ciência de ponta explicada de forma simples

# Biologia# Bioinformática

Previsões de Estruturas de Proteínas do AlphaFold2: Percepções e Surpresas

Uma olhada nas previsões do AlphaFold2 e possíveis mal-entendidos nas estruturas das proteínas.

Olivia S. Pratt, Luc G. Elliott, Margaux Haon, Shahram Mesdaghi, Rebecca M. Price, Adam J. Simpkin, Daniel J. Rigden

― 7 min ler


AlphaFold2: Previsões vsAlphaFold2: Previsões vsRealidadeem prever estruturas de proteínas.Analisando as limitações do AlphaFold2
Índice

Entender como as proteínas funcionam é crucial pra sacar como os seres vivos operam e como as doenças relacionadas às proteínas acontecem. Os cientistas normalmente estudam as estruturas das proteínas usando métodos como cristalografia de proteínas e microscopia eletrônica criogênica (cryoEM). Infelizmente, esses métodos podem demorar mais do que esperar uma entrega de pizza, às vezes levando meses ou até anos pra trazer resultados. Por isso, os pesquisadores têm procurado formas mais rápidas de prever as estruturas das proteínas usando computadores.

Chegou o AlphaFold2

Em 2020, rolou uma grande mudança com a chegada do AlphaFold2 (AF2), um modelo baseado em aprendizado profundo lançado pelo Google DeepMind. Isso foi uma grande melhora na previsão das estruturas das proteínas sem precisar se basear em estruturas conhecidas como modelos. Foi como achar um atalho pra resolver um quebra-cabeça complicado! Logo depois, foi criada a AlphaFold Protein Structure Database (AFDB), que tem mais modelos do que alguém poderia contar-mais de 214 milhões, pra ser exato.

Como o AlphaFold2 Funciona

O AlphaFold2 se baseia num conjunto amplo e diversificado de sequências de proteínas chamado alinhamentos múltiplos de sequências (MSAs). Analisando essas sequências, ele pode determinar quais pares de aminoácidos mudaram juntos ao longo do tempo. Isso ajuda o AF2 a prever como a proteína vai se dobrar no espaço tridimensional. Além de prever a estrutura, o AF2 fornece duas pontuações de qualidade. A primeira, chamada pLDDT, mostra o quão confiante o modelo tá sobre a estrutura local, enquanto a segunda, PAE, dá uma ideia de quão confiável é a estrutura geral. Na maior parte, quanto mais confiante a previsão, menos provável que você precise de uma bebida forte depois de olhar pros resultados.

Estudando Proteínas Repetitivas

O AF2 tem sido especialmente útil pra estudar proteínas com sequências repetitivas, conhecidas como repetições tandem. Essas proteínas são diversas e podem repetir um único aminoácido ou chegar até centenas de repetições. Surpreendentemente, cerca de 14% das proteínas são feitas dessas repetições, mas ainda não são bem compreendidas.

Em 2014, foi criada uma base de dados chamada RepeatsDB pra ajudar a categorizar e anotar essas estruturas repetitivas. Ela reconhece cinco classes diferentes de proteínas repetitivas, cada uma com características únicas. Algumas classes têm repetições curtas ligadas a doenças, enquanto outras consistem em estruturas fibrosas ou formas complexas.

Recentemente, os pesquisadores deram uma olhada mais de perto nas proteínas beta-solenoides, que se encaixam em uma dessas classes. Essas proteínas têm um padrão repetido de correntes beta que são torcidas em uma forma longa. Apesar de parecerem uma ótima reviravolta em uma proteína, elas ainda são mal compreendidas.

O Curioso Caso da Mucina 22

Uma descoberta interessante envolve uma proteína humana chamada mucina 22. Quando a sequência repetitiva dessa proteína é bagunçada, o AF2 ainda prevê uma estrutura beta-solenoide muito confiante. Contudo, o modelo parece estranho, com acúmulo interno de resíduos de ácido glutâmico que não deveriam acontecer em proteínas reais. Isso levantou uma grande questão: será que o AF2 tá muito ansioso pra prever beta-solenoides, mesmo em casos onde eles não deveriam existir?

Construindo e Testando Modelos

Os pesquisadores pegaram sequências aleatórias de 20 aminoácidos e as repetiram pra criar modelos, então passaram elas pelo AF2. Descobriram que muitos dos modelos resultantes eram beta-solenoides confiantes, mesmo quando as sequências eram aleatórias. Os pesquisadores classificaram esses modelos pra ver se realmente representavam beta-solenoides.

Eles acharam que muitos desses modelos eram confiantes, mas tinham características estranhas-como resíduos com carga negativa empilhados de um jeito que não fazia sentido. Normalmente, essas estruturas ficam escondidas dentro das proteínas, não se exibindo à luz do dia.

Validando os Modelos

Pra garantir que suas descobertas faziam sentido, eles usaram uma ferramenta de software chamada Verify3D. Essa ferramenta avalia se as estruturas das proteínas previstas são viáveis com base em seus designs. Enquanto alguns modelos foram bem, outros não se saíram tão bem, mostrando que a confiança do AF2 pode estar deslocada.

Em vários casos, modelos que geraram previsões confiantes tinham conflitos internos que os tornavam improváveis. Era como um amigo entusiasmado tentando te convencer que uma ideia é ótima, enquanto você consegue ver claramente os defeitos.

A Diferença com Outros Modelos

O AF2 não era o único jogador; novos modelos como ESMFold e RoseTTAFold-All-Atom (RFAA) foram usados pra comparar resultados. Surpreendentemente, esses modelos alternativos muitas vezes discordaram das previsões do AF2. Enquanto o AF2 dava altas classificações de confiança, ESMFold e RFAA frequentemente marcavam esses modelos como suspeitos.

Parecia que o AF2 tinha um ponto cego único em relação às estruturas beta-solenoides, o que fazia com que ele interpretasse muitas sequências como previsões confiantes que podem não refletir a realidade.

Não é Apenas uma Fluke Aleatória

Inicialmente, os pesquisadores pensaram que as sequências aleatórias poderiam ter semelhanças com proteínas naturais conhecidas, levando o AF2 a interpretá-las mal. No entanto, após uma verificação extensa contra bases de dados, eles descobriram que apenas um pequeno número de sequências produziu acertos significativos. A maioria das sequências só aconteceu de ser única.

Dinâmica Molecular e Instabilidade

Pra testar a estabilidade dos modelos, os cientistas realizaram simulações chamadas dinâmicas moleculares em alguns modelos selecionados. Eles compararam modelos de alta confiança com empilhamento de cargas internas a uma estrutura beta-solenoide natural.

O que aconteceu? A proteína real manteve sua forma direitinho, enquanto os modelos do AF2 se torciam, giravam e geralmente se comportavam como um adolescente rebelde.

O Quadro Geral

Com todas essas comparações e testes, uma coisa ficou clara: o AlphaFold2 pode estar enganando cientistas que estudam certas proteínas repetitivas. Muitas das previsões que ele gerou eram exageradamente confiantes e irreais. Embora o AF2 seja revolucionário em muitos aspectos, os pesquisadores precisam ter cautela ao confiar em seus resultados, especialmente no que diz respeito a essas estruturas.

Ainda há muito pra aprender, e os pesquisadores estão interessados em descobrir se esse viés afeta sequências mais problemáticas. Eles planejam criar mais misturas de tipos de sequências e ver se a tendência do AF2 se mantém nesses casos também.

Conclusão

O AlphaFold2 pode ser uma ferramenta incrível, mas não tá sem suas esquisitices. É como achar um gadget chique que faz café, mas às vezes prepara ele muito forte pra conforto. As descobertas dessa pesquisa servem como um lembrete de que, enquanto a tecnologia pode nos ajudar, precisamos avaliar criticamente seus resultados e estar cientes de suas limitações.

À medida que os cientistas continuam a aprender com esses modelos, eles estarão mais preparados pra desvendar os mistérios em torno das estruturas das proteínas e, em última análise, obter uma compreensão mais clara dos blocos de construção da vida. Com mais experimentos e estudos por vir, estamos todos prontos pra uma surpresa à medida que o mundo das estruturas de proteínas se desdobra diante de nós.

Fonte original

Título: AlphaFold 2, but not AlphaFold 3, predicts confident but unrealistic beta-solenoid structures for repeat proteins

Resumo: AlphaFold 2 has revolutionised protein structure prediction but, like any new tool, its performance on specific classes of targets, especially those potentially under- represented in its training data, merits attention. Prompted by a highly confident prediction for a biologically meaningless, scrambled repeat sequence, we assessed AF2 performance on sequences comprised perfect repeats of random sequences of different lengths. AF2 frequently folds such sequences into {beta}-solenoids which, while ascribed high confidence, contain unusual and implausible features such as internally stacked and uncompensated charged residues. A number of sequences confidently predicted as {beta}-solenoids are predicted by other advanced methods as intrinsically disordered. The instability of some predictions is demonstrated by Molecular Dynamics. Importantly, other Deep Learning-based structure prediction tools predict different structures or {beta}-solenoids with much lower confidence suggesting that AF2 alone has an unreasonable tendency to predict confident but unrealistic {beta}-solenoids for perfect repeat sequences. The potential implications for structure prediction of natural (near-)perfect sequence repeat proteins are also explored.

Autores: Olivia S. Pratt, Luc G. Elliott, Margaux Haon, Shahram Mesdaghi, Rebecca M. Price, Adam J. Simpkin, Daniel J. Rigden

Última atualização: 2024-10-30 00:00:00

Idioma: English

Fonte URL: https://www.biorxiv.org/content/10.1101/2024.10.30.621056

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.10.30.621056.full.pdf

Licença: https://creativecommons.org/licenses/by-nc/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes