Avanços em Substituição Molecular para Estruturas de Proteínas
Estudo investiga o impacto do AlphaFold 2 na determinação de estruturas de proteínas através do Substituição Molecular.
― 7 min ler
Índice
- Seleção de Alvos
- Modelagem e Caracterização das Sequências-Alvo
- Processamento das Previsões de Estrutura em Modelos de Busca
- Modelos de Busca Baseados em Estruturas Secundárias
- Substituição Molecular e Refinamento
- Resultados das Soluções Estruturais
- Importância da Divisão de Domínios
- Abordagens Alternativas
- Proteínas Coiled-Coil e Desafios Estruturais
- Desafios Restantes na Determinação de Estruturas
- Direções Futuras e Conclusões
- Fonte original
Substituição Molecular (SM) é um método usado pra ajudar a determinar a estrutura de moléculas grandes, tipo proteínas, resolvendo um problema complexo conhecido como problema de fase. Esse problema acontece porque é difícil conseguir informações completas sobre o arranjo de átomos em uma molécula só com os dados coletados durante a cristalografia de raios X. A SM se tornou a técnica principal pra lidar com essa questão no mundo da determinação de estruturas macromoleculares.
Pra usar a SM, os cientistas começam encontrando um Modelo de Busca que seja parecido com a nova estrutura da proteína que estão estudando. Esse modelo de busca é colocado na nova estrutura, permitindo que os pesquisadores calculem as fases iniciais, que levam à criação de Mapas de Densidade Eletrônica. Esses mapas servem como guias pra identificar a posição dos átomos na proteína, permitindo um refinamento e análise adicionais.
Tradicionalmente, o modelo de busca muitas vezes era derivado de outra proteína que é bem relacionada. No entanto, avanços em bioinformática estrutural introduziram novas técnicas pra melhorar esses modelos. Isso inclui usar partes pequenas de proteínas identificadas prevendo sua estrutura secundária, além de empregar várias abordagens pra descobrir subestruturas úteis em proteínas mais distantes.
Recentemente, métodos de aprendizado profundo, especialmente o AlphaFold 2, mudaram muito o cenário da SM. Esses métodos oferecem previsões de estruturas de proteínas bem precisas, facilitando muito a resolução do problema de fase pra muitos alvos que antes eram considerados difíceis. Muitas vezes, um modelo não modificado do AlphaFold 2 pode servir como um modelo de busca adequado, embora os pesquisadores tenham reconhecido a importância de refinar esses modelos, removendo seções com menos confiança, especialmente em proteínas multidoses.
Nesse estudo, o foco tá em descobrir quão bem os modelos de busca do AlphaFold 2 e outros métodos conseguem resolver estruturas recentemente depositadas que foram determinadas usando difração anômala de comprimento de onda único (SAD). Analisando um conjunto maior de casos, o estudo visa identificar as características que tornam algumas estruturas mais fáceis ou difíceis de resolver com SM.
Seleção de Alvos
Pra essa pesquisa, os alvos selecionados foram estruturas de proteínas que utilizaram SAD e foram depositadas dentro de um prazo específico. Um total de 408 casos foram analisados, com alguns sendo excluídos devido à presença de aminoácidos modificados ou não naturais. Esse conjunto de casos oferece insights sobre os tipos de estruturas que podem ser resolvidas usando os métodos atuais.
Modelagem e Caracterização das Sequências-Alvo
As sequências de proteínas alvo foram modeladas usando tanto o AlphaFold 2 quanto sua variante, ColabFold. Embora ambos os métodos se baseiem em tecnologia semelhante, eles diferem na forma como geram Alinhamentos de Sequência Múltipla (MSAs), que são cruciais pra uma modelagem eficaz. O AlphaFold 2 utiliza vários bancos de dados estabelecidos pra MSA, enquanto o ColabFold usa um método mais rápido que permite um processamento mais eficiente.
A profundidade das MSAs é medida por um valor chamado Neff, que representa o número efetivo de sequências. Cada alvo foi classificado com base em sua estrutura secundária prevista, ajudando os pesquisadores a entender se a proteína era composta principalmente de hélices alfa, folhas beta, ou uma mistura de ambas.
Processamento das Previsões de Estrutura em Modelos de Busca
As previsões do AlphaFold 2 vêm acompanhadas de estimativas de confiança pra cada resíduo. Essas estimativas são expressas usando uma escala onde valores mais altos indicam previsões mais confiáveis. Os modelos foram testados ou inalterados ou após cortar regiões com níveis de confiança mais baixos.
Pra algumas proteínas multidoses, onde as previsões não renderam resultados satisfatórios, um método chamado Slice’N’Dice foi usado pra dividir os modelos em unidades estruturais separadas. Essa abordagem, combinada com vários algoritmos, ajuda a refinar os modelos de busca e melhorar as chances de determinação bem-sucedida da estrutura.
Modelos de Busca Baseados em Estruturas Secundárias
Além dos métodos como AlphaFold 2, os pesquisadores usaram outras técnicas pra alvos específicos ricos em hélices alfa. Isso incluiu ferramentas projetadas pra lidar com hélices ideais ou conjuntos de estruturas helicoidais, mostrando a versatilidade de diferentes abordagens de modelagem.
Substituição Molecular e Refinamento
O processo de solução de estrutura começou com testes automatizados onde as previsões do AlphaFold 2 e ColabFold foram alimentadas em um pipeline para SM. Esse pipeline preparou modelos de busca e os executou através de um algoritmo de SM. O sucesso da solução foi avaliado usando coeficientes de correlação que medem quão bem os modelos colocados correspondiam à estrutura real.
Em casos onde os métodos automatizados não foram suficientes, foi necessária intervenção manual. Isso envolveu o uso de um projeto baseado na nuvem pra uma exploração mais interativa e refinamento dos modelos de busca.
Resultados das Soluções Estruturais
Os testes iniciais usando modelos do AlphaFold 2 mostraram uma alta taxa de sucesso, com muitas estruturas sendo resolvidas diretamente. Os modelos abrangeram uma gama de níveis de precisão, e uma porcentagem significativa dos casos atendeu aos critérios para colocação bem-sucedida e subsequente refinamento.
A análise também revelou que o ColabFold tinha um conjunto de sucessos um pouco diferente em comparação com o AlphaFold 2. Alguns casos exigiram a inclusão de informações de modelo pra melhorar a precisão. Além disso, alternativas como o ESMFold mostraram promessas em casos onde os modelos do AlphaFold enfrentaram dificuldades, destacando o potencial de várias ferramentas de modelagem.
Importância da Divisão de Domínios
Proteínas multidoses podem apresentar desafios, pois as informações sobre suas estruturas podem não ser tão claras. O estudo descobriu que dividir proteínas maiores em domínios menores muitas vezes levou a melhores resultados na determinação da estrutura. Diferentes algoritmos para divisão foram testados, e em algumas situações, uma abordagem se saiu melhor que as outras.
Abordagens Alternativas
Os pesquisadores também exploraram outras opções de software pra casos onde os métodos tradicionais falharam. O uso do ESMFold forneceu previsões úteis que ajudaram a resolver algumas estruturas problemáticas. Além disso, criar modelos de complexos de proteínas foi benéfico para algumas estruturas de alta complexidade, mostrando a vantagem de ter um modelo de busca mais abrangente.
Proteínas Coiled-Coil e Desafios Estruturais
Certas estruturas de proteínas, especialmente as ricas em regiões coiled-coil, foram consideradas mais difíceis de modelar com sucesso. Essas regiões costumam apresentar características únicas que desafiam as ferramentas de previsão atuais. Casos onde as técnicas tradicionais de SM não conseguiram mostrar a necessidade contínua de abordagens especializadas nessas situações.
Desafios Restantes na Determinação de Estruturas
Apesar dos avanços na modelagem preditiva, algumas proteínas continuam resistentes às soluções de SM. Isso geralmente se deve a MSAs de baixa qualidade, que não fornecem as informações evolutivas necessárias pra modelagem precisa. Além disso, proteínas com alto teor helicoidal ou aquelas que contêm íons metálicos podem apresentar desafios únicos que complicam os esforços de determinação de estrutura.
Direções Futuras e Conclusões
O surgimento de ferramentas como o AlphaFold melhorou significativamente a capacidade de resolver o problema de fase na cristalografia de raios X. Embora a maioria das estruturas agora possa ser faseada usando esses métodos modernos, ainda existem casos onde métodos experimentais de fase tradicionais podem ser necessários.
O estudo sugere que entender as características específicas de alvos difíceis pode ajudar a priorizar casos para abordagens experimentais. A exploração contínua de novas técnicas de modelagem e algoritmos será crucial pra avançar ainda mais no campo e abordar as limitações que ainda estão presentes na determinação de estruturas de proteínas.
Título: In the AlphaFold era, when is experimental phasing of protein crystals still required?
Resumo: The availability of highly accurate protein structure predictions from AlphaFold 2 (AF2) and similar tools has hugely expanded the applicability of Molecular Replacement (MR) for crystal structure solution. Many structures solve routinely using raw models, structures processed to remove unreliable parts or models split into distinct structural units. There is therefore an open question around how many and which cases still require experimental phasing methods such as single-wavelength anomalous diffraction (SAD). Here we address the question using a large set of PDB deposits that were solved by SAD. A large majority (87%) solve using unedited or minimally edited AF2 predictions. A further 17 (4%) yield straightforwardly to MR after splitting of the AF2 prediction using SliceNDice, although different splitting methods succeed on slightly different sets of cases. We also find that further unique targets can be solved by alternative modelling approaches such as ESMFold (four cases), alternative MR approaches such as ARCIMBOLDO and AMPLE (two cases each), and multimeric model building with AlphaFold-Multimer or UniFold (three cases). Ultimately, only 12 cases, or 3% of the SAD-phased set did not yield to any form of MR tested here, offering valuable hints as to the number and characteristics of cases where experimental phasing remains essential for macromolecular structure solution.
Autores: Daniel J Rigden, R. Keegan, A. J. Simpkin
Última atualização: 2024-07-22 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2024.07.19.604295
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.07.19.604295.full.pdf
Licença: https://creativecommons.org/licenses/by-nc/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.