Avanços na Previsão de Sites Alostéricos Usando IA
Novos métodos de aprendizado de máquina melhoram as previsões de sites alostéricos em proteínas.
― 6 min ler
Índice
A alosteria é uma forma de as proteínas regularem sua atividade. Isso acontece quando uma molécula, chamada de Ligante, se liga a um ponto na proteína que não é o seu principal local de ação. A maioria dos remédios funciona se ligando diretamente ao principal local de ação de uma proteína. No entanto, os cientistas acreditam que todas as proteínas mostram alguma forma de alosteria. Se uma determinada proteína ainda não mostrou esse comportamento, pode ser por falta de condições específicas, como as moléculas certas ou certas mudanças na estrutura da proteína.
Remédios que usam alosteria costumam ser melhor tolerados pelos pacientes em comparação com aqueles que se ligam ao principal local de ação. Por outro lado, os principais locais de ação tendem a permanecer os mesmos entre proteínas semelhantes, o que significa que um remédio pode afetar várias proteínas relacionadas. Os medicamentos alostéricos, por sua vez, se ligam a áreas diferentes na superfície da proteína, que são menos consistentes entre proteínas relacionadas. Isso abre espaço para criar tratamentos eficazes para proteínas que são difíceis de atingir diretamente.
Usando Aprendizado de Máquina para Prever Locais Alostéricos
Os avanços recentes envolvem o uso de métodos de aprendizado de máquina para prever locais alostéricos em proteínas. Foram desenvolvidas ferramentas específicas para identificar bolsões nas estruturas das proteínas onde essas interações podem acontecer. Alguns métodos populares para isso incluem o PASSer e suas atualizações, que identificam essas áreas analisando as estruturas das proteínas.
No entanto, os métodos anteriores não aproveitaram totalmente modelos avançados que aprendem a partir de grandes quantidades de dados de proteínas. Para melhorar as previsões, os pesquisadores ajustaram um tipo específico de modelo de linguagem chamado ProtBERT em um grande conjunto de dados focado em proteínas alostéricas. Esse modelo foi treinado para realizar duas tarefas simultaneamente: prever resíduos alostéricos e determinar a estrutura da proteína. A ideia por trás dessa abordagem dupla é que aprender sobre a estrutura da proteína poderia ajudar o modelo a identificar melhor os locais alostéricos.
O Processo e os Dados Usados
O AlloSteric Database é uma fonte de informação atualizada regularmente sobre proteínas que mostram comportamento alostérico. Na preparação dos dados para o treinamento do modelo, os pesquisadores limparam o conjunto de dados e filtraram proteínas com menos de 30% de similaridade. No total, eles focaram em 207 proteínas únicas, dividindo-as em conjuntos de treinamento e teste.
Cada proteína distinta normalmente tem cerca de 20 bolsões onde a alosteria pode ocorrer. No entanto, houve muito menos amostras positivas, com apenas cerca de 8% dos bolsões identificados como alostéricos. Esse desbalanceamento deixou a previsão de locais alostéricos particularmente desafiadora.
A abordagem envolveu alimentar estruturas de proteínas e suas sequências em uma ferramenta chamada FPocket, que identifica bolsões. Junto a isso, o modelo ProtBERT foi ajustado para extrair características relevantes das sequências de proteínas. As características de ambos FPocket e ProtBERT foram então combinadas para treinar modelos mais complexos, como XGBoost e sistemas de Aprendizado de Máquina Automatizado (AutoML).
Treinando os Modelos
XGBoost e AutoML foram treinados usando combinações de características dos dois métodos mencionados. Isso envolveu classificar se um bolsão na proteína era alostérico ou não. XGBoost é um modelo baseado em árvore de decisão conhecido por sua eficiência, e o AutoML automatiza o processo de seleção e treinamento de modelo, facilitando a busca pelo modelo de melhor desempenho.
Na avaliação do desempenho do modelo, o foco foi na pontuação F1, que considera tanto a precisão quanto a recuperação, tornando-a uma escolha melhor para conjuntos de dados desbalanceados como este. Um aumento significativo de desempenho foi observado em modelos que usaram as características ajustadas do ProtBERT em comparação com aqueles que usaram apenas características básicas.
Resultados e Análise
Após o treinamento, o modelo demonstrou uma forte capacidade de classificar bolsões alostéricos. O modelo ProtBERT ajustado viu um aumento de desempenho em comparação com sua forma original. O modelo de melhor desempenho alcançou uma pontuação F1 impressionante. Isso sugere que a combinação de características estruturais e características do modelo de linguagem melhorou efetivamente as previsões.
Os resultados foram ainda validados através de um estudo de caso em uma proteína específica conhecida por ter locais alostéricos. O modelo previu corretamente o principal bolsão alostérico com alta confiança, demonstrando que o modelo pode identificar de forma confiável locais relevantes em proteínas.
Visualizando os Mecanismos de Atenção do Modelo
Para entender como o modelo faz suas previsões, os pesquisadores visualizaram os mecanismos de atenção do modelo ProtBERT. Essa visualização ajuda a mostrar quais partes da proteína o modelo foca ao fazer previsões. Nas camadas mais profundas do modelo, a atenção tende a ser direcionada a resíduos que são cruciais para interações alostéricas.
Essa análise revelou que o modelo não olha apenas para a distância entre vários resíduos, mas também considera seus papéis específicos no processo alostérico. Foi observado que o modelo dá mais peso a resíduos conservados, que desempenham um papel significativo na interação com outras moléculas que afetam a funcionalidade da proteína.
A Importância e o Futuro da Pesquisa em Alosteria
O estudo destaca a importância de entender a alosteria nas proteínas, pois isso pode abrir caminho para o desenvolvimento de remédios melhores com menos efeitos colaterais. Ao usar técnicas sofisticadas de aprendizado de máquina, os pesquisadores podem identificar esses locais alostéricos de maneira mais eficiente do que com métodos anteriores.
Pesquisas futuras podem se concentrar em melhorar ainda mais esses modelos. O uso de modelos de linguagem mais avançados e conjuntos de dados maiores poderia aumentar a precisão das previsões, levando, em última análise, a tratamentos mais eficazes para várias doenças ligadas a malfuncionamentos de proteínas.
Conclusão
Em resumo, a alosteria é um aspecto crítico da função da proteína que tem implicações significativas no design de medicamentos. Por meio do uso de técnicas inovadoras de aprendizado de máquina e grandes conjuntos de dados de proteínas, os pesquisadores estão avançando na identificação de locais alostéricos, fornecendo insights valiosos para o desenvolvimento farmacêutico. Ao refinar essas abordagens, o campo pode se beneficiar de capacidades preditivas aprimoradas, abrindo portas para novas estratégias terapêuticas e melhores resultados para os pacientes.
Título: DeepAllo: Allosteric Site Prediction using Protein Language Model (pLM) with Multitask Learning
Resumo: Allostery, the process by which binding at one site perturbs a distant site, is being rendered as a key focus in the field of drug development with its substantial impact on protein function. The identification of allosteric sites is a challenging task and several techniques have been developed, including Machine Learning (ML) to predict allosteric sites that utilize both static and pocket features. Our work, DeepAllo, is the first study that combines fine-tuned protein language model (pLM) with FPocket features and shows an increase in prediction performance of allosteric sites over previous studies. The pLM model was fine-tuned on Allosteric Dataset (ASD) in Multitask Learning (MTL) setting and was further used as a feature extractor to train XGBoost and AutoML models. The best model predicts allosteric pockets with 89.66% F1 score and 90.5% of allosteric pockets in the top 3 positions, outperforming previous results. A case study has been performed on proteins with known allosteric sites, which shows the proof of our approach. Moreover, an effort was made to explain the pLM by visualizing its attention mechanism among allosteric and non-allosteric residues.
Autores: Attila Gursoy, M. Khokhar, O. Keskin
Última atualização: 2024-10-13 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2024.10.09.617427
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.10.09.617427.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.