Avancées dans la prédiction des sites allostériques grâce à l'IA
De nouvelles méthodes d'apprentissage automatique améliorent les prédictions des sites allostériques dans les protéines.
― 7 min lire
Table des matières
L'Allostérie, c'est une façon dont les protéines régulent leur activité. Ça se passe quand une molécule, qu'on appelle un Ligand, se fixe à un endroit sur la protéine qui n'est pas son site d'action principal. La plupart des médicaments fonctionnent en se liant directement à ce site principal. Cependant, les scientifiques pensent que toutes les protéines montrent une certaine forme d'allostérie. Si une protéine ne l'a pas encore montré, c'est peut-être à cause de l'absence de conditions spécifiques comme les bonnes molécules ou certains changements dans la structure de la protéine.
Les médicaments qui utilisent l'allostérie sont souvent mieux tolérés par les patients par rapport à ceux qui se fixent au site principal. En fait, les sites d'action principaux ont tendance à rester les mêmes entre des protéines similaires, ce qui veut dire qu'un médicament pourrait affecter plusieurs protéines liées. Les médicaments allostériques, par contre, se fixent à d'autres zones sur la surface de la protéine, qui sont moins cohérentes entre les protéines apparentées. Ça ouvre la porte à la création de traitements efficaces pour des protéines qui sont difficiles à cibler directement.
Utiliser l'apprentissage automatique pour prédire les sites allostériques
Les avancées récentes impliquent l'utilisation de méthodes d'apprentissage automatique pour prédire les sites allostériques sur les protéines. Des outils spécifiques ont été développés pour identifier des poches dans les structures protéiques où ces interactions peuvent se produire. Parmi les méthodes populaires, on trouve PASSer et ses mises à jour, qui identifient ces zones en analysant les structures protéiques.
Cependant, les méthodes précédentes n'ont pas pleinement exploité les modèles avancés qui apprennent à partir de grandes quantités de données protéiques. Pour améliorer les prédictions, les chercheurs ont affiné un type spécifique de modèle de langage appelé ProtBERT sur un grand jeu de données axé sur les protéines allostériques. Ce modèle a été entraîné pour effectuer deux tâches simultanément : prédire les résidus allostériques et déterminer la structure de la protéine. L'idée derrière cette approche double est que connaître la structure de la protéine pourrait aider le modèle à mieux identifier les sites allostériques.
Le processus et les données utilisées
La Base de données AlloSteric est une source d'infos régulièrement mise à jour sur les protéines qui montrent un comportement allostérique. En préparant les données pour l'entraînement du modèle, les chercheurs ont nettoyé le jeu de données et filtré pour les protéines avec moins de 30 % de similarité. Au total, ils se sont concentrés sur 207 protéines uniques, les divisant en ensembles d'entraînement et de test.
Chaque protéine distincte a généralement environ 20 poches où l'allostérie pourrait se produire. Cependant, il y avait beaucoup moins d'échantillons positifs, avec seulement environ 8 % des poches identifiées comme allostériques. Cet déséquilibre a rendu la prédiction des sites allostériques particulièrement difficile.
L'approche consistait à fournir les structures des protéines et leurs séquences dans un outil appelé FPocket, qui identifie les poches. En parallèle, le modèle ProtBERT a été affiné pour extraire des caractéristiques pertinentes des séquences protéiques. Les caractéristiques provenant de FPocket et de ProtBERT ont ensuite été combinées pour entraîner des modèles plus complexes comme XGBoost et des systèmes d'apprentissage automatique automatisés (AutoML).
Entraînement des modèles
XGBoost et AutoML ont été entraînés en utilisant des combinaisons de caractéristiques des deux méthodes mentionnées. Cela impliquait de classifier si une poche dans la protéine était allostérique ou non. XGBoost est un modèle basé sur des arbres de décision connu pour son efficacité, et AutoML automatise le processus de sélection et d'entraînement du modèle, rendant plus facile la recherche du meilleur modèle performant.
Lors de l'évaluation des performances du modèle, l'accent a été mis sur le Score F1, qui prend en compte la précision et le rappel, ce qui en fait un meilleur choix pour des jeux de données déséquilibrés comme celui-ci. Une amélioration significative a été observée dans les modèles utilisant les caractéristiques affinées de ProtBERT par rapport à ceux utilisant uniquement des caractéristiques basiques.
Résultats et analyse
Après l'entraînement, le modèle a démontré une forte capacité à classifier les poches allostériques. Le modèle ProtBERT affiné a vu une augmentation de performance par rapport à sa forme originale. Le meilleur modèle a atteint un score F1 impressionnant. Cela suggère que la combinaison des caractéristiques structurelles et des caractéristiques du modèle de langage a efficacement amélioré les prédictions.
Les résultats ont été validés par une étude de cas sur une protéine spécifique connue pour avoir des sites allostériques. Le modèle a correctement prédit la meilleure poche allostérique avec une grande confiance, montrant que le modèle peut identifier de manière fiable des sites pertinents dans les protéines.
Visualiser les mécanismes d'attention du modèle
Pour comprendre comment le modèle fait ses prédictions, les chercheurs ont visualisé les mécanismes d'attention du modèle ProtBERT. Cette visualisation aide à montrer quelles parties de la protéine le modèle cible lors de ses prédictions. Dans les couches plus profondes du modèle, l'attention a tendance à se diriger vers des résidus essentiels pour les interactions allostériques.
Cette analyse a révélé que le modèle ne se contente pas de regarder la distance entre différents résidus, mais qu'il considère aussi leurs rôles spécifiques dans le processus allostérique. Il a été observé que le modèle accorde plus de poids aux résidus conservés, qui jouent un rôle important dans l'interaction avec d'autres molécules influençant la fonctionnalité de la protéine.
L'importance et l'avenir de la recherche sur l'allostérie
L'étude souligne l'importance de comprendre l'allostérie dans les protéines, car cela peut ouvrir la voie à de meilleurs médicaments avec moins d'effets secondaires. Grâce à des techniques d'apprentissage automatique sophistiquées, les chercheurs peuvent identifier ces sites allostériques plus efficacement que par les méthodes précédentes.
Les recherches futures pourraient se concentrer sur l'amélioration encore plus de ces modèles. Utiliser des modèles de langage plus avancés et de plus grands ensembles de données pourrait améliorer la précision des prédictions, menant finalement à des traitements plus efficaces pour diverses maladies liées à des dysfonctionnements protéiques.
Conclusion
Pour résumer, l'allostérie est un aspect essentiel de la fonction des protéines qui a des implications significatives dans la conception de médicaments. Grâce à l'utilisation de techniques d'apprentissage automatique innovantes et de grands ensembles de données protéiques, les chercheurs progressent dans l'identification des sites allostériques, fournissant des idées précieuses pour le développement pharmaceutique. En affinant ces approches, le domaine pourrait bénéficier de capacités prédictives améliorées, ouvrant la voie à de nouvelles stratégies thérapeutiques et à de meilleurs résultats pour les patients.
Titre: DeepAllo: Allosteric Site Prediction using Protein Language Model (pLM) with Multitask Learning
Résumé: Allostery, the process by which binding at one site perturbs a distant site, is being rendered as a key focus in the field of drug development with its substantial impact on protein function. The identification of allosteric sites is a challenging task and several techniques have been developed, including Machine Learning (ML) to predict allosteric sites that utilize both static and pocket features. Our work, DeepAllo, is the first study that combines fine-tuned protein language model (pLM) with FPocket features and shows an increase in prediction performance of allosteric sites over previous studies. The pLM model was fine-tuned on Allosteric Dataset (ASD) in Multitask Learning (MTL) setting and was further used as a feature extractor to train XGBoost and AutoML models. The best model predicts allosteric pockets with 89.66% F1 score and 90.5% of allosteric pockets in the top 3 positions, outperforming previous results. A case study has been performed on proteins with known allosteric sites, which shows the proof of our approach. Moreover, an effort was made to explain the pLM by visualizing its attention mechanism among allosteric and non-allosteric residues.
Auteurs: Attila Gursoy, M. Khokhar, O. Keskin
Dernière mise à jour: 2024-10-13 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2024.10.09.617427
Source PDF: https://www.biorxiv.org/content/10.1101/2024.10.09.617427.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.