Avancées dans la prédiction des sites de liaison avec GrASP
GrASP propose de meilleures prédictions de sites de liaison pour la découverte de médicaments grâce à des techniques de machine learning novatrices.
― 8 min lire
Table des matières
Le processus de création de nouveaux médicaments commence souvent par l'identification des bons endroits sur une protéine où des médicaments potentiels, appelés ligands, peuvent se fixer. Trouver ces emplacements peut aider les chercheurs à comprendre comment les médicaments pourraient agir. Traditionnellement, les scientifiques utilisaient des méthodes spécifiques sur ordinateur pour analyser différents ligands pour des Sites de liaison connus. Cependant, ces méthodes s'appuyaient sur des connaissances antérieures sur où les ligands pourraient s'ajuster.
Les avancées récentes en technologie, notamment pour prédire les structures protéiques et étudier leurs formes, ont considérablement augmenté le nombre de structures possibles à explorer. À mesure que les scientifiques développent davantage de ces structures, plus de sites de liaison doivent être identifiés efficacement.
Les méthodes autrefois utilisées pour prédire les sites de liaison dépendaient de caractéristiques des Protéines conçues par des humains. Ces méthodes se concentraient sur des aspects comme la forme de la protéine, la similarité de ses parties et la façon dont elle interagit avec d'autres molécules. Mais le domaine progresse, et de nouvelles techniques utilisant l'Apprentissage automatique sont mises en œuvre. L'apprentissage automatique peut apprendre à partir de grandes bases de données de sites de liaison pour prédire où les ligands peuvent se fixer.
Une méthode qui a montré du succès dans ce domaine s'appelle P2Rank. C'est un outil de classification qui a surpassé des modèles plus complexes formés sur d'énormes quantités de données. Ce succès pourrait être dû à la façon dont P2Rank représente les données, en utilisant un ensemble de données ciblé qui l'aide à fournir des prédictions précises.
Réseaux de neurones graphiques
Les réseaux de neurones graphiques (GNN) sont une nouvelle classe d'architectures d'apprentissage automatique qui ont été appliquées à la prédiction des sites de liaison. Les GNN considèrent les protéines comme des graphes, où les nœuds représentent des atomes et les connexions, ou arêtes, représentent les relations entre eux. Par exemple, une connexion peut exister entre deux atomes s'ils sont à une certaine distance l'un de l'autre. Chaque nœud a des caractéristiques spécifiques, comme le type d'atome et sa charge.
Dans les GNN, l'information est transmise entre les nœuds dans un processus qui implique trois étapes principales :
- Message : Les voisins échangent des informations sur leur état actuel.
- Agrégation : Chaque nœud collecte les messages de ses voisins et les combine pour un traitement ultérieur.
- Mise à jour : Chaque nœud met à jour sa représentation en fonction des informations agrégées reçues.
Ce processus peut se répéter à travers plusieurs couches, permettant à un nœud de recueillir des informations provenant de voisins de plus en plus éloignés dans le graphe.
Cependant, des GNN plus profonds peuvent conduire à un trop grand lissage, où les représentations des nœuds deviennent trop similaires. Pour contrer cela, diverses techniques, y compris des connexions de saut et l'ajout de bruit aux entrées, sont utilisées pour maintenir la diversité des caractéristiques.
Réseaux de neurones graphiques avec attention (GAT)
Les réseaux de neurones graphiques avec attention (GAT) sont un type de GNN qui utilise des mécanismes d'attention pour évaluer l'importance des différents voisins. Cela permet au réseau de se concentrer sur les connexions les plus pertinentes lors de l'agrégation d'informations. La fonction d'attention aide à améliorer les performances du modèle en priorisant certaines caractéristiques des nœuds par rapport à d'autres pendant le processus d'apprentissage.
Introduction de GrASP
On a développé une nouvelle approche appelée Graph Attention Site Prediction (GrASP), qui est basée sur le GAT. GrASP est spécialement conçu pour la prédiction des sites de liaison. Il utilise d'abord le GAT pour évaluer des atomes individuels sur la surface de la protéine, déterminant lesquels sont susceptibles de faire partie d'un site de liaison. Ces scores sont ensuite regroupés pour former des sites de liaison, classés selon la probabilité que leurs atomes composants soient impliqués.
Un défi majeur dans la prédiction des sites de liaison est le manque de définition normalisée de ce qu'est un site de liaison. Différentes études définissent les sites de liaison de différentes manières, rendant les comparaisons directes difficiles. Pour surmonter cela, GrASP se concentre sur des métriques qui se rapportent directement à la proximité des sites de liaison prédits avec les ligands de liaison réels, permettant une évaluation de performance équitable.
GrASP ne considère que les atomes de surface des protéines pour les prédictions de sites de liaison. En utilisant des données expérimentales sur les atomes voisins, il construit une structure de graphe pour évaluer l'environnement entourant chaque atome de surface.
Dans GrASP, une stratégie multi-agrégation est employée, qui combine différentes méthodes d'agrégation d'informations. Cela améliore la capacité du modèle à reconnaître des motifs et à faire des prédictions précises sur les sites de liaison.
Comparaison entre GrASP et P2Rank
P2Rank reste l'une des méthodes les plus largement utilisées pour prédire les sites de liaison. Il utilise un modèle de forêt aléatoire pour évaluer les points de surface des protéines et les regrouper en sites de liaison potentiels. Bien que P2Rank et GrASP visent le même objectif, ils utilisent des approches et des représentations différentes.
GrASP améliore les caractéristiques utilisées pour décrire l'environnement local des surfaces protéiques. Il apprend comment encoder ces caractéristiques grâce à l'attention, contrairement à P2Rank, qui s'appuie sur des descripteurs prédéfinis pour ses mesures basées sur la distance.
Pour évaluer l'efficacité de GrASP, on a adapté un ensemble de données existant qui fournit de nombreux exemples d'interactions protéine-ligand. Cet ensemble de données a été modifié pour s'assurer qu'il couvrait un éventail plus large de sites de liaison, le rendant plus utile pour entraîner et tester le modèle.
Évaluation du modèle et résultats
GrASP a été testé par rapport à son prédécesseur, P2Rank, sur deux grands ensembles de données pour déterminer à quel point il pouvait prédire des sites de liaison. Les résultats ont indiqué que GrASP a obtenu des taux de précision plus élevés, ce qui signifie qu'il était meilleur pour identifier les vrais sites de liaison par rapport au nombre de faux positifs.
Lors d'un des tests, GrASP a montré une amélioration notable dans le rappel et la précision par rapport à P2Rank en évaluant un ensemble contenant des systèmes à chaîne unique. Cela signifie que GrASP a réussi à identifier une plus grande proportion de sites de liaison tout en minimisant les prédictions incorrectes.
En évaluant des systèmes plus complexes contenant plusieurs chaînes, GrASP a maintenu des taux de rappel compétitifs mais a surpassé P2Rank en précision. Cela suggère que, bien que les deux méthodes soient capables de faire des prédictions, GrASP pourrait fournir des informations plus utiles dans des applications pratiques.
Perspectives sur la performance
Grâce aux tests, il est devenu clair que combiner les prédictions de GrASP et P2Rank pourrait couvrir plus de sites de liaison que chaque méthode seule. Cette découverte met en avant les avantages potentiels d'utiliser plusieurs approches pour améliorer la précision des prédictions dans des applications réelles.
GrASP a maintenu des performances constantes à travers diverses identités de séquence, indiquant qu'il peut bien se généraliser à des protéines qui ne sont pas étroitement liées à celles vues durant l'entraînement. Cela est essentiel pour la découverte de médicaments, où de nombreuses protéines peuvent ne pas avoir été testées auparavant.
Conclusion
Le développement de GrASP représente un pas en avant significatif dans la prédiction des sites de liaison. Sa capacité à atteindre une haute précision et un bon rappel avec une approche flexible offre des perspectives passionnantes pour les applications en découverte de médicaments.
À mesure que les chercheurs continuent à perfectionner les méthodes de prédiction des sites de liaison, il pourrait être bénéfique de se concentrer sur la combinaison de différentes techniques et métriques pour améliorer la précision et l'efficacité des processus de découverte de médicaments. Les efforts futurs devraient viser à traiter la prédiction des sites de liaison comme une tâche de segmentation, facilitant ainsi l'identification et la catégorisation des sites de liaison, ce qui pourrait mener à de meilleures méthodes pour concevoir des médicaments efficaces.
Titre: Graph Attention Site Prediction (GrASP): Identifying Druggable Binding Sites Using Graph Neural Networks with Attention
Résumé: Identifying and discovering druggable protein binding sites is an important early step in computer-aided drug discovery but remains a difficult task where most campaigns rely on a priori knowledge of binding sites from experiments. Here we present a binding site prediction method called Graph Attention Site Prediction (GrASP) and re-evaluate assumptions in nearly every step in the site prediction workflow from dataset preparation to model evaluation. GrASP is able to achieve state-of-the-art performance at recovering binding sites in PDB structures while maintaining a high degree of precision which will minimize wasted computation in downstream tasks such as docking and free energy perturbation.
Auteurs: Pratyush Tiwary, Z. Smith, M. Strobel, B. Vani
Dernière mise à jour: 2024-02-23 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2023.07.25.550565
Source PDF: https://www.biorxiv.org/content/10.1101/2023.07.25.550565.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.