Simple Science

La science de pointe expliquée simplement

# Biologie quantitative# Méthodes quantitatives# Physique chimique

Évaluer l'apprentissage profond dans les méthodes de docking de médicaments

Évaluer l'efficacité de l'apprentissage profond dans la précision et la plausibilité du docking moléculaire.

― 9 min lire


Évaluation des méthodesÉvaluation des méthodesde docking desmédicamentsdocking des médicaments.ont des soucis avec la précision duLes méthodes d'apprentissage profond
Table des matières

Le docking est super important pour découvrir de nouveaux médicaments. Ça consiste à comprendre comment une petite molécule, appelée ligand, peut se fixer à une protéine. Les scientifiques utilisent soit des infos de leurs expériences, soit des modèles informatiques de la protéine et du ligand pour prédire leur interaction. Le but, c'est de voir si le ligand peut bien s'intégrer dans la protéine, ce qui aide les chercheurs à choisir les meilleurs candidats pour des médicaments.

Les Prédictions du docking peuvent être utilisées pour un dépistage virtuel, où une tonne de molécules potentielles est testée pour voir lesquelles peuvent fonctionner comme traitements efficaces. Les chimistes médicaux s'appuient aussi sur ces prédictions pour comprendre comment une petite molécule se lie à une protéine, ce qui les aide à décider si la molécule a du potentiel pour devenir un médicament.

Les méthodes de docking se basent sur l'idée que la liaison se fait grâce aux interactions entre les structures de la protéine et du ligand. Mais, ce processus peut être complexe, donc les méthodes doivent équilibrer rapidité et précision.

Le Rôle de l'Apprentissage Profond dans le Docking

La technologie d'apprentissage profond (DL) change la façon dont on fait le docking. Ça promet de rendre les processus de docking plus rapides et plus précis. Plusieurs méthodes de docking basées sur le DL ont été proposées, chacune ayant ses propres manières de prédire comment les Ligands vont se lier aux protéines.

Les méthodes de docking traditionnelles incluent des caractéristiques spécifiques dans leurs calculs pour s'assurer qu'elles ont du sens chimiquement et qu'elles sont physiquement plausibles. Par exemple, ces méthodes limitent le mouvement du ligand aux parties qui peuvent tourner. Elles appliquent aussi des pénalités si la protéine et le ligand se chevauchent d'une manière qui n'est pas possible.

Cependant, certaines méthodes de docking basées sur le DL actuelles pourraient passer à côté de ces vérifications importantes. Ça peut mener à des poses de liaison peu réalistes, même si elles montrent une bonne précision en termes de valeurs de déviation quadratique moyenne (RMSD). Le RMSD est une manière courante de mesurer à quel point un mode de liaison prédit est proche du réel.

Pour vraiment évaluer la performance des méthodes de docking, on a besoin de tests indépendants pour vérifier à quel point les poses prédites sont chimiquement et physiquement plausibles. Ça aidera à identifier ce qui manque dans les méthodes de docking basées sur le DL actuelles et à encourager le développement de meilleures prédictions.

Importance de la Plausibilité Physique

Vérifier la plausibilité physique des prédictions de docking, c'est un peu comme valider des données de structure dans la Banque de Données des Protéines (PDB). La validation des structures vérifie si les longueurs de liaison et les angles du ligand correspondent à des structures chimiques connues. On cherche aussi des conflits stériques, qui sont des situations où des atomes sont trop proches les uns des autres.

Les vérifications initialement conçues pour valider les ligands aident les utilisateurs à sélectionner des structures qui sont probablement correctes. Pendant ce temps, les méthodes de docking sont jugées sur leur capacité à recréer des structures cristallines, ce qui signifie que leurs sorties doivent aussi passer ces mêmes vérifications de plausibilité.

Certaines méthodes de travail pour générer des conformations de ligands incluent déjà des vérifications physiques. Par exemple, les vérifications géométriques mesurent à quel point les longueurs de liaison et les angles prédites s'écartent des valeurs optimales connues. Des vérifications chimiques supplémentaires peuvent identifier des erreurs comme des motifs de liaison incorrects ou des groupes fonctionnels manquants.

Le but ici, c'est de s'assurer que les conformations de liaison prédites sont valides à la fois chimiquement et physiquement.

État Actuel des Méthodes de Docking

La plupart des comparaisons entre les méthodes de docking se concentrent fortement sur le RMSD du mode de liaison, et cette tendance se poursuit avec l'introduction de nouvelles méthodes. Les cinq méthodes de docking basées sur le DL examinées montrent des promesses de performance améliorée par rapport aux méthodes standards, mais ces promesses reposent principalement sur les valeurs de RMSD sans vérifier la plausibilité physique.

Pour remédier à ces lacunes, on présente le test PoseBusters. Ce test est conçu pour vérifier les conformations peu plausibles dans les poses de ligand prédites. On a utilisé PoseBusters pour évaluer les résultats de cinq méthodes de docking basées sur le DL en parallèle avec deux méthodes de docking classiques.

Les résultats révèlent que lorsqu'on ne se concentre que sur le RMSD, certaines méthodes basées sur le DL peuvent sembler bien performer. Cependant, en tenant compte du réalisme physique de leurs prédictions, les méthodes classiques surpassent souvent les approches DL.

Vue d'Ensemble des Méthodes de Docking Testées

Les cinq méthodes basées sur le DL que nous avons examinées incluent :

  1. DeepDock : Cette méthode apprend un potentiel statistique basé sur les distances entre les atomes de ligand et les points de la surface de la protéine.
  2. DiffDock : Utilise des techniques de graphes pour effectuer un docking aveugle, sans avoir besoin d'un site de liaison prédéfini.
  3. EquiBind : Similaire à DiffDock mais se concentre sur l'utilisation de réseaux de neurones graphiques spécifiquement pour le docking.
  4. TankBind : Cette méthode utilise une approche unique qui intègre la trigonométrie pour le docking dans les poches de liaison prédites.
  5. Uni-Mol : Utilise des transformateurs conçus pour gérer les formes et orientations des molécules pendant le docking.

Deux méthodes classiques incluses dans l'étude sont AutoDock Vina et Gold, qui ont établi une solide réputation dans le domaine.

Chacune des méthodes sélectionnées avait des données d'entraînement spécifiques provenant de divers sous-ensembles du jeu de données PDBBind. Ce jeu de données contient des informations sur les complexes protéine-ligand et est utilisé pour entraîner ces modèles de docking.

Test PoseBusters

Le test PoseBusters se compose de trois sections principales :

  1. Validité Chimique : Ce premier groupe vérifie si le ligand prédit respecte les normes et propriétés chimiques reconnues.
  2. Propriétés Intramoléculaires : La deuxième section teste des facteurs géométriques, comme les longueurs de liaison et les angles, pour s'assurer qu'ils sont dans des limites acceptables.
  3. Interactions Intermoléculaires : Le dernier groupe examine comment le ligand interagit avec la protéine et tous les cofacteurs, vérifiant les chevauchements et les conflits.

Les poses prédites qui passent tous les tests de PoseBusters sont étiquetées comme 'PB-valid'. Pour évaluer les prédictions, le test nécessite des fichiers d'entrée contenant les ligands redockés, les véritables ligands et la structure de la protéine.

Évaluation des Méthodes de Docking

En utilisant le test PoseBusters, on a évalué les prédictions générées par les méthodes de docking basées sur le DL et classiques. En redocking les ligands dans leurs protéines respectives, on a pu évaluer comment chaque méthode performait dans les mêmes conditions.

Résultats pour le Set Divers d'Astex

Le set divers d'Astex contient une variété de complexes protéines-ligands sélectionnés pour évaluer les méthodes de docking. Les résultats montrent que lorsqu'on considère uniquement le RMSD, l'une des méthodes basées sur le DL, DiffDock, performe le mieux. Cependant, lorsque la plausibilité physique est également considérée, les méthodes traditionnelles comme Gold et AutoDock Vina s'en sortent mieux.

Dans ce contexte, il est important de souligner que même si DiffDock pouvait générer de nombreuses prédictions apparemment précises basées sur le RMSD, beaucoup de ces prédictions n'étaient pas physiquement raisonnables.

Résultats pour le Set de Référence PoseBusters

Le set de référence PoseBusters consiste en des complexes protéines-ligands plus difficiles que les méthodes DL n'ont pas rencontrées pendant l'entraînement. Sur ce set de test, Gold et AutoDock Vina continuent de bien performer, tandis que les méthodes DL comme DiffDock accusent un retard, montrant leur difficulté avec des données nouvelles.

Même après avoir effectué une minimisation de l'énergie post-docking, qui ajuste les poses prédites pour mieux correspondre, les résultats suggèrent que les méthodes classiques surpassent toujours les méthodes DL en performance et plausibilité.

Limitations des Méthodes d'Apprentissage Profond

Les résultats des deux ensembles indiquent que les méthodes basées sur le DL rencontrent actuellement des défis avec la généralisation. Elles performent souvent bien sur des données similaires à leurs ensembles d'entraînement, mais peinent avec des complexes non vus. Cela suggère un potentiel surajustement à des structures protéiques spécifiques présentées pendant l'entraînement.

De plus, bien que la minimisation de l'énergie puisse améliorer certaines prédictions des méthodes DL, elles n'atteignent toujours pas les niveaux de précision des méthodes classiques comme Gold et AutoDock Vina. Cela souligne que des aspects clés de la chimie et de la physique représentés dans les modèles de docking classiques ne sont pas entièrement capturés par les techniques DL actuelles.

Conclusion

Pour résumer, bien que les méthodes de docking basées sur le DL montrent du potentiel, notre analyse à travers le test PoseBusters met en évidence d'importantes zones à améliorer, en particulier pour maintenir la plausibilité physique et la généralisation à de nouvelles données. Au fur et à mesure que ces méthodes évoluent, intégrer des vérifications pour la cohérence chimique et le réalisme physique sera essentiel pour faire avancer le domaine de la découverte de médicaments.

Le test PoseBusters offre un outil précieux pour les développeurs, les aidant à identifier les faiblesses des modèles actuels et à guider le développement de meilleures méthodes de docking. Ce travail continu vise à favoriser des progrès vers des prédictions plus fiables dans la quête de traitements efficaces.

Source originale

Titre: PoseBusters: AI-based docking methods fail to generate physically valid poses or generalise to novel sequences

Résumé: The last few years have seen the development of numerous deep learning-based protein-ligand docking methods. They offer huge promise in terms of speed and accuracy. However, despite claims of state-of-the-art performance in terms of crystallographic root-mean-square deviation (RMSD), upon closer inspection, it has become apparent that they often produce physically implausible molecular structures. It is therefore not sufficient to evaluate these methods solely by RMSD to a native binding mode. It is vital, particularly for deep learning-based methods, that they are also evaluated on steric and energetic criteria. We present PoseBusters, a Python package that performs a series of standard quality checks using the well-established cheminformatics toolkit RDKit. Only methods that both pass these checks and predict native-like binding modes should be classed as having "state-of-the-art" performance. We use PoseBusters to compare five deep learning-based docking methods (DeepDock, DiffDock, EquiBind, TankBind, and Uni-Mol) and two well-established standard docking methods (AutoDock Vina and CCDC Gold) with and without an additional post-prediction energy minimisation step using a molecular mechanics force field. We show that both in terms of physical plausibility and the ability to generalise to examples that are distinct from the training data, no deep learning-based method yet outperforms classical docking tools. In addition, we find that molecular mechanics force fields contain docking-relevant physics missing from deep-learning methods. PoseBusters allows practitioners to assess docking and molecular generation methods and may inspire new inductive biases still required to improve deep learning-based methods, which will help drive the development of more accurate and more realistic predictions.

Auteurs: Martin Buttenschoen, Garrett M. Morris, Charlotte M. Deane

Dernière mise à jour: 2023-11-28 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2308.05777

Source PDF: https://arxiv.org/pdf/2308.05777

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires