Simple Science

La science de pointe expliquée simplement

# Physique# Physique biologique

Avancées dans la découverte de médicaments avec LP-PDBBind

Un nouveau jeu de données vise à améliorer les prédictions en matière de découverte de médicaments.

― 8 min lire


Découverte de médicamentsDécouverte de médicamentsétancheprédictions de liaison des médicaments.Nouveau jeu de données améliore les
Table des matières

Ces dernières années, la découverte de nouveaux médicaments s'appuie beaucoup sur une méthode appelée découverte de médicaments assistée par ordinateur. Une partie clé de ce processus consiste à prédire à quel point une petite molécule, appelée ligand, peut se lier à une protéine. Cette liaison est cruciale pour qu'un médicament puisse influencer la fonction de la protéine dans le corps. Pour prédire cette liaison, les scientifiques utilisent des fonctions de scoring (SFs). Ces SFs aident à déterminer le meilleur ajustement entre le ligand et la protéine, ce qui est essentiel pour fabriquer des médicaments efficaces.

L'importance des données dans la découverte de médicaments

Une des plus grandes ressources pour étudier les interactions protéine-ligand est une base de données appelée PDBBind. Cette base de données contient de nombreux exemples de complexes protéine-ligand ainsi que leurs Affinités de liaison mesurées. Cependant, un problème survient parce que beaucoup de SFs ont été entraînées en utilisant ce même ensemble de données. Si les données d'entraînement sont trop similaires aux données de test, cela peut conduire à des évaluations inexactes de la performance des modèles sur de nouvelles données. Cette situation soulève des questions sur la fiabilité des prédictions faites par ces modèles.

Problèmes avec les ensembles de données existants

PDBBind se compose de différents sous-ensembles : l'ensemble général, l'ensemble affiné et l'ensemble de base. Ces sous-ensembles contiennent des complexes protéine-ligand de qualité et de types variés. L'ensemble de base est particulièrement précieux car il contient des données de haute qualité, mais il se chevauche de manière significative avec les autres ensembles. Un tel chevauchement peut conduire à une surestimation de la capacité d'une fonction de scoring à prédire de nouvelles interactions, puisque les modèles ont déjà "vu" ces données auparavant.

Pour faire face à ces défis, les chercheurs ont essayé diverses méthodes pour diviser et réorganiser les données afin de minimiser le risque de fuite de données. Cela signifie s'assurer que les modèles sont testés sur des données qu'ils n'ont jamais rencontrées pendant l'entraînement.

Introduction de Leak Proof PDBBind (LP-PDBBind)

L'objectif de créer une version "sans fuite" de PDBBind est de fournir un ensemble de données plus propre qui peut mieux informer l'entraînement des fonctions de scoring tout en réduisant le risque de surapprentissage. Le nouvel ensemble de données LP-PDBBind est développé en organisant soigneusement les données en ensembles d'entraînement, de validation et de test. Ces ensembles sont censés être aussi distincts les uns des autres que possible, minimisant toute similitude dans les complexes protéine-ligand qu'ils contiennent.

Dans cette réorganisation, l'une des tâches principales est de retirer les liants covalents, car la plupart des fonctions de scoring se concentrent principalement sur les interactions de liaison non covalentes. La liaison covalente peut compliquer inutilement les modèles.

Nettoyage de l'ensemble de données

Plusieurs étapes ont été mises en œuvre pour nettoyer l'ensemble de données PDBBind. La première étape a consisté à retirer les complexes ayant des liaisons covalentes, qui sont moins courantes et nécessitent généralement des approches de modélisation différentes.

Ensuite, les chercheurs se sont concentrés sur la qualité des ligands eux-mêmes. Il a été constaté que tous les ligands dans la base de données ne correspondaient pas aux caractéristiques des molécules semblables à des médicaments. Certains ligands étaient plus grands ou avaient des structures qui pouvaient fausser le processus d'entraînement. Par conséquent, les ligands avec des propriétés atypiques ont été retirés de l'ensemble de données pour améliorer la qualité.

D'autres étapes de nettoyage ont impliqué de s'assurer que les affinités de liaison rapportées étaient cohérentes et fiables. Cela signifiait convertir différentes formes d'affinités de liaison rapportées en une norme commune pour faciliter la comparaison.

La nouvelle méthode de séparation

La nouvelle méthode pour séparer l'ensemble de données PDBBind essaie de s'assurer que les ensembles d'entraînement, de validation et de test contiennent des données distinctes. Les chercheurs ont commencé par sélectionner quelques exemples pour l'ensemble de test, puis ont systématiquement ajouté des données similaires à cet ensemble. Après avoir finalisé l'ensemble de test, ils ont fait un processus similaire pour l'ensemble de validation, laissant les données restantes pour l'entraînement. Cette approche minimise le risque de fuite de données et permet une meilleure évaluation des performances des fonctions de scoring.

Évaluation des fonctions de scoring

Les fonctions de scoring reposent sur diverses approches pour prédire les affinités de liaison. Elles peuvent être largement divisées en fonctions de scoring physiques (PSFs) et en fonctions de scoring par apprentissage automatique (MLSFs). Les PSFs sont basées sur des principes de chimie physique, tandis que les MLSFs utilisent de grandes quantités de données pour reconnaître des motifs dans les interactions ligand-protéine.

L'ensemble de données LP-PDBBind a été utilisé pour réentraîner plusieurs fonctions de scoring populaires, y compris AutoDock Vina, RF-Score, IGN et DeepDTA. Chacune de ces fonctions de scoring a sa propre méthodologie pour déterminer comment un ligand se lie à une protéine.

Résultats du processus de réentraînement

Après avoir réentraîné les différentes fonctions de scoring en utilisant LP-PDBBind, les chercheurs ont évalué leur performance par rapport aux anciens modèles et à un ensemble de référence indépendant appelé BDB2020+. Ce nouvel ensemble de données est compilé à partir de dossiers qui ne chevauchent pas PDBBind, fournissant un test plus réaliste de la capacité des modèles à prédire les affinités de liaison pour de nouvelles paires protéine-ligand.

Les résultats ont montré que les modèles réentraînés avaient une meilleure performance pour prédire les affinités de liaison par rapport aux modèles originaux. AutoDock Vina, par exemple, a montré une diminution significative de l'erreur moyenne des prédictions après réentraînement, améliorant ainsi son exactitude globale.

Fait intéressant, bien que la performance des modèles s'appuyant fortement sur des données de structure 3D se soit améliorée, les modèles purement basés sur les données, comme DeepDTA, n'ont pas bénéficié de la même manière. Cette découverte souligne l'importance d'utiliser des informations structurelles 3D dans le développement de fonctions de scoring fiables.

Classement de la performance des fonctions de scoring

Au-delà de simplement prédire les affinités de liaison, il est crucial que les fonctions de scoring puissent classer efficacement différents ligands quand plusieurs options sont disponibles pour une cible protéique donnée. Cette capacité de classement est ce qui aide finalement les développeurs de médicaments à choisir les meilleures molécules candidates pour des tests supplémentaires.

Les chercheurs ont préparé deux ensembles de données spécifiques à partir d'expériences réelles : un impliquant la principale protéase du SARS-CoV-2 et un autre pour le récepteur du facteur de croissance épidermique (EGFR). Ces ensembles de données ont été utilisés pour tester l'efficacité avec laquelle chaque fonction de scoring classait les affinités de liaison de leurs ligands respectifs.

Les résultats ont indiqué que les modèles réentraînés montraient généralement de meilleures performances de classement que les originaux. Par exemple, AutoDock Vina et RF-Score ont tous deux atteint une plus grande précision dans le classement des ligands potentiels pour la protéine Mpro. Le modèle IGN a également excellé, démontrant sa capacité à généraliser à travers différents ensembles de données.

Conclusion

La réorganisation et le nettoyage soigneux de l'ensemble de données PDBBind en LP-PDBBind représentent une avancée significative pour la recherche en découverte de médicaments. En minimisant la fuite de données et en améliorant la qualité des données d'entrée, les chercheurs peuvent construire des fonctions de scoring plus robustes qui non seulement prédisent les affinités de liaison de manière plus précise, mais classent également efficacement les ligands.

Les améliorations réalisées grâce au réentraînement de ces fonctions de scoring utilisant LP-PDBBind et des ensembles de données d'évaluation indépendants comme BDB2020+ sont prometteuses pour les futurs efforts de découverte de médicaments. Ce travail souligne la nécessité d'un raffinement continu des données et des modèles dans le domaine de la découverte de médicaments computationnels, car des repères plus clairs et de meilleures fonctions de scoring peuvent mener à des traitements plus efficaces pour diverses maladies.

Source originale

Titre: Leak Proof PDBBind: A Reorganized Dataset of Protein-Ligand Complexes for More Generalizable Binding Affinity Prediction

Résumé: Many physics-based and machine-learned scoring functions (SFs) used to predict protein-ligand binding free energies have been trained on the PDBBind dataset. However, it is controversial as to whether new SFs are actually improving since the general, refined, and core datasets of PDBBind are cross-contaminated with proteins and ligands with high similarity, and hence they may not perform comparably well in binding prediction of new protein-ligand complexes. In this work we have carefully prepared a cleaned PDBBind data set of non-covalent binders that are split into training, validation, and test datasets to control for data leakage, defined as proteins and ligands with high sequence and structural similarity. The resulting leak-proof (LP)-PDBBind data is used to retrain four popular SFs: AutoDock Vina, Random Forest (RF)-Score, InteractionGraphNet (IGN), and DeepDTA, to better test their capabilities when applied to new protein-ligand complexes. In particular we have formulated a new independent data set, BDB2020+, by matching high quality binding free energies from BindingDB with co-crystalized ligand-protein complexes from the PDB that have been deposited since 2020. Based on all the benchmark results, the retrained models using LP-PDBBind consistently perform better, with IGN especially being recommended for scoring and ranking applications for new protein-ligand systems.

Auteurs: Jie Li, Xingyi Guan, Oufan Zhang, Kunyang Sun, Yingze Wang, Dorian Bagni, Teresa Head-Gordon

Dernière mise à jour: 2024-05-02 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2308.09639

Source PDF: https://arxiv.org/pdf/2308.09639

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Apprentissage automatiquePerturbations inoffensives : Équilibrer la vie privée et l'apprentissage profond

Apprends comment des perturbations inoffensives protègent la vie privée dans l'apprentissage profond sans affecter la fonctionnalité des réseaux de neurones profonds.

― 8 min lire

Articles similaires