Simple Science

La science de pointe expliquée simplement

# Biologie quantitative# Biomolécules

Avancées dans l'identification des coagulants en utilisant l'apprentissage automatique

Cette étude explore des techniques d'apprentissage machine pour trouver de nouveaux candidats coagulants.

― 9 min lire


IA dans la découverte deIA dans la découverte decoagulantscandidats pour la coagulation sanguine.Utiliser l'IA pour trouver de nouveaux
Table des matières

Trouver de nouveaux médicaments, c'est pas simple. Les scientifiques doivent dénicher des molécules qui marchent bien pour des problèmes spécifiques, comme des maladies, tout en ayant peu d'effets secondaires. C'est important parce que les meilleurs médicaments n'affectent que les parties mauvaises du corps, laissant les bonnes tranquilles.

À mesure que les chercheurs étudient plus de molécules, ils peuvent utiliser ces infos pour créer des modèles utiles qui accélèrent la recherche de nouveaux médicaments. Cependant, quand y a pas beaucoup de données sur une molécule spécifique, ces modèles peuvent ne pas bien fonctionner. Par exemple, on connaît plein de molécules qui arrêtent la coagulation du sang, mais y en a beaucoup moins qui aident à la coagulation.

Cet article parle d'une méthode pour trouver de nouvelles molécules qui aident à la coagulation en utilisant une technique appelée apprentissage automatique. Cette méthode utilise un modèle d'apprentissage profond pour représenter les différentes façons dont les molécules peuvent apparaître et se comporter.

Le Processus de Découverte de Médicaments

Le parcours pour créer un médicament commence par identifier ce qui cause une maladie. Après ça, les scientifiques dressent une liste de candidats médicaments potentiels et les verifient avec des modèles informatiques. Pendant ce processus, plusieurs propriétés de chaque candidat sont analysées pour éliminer les plus faibles avant de les tester en labo. Ce processus fait gagner du temps et des ressources, ce qui est crucial car les tests peuvent coûter cher.

La façon dont les molécules sont structurées et leur composition chimique impactent beaucoup leurs propriétés, comme la facilité avec laquelle elles se dissolvent dans des liquides ou leurs points de fusion. Cette relation entre la structure d'une molécule et ses propriétés est connue sous le nom de Relation Structure-Activité/Propriété Quantitative (QSAR).

L'apprentissage automatique a gagné en popularité dans la découverte de médicaments au cours de la dernière décennie. Cette montée est due à son succès dans d'autres domaines comme la reconnaissance d'images et le traitement du langage. En plus, la quantité de données disponibles pour la découverte de médicaments a augmenté de manière significative, permettant des solutions plus basées sur les données.

Apprentissage Automatique dans le Design de Médicaments

Le premier usage de l'apprentissage automatique dans le design de médicaments remonte aux années 1990. L'idée était que les propriétés biologiques pouvaient être décrites en fonction de la structure chimique des molécules.

En utilisant les relations structure-propriété, les scientifiques peuvent estimer le potentiel d'un médicament et son comportement dans le corps, incluant comment il est absorbé, comment il se propage, comment il est décomposé, et sa toxicité.

Prédire à quel point un médicament se lie à sa cible est un des plus gros défis. Avec les multiples façons de structurer les molécules, il devient difficile de trouver les meilleures, et les méthodes traditionnelles peuvent prendre beaucoup de temps et utiliser beaucoup de ressources.

Certaines études se sont concentrées sur la prédiction de la capacité d'un médicament à se lier à des cibles protéiques spécifiques. Différentes méthodes d'apprentissage automatique ont été utilisées, comme les Machines à Vecteurs de Support, les Forêts Aléatoires, et les réseaux de neurones pour améliorer ce processus de prédiction.

Récemment, quelques chercheurs ont exploré des approches combinées où différents modèles travaillent ensemble pour améliorer la précision.

Focus sur les Coagulants

Dans cette étude, on s'intéresse spécifiquement aux coagulants, qui sont des substances qui aident le sang à coaguler. Un acteur clé de ce système est la Protéine C, une protéine fabriquée dans le foie. Cette protéine est généralement inactive et doit être activée avant de pouvoir remplir sa fonction de prévention de la coagulation.

Lorsqu'il y a une blessure, un processus appelé la cascade de coagulation démarre, menant à la production de Thrombine, une enzyme qui contribue à former des caillots sanguins. La Thrombine joue un double rôle ; elle favorise la coagulation mais active aussi la Protéine C. Une fois activée, la Protéine C travaille avec une autre protéine, la Protéine S, pour lutter contre la coagulation excessive en inhibant des facteurs spécifiques impliqués dans le processus de coagulation.

En se concentrant sur l'inhibition de la Protéine C, on peut déplacer l'équilibre vers une coagulation accrue.

La Méthode

La recherche tire profit des techniques d'apprentissage automatique pour proposer de nouveaux candidats coagulants, particulièrement dans les cas où il y a peu de données disponibles sur les coagulants existants.

Au début, on fait un aperçu de la façon dont les applications actuelles d'apprentissage automatique aident dans le design de médicaments avant de plonger dans les spécificités des coagulants.

L'idée de base est qu'on peut utiliser un modèle d'apprentissage automatique pour créer une "carte" de différentes molécules. Pour ça, on a formé un modèle connu sous le nom d'Autoencodeur, qui aide à compresser les informations sur diverses molécules. Un autoencodeur est divisé en deux parties : l'encodeur, qui réduit la taille d'entrée, et le décodeur, qui la restaure.

Le but est de créer un espace où les structures des inhibiteurs connus peuvent être utilisées pour en trouver de nouveaux. On peut légèrement modifier les structures connues pour créer des candidats potentiels.

Méthodologie Détails

Le processus implique beaucoup d'étapes. D'abord, on entraîne l'autoencodeur en utilisant la notation SMILES, une façon de représenter des structures moléculaires sous forme de texte. En utilisant beaucoup de données de différentes molécules, l'autoencodeur apprend à représenter ces structures efficacement.

Ensuite, on génère de nouveaux candidats en utilisant différentes techniques. Par exemple, on peut explorer l'espace autour des inhibiteurs connus, à la recherche d'autres structures similaires. On peut aussi créer de nouveaux candidats en mélangeant ceux qui existent et en cherchant des composés dans les alentours.

Chaque candidat peut ensuite être évalué en fonction de divers filtres pour s'assurer qu'ils répondent aux critères d'un bon candidat médicament. Ces filtres peuvent prendre en compte la facilité avec laquelle le composé peut être synthétisé, son potentiel de toxicité, et s'il ressemble à des inhibiteurs connus qui ont réussi.

Données et Formation

Les données d'entraînement pour l'autoencodeur proviennent de bases de données précédemment recueillies qui contiennent une large gamme de structures moléculaires. En filtrant les données et en retirant toutes les variables qui ne nous aideront pas dans notre apprentissage, on s'assure que le modèle reçoit les meilleures informations possibles.

Pendant l'entraînement, on se concentre à faire en sorte que l'autoencodeur apprenne à reconstruire fidèlement ses entrées - ça veut dire qu'il peut représenter efficacement les molécules qu'il a déjà vues.

De plus, on construit des modèles pour prédire à quel point ces nouveaux candidats pourraient bien se lier aux protéines cibles. On effectue un processus en deux étapes pour la validation, d'abord en classifiant les candidats comme actifs ou inactifs, puis en prédisant la force de leur liaison.

Génération de Nouveaux Candidats

Une fois les modèles développés, on génère de nouveaux candidats pour les inhibiteurs de Thrombine et les inhibiteurs de Protéine C. Pour la Thrombine, on utilise une méthode appelée SMOTE pour générer plein de nouvelles structures moléculaires candidates en interpolant entre des exemples connus.

Pour la Protéine C, on suit une approche similaire mais on fait attention à s'assurer qu'on génère des composés qui ne ressemblent pas trop aux inhibiteurs de Thrombine, en visant à créer un groupe distinct de candidats.

À mesure qu'on génère les nouvelles molécules, on applique des filtres additionnels pour éliminer celles qui ne répondent pas aux critères nécessaires pour un candidat médicament potentiel.

Évaluation des Résultats

Une fois que de nouveaux candidats sont générés, on analyse leurs propriétés. Pour la Thrombine et la Protéine C, on regarde combien des nouveaux candidats générés sont prédits comme actifs selon nos modèles.

En utilisant diverses méthodes de filtrage de données, comme le filtre de Lipinski, on peut évaluer à quel point ces candidats pourraient bien performer en tant que médicaments.

Après ça, on compare nos résultats avec une autre méthode appelée MegaMolBART, qui utilise aussi l'apprentissage automatique pour générer des composés chimiques.

Conclusion

En résumé, cette étude examine comment l'apprentissage automatique peut aider à trouver de nouveaux coagulants quand les données sont limitées. En tirant parti des capacités d'un autoencodeur, on peut fournir une manière structurée d'explorer l'espace chimique et de générer de nouveaux candidats médicaments.

À travers diverses techniques, on peut trouver des molécules potentiellement nouvelles qui pourraient améliorer le processus de coagulation en se concentrant sur des inhibiteurs connus tout en respectant des mesures strictes de filtrage et de validation.

L'approche peut aussi être précieuse pour d'autres types de protéines et de maladies, montrant sa polyvalence et son potentiel dans la découverte de médicaments. En comprenant la carte chimique créée à travers ce processus, on pourrait débloquer de nouvelles opportunités pour développer des médicaments efficaces à l'avenir.

Source originale

Titre: Machine learning-assisted search for novel coagulants: when machine learning can be efficient even if data availability is low

Résumé: Design of new drugs is a challenging process: a candidate molecule should satisfy multiple conditions to act properly and make the least side-effect -- perfect candidates selectively attach to and influence only targets, leaving off-targets intact. The amount of experimental data about various properties of molecules constantly grows, promoting data-driven approaches. However, the applicability of typical predictive machine learning techniques can be substantially limited by a lack of experimental data about a particular target. For example, there are many known Thrombin inhibitors (acting as anticoagulants), but a very limited number of known Protein C inhibitors (coagulants). In this study, we present our approach to suggest new inhibitor candidates by building an effective representation of chemical space. For this aim, we developed a deep learning model -- autoencoder, trained on a large set of molecules in the SMILES format to map the chemical space. Further, we applied different sampling strategies to generate novel coagulant candidates. Symmetrically, we tested our approach on anticoagulant candidates, where we were able to predict their inhibition towards Thrombin. We also compare our approach with MegaMolBART -- another deep learning generative model, but exploiting similar principles of navigation in a chemical space.

Auteurs: Andrij Rovenchak, Maksym Druchok

Dernière mise à jour: 2024-01-03 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2401.01811

Source PDF: https://arxiv.org/pdf/2401.01811

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires