Faire avancer la découverte de médicaments avec l'apprentissage automatique
Utiliser l'IA pour améliorer l'identification des cibles médicamenteuses et réduire les coûts de découverte.
― 7 min lire
Table des matières
Le coût pour amener un nouveau médicament sur le marché a dépassé un milliard de dollars et continue d'augmenter. En même temps, les avancées dans le séquençage du génome humain révèlent de nouvelles maladies et des variations dans des conditions existantes. La méthode traditionnelle de découverte de médicaments cible souvent une maladie à la fois et teste de nombreux composés individuellement, ce qui rend difficile de suivre la découverte de nouvelles maladies. De nouvelles méthodes sont nécessaires à chaque étape de la découverte de médicaments pour faire face à ces changements. La technologie moderne, surtout l'intelligence artificielle (IA) et l'Apprentissage automatique, peut aider, en particulier dans les domaines où de grandes quantités de données peuvent être utilisées.
Le défi de la découverte de médicaments
Dans la découverte de médicaments, une étape importante est de déterminer quels protéines un médicament potentiel pourrait affecter. Ce processus est connu sous le nom d'identification des cibles. Parfois, un médicament peut sembler prometteur lors des tests en laboratoire mais nécessite des investigations supplémentaires pour montrer comment il fonctionne. Cette étape peut être coûteuse, longue, et souvent ne donne pas de résultats clairs.
Aucune méthode expérimentale unique ne peut déterminer de manière définitive la cible d'un médicament. La Protéomique, qui étudie les protéines, peut identifier des cibles inconnues en utilisant différentes méthodes comme des essais de "pull-down" ou en observant comment un médicament affecte la stabilité des protéines. Une autre approche utilise des panneaux d'essai pour vérifier si un médicament interagit avec certaines classes de cibles connues, comme les kinases. Cependant, cette méthode ne peut tester qu'une petite portion des cibles potentielles.
Récemment, de nouvelles techniques fournissant des informations biologiques détaillées ont fait leur apparition. Par exemple, des essais de profilage basés sur l'image comme le Cell Painting créent des signatures détaillées de produits chimiques en examinant les changements dans la forme et la taille des cellules au microscope. Ces essais peuvent traiter des millions de composés rapidement et examiner tous les gènes du génome humain en utilisant des changements génétiques.
Apprentissage automatique dans l'identification des cibles médicamenteuses
Dans cette étude, on se concentre sur l'application d'une méthode d'apprentissage automatique pour rendre le processus d'identification des cibles plus rapide et plus précis. On veut relier les médicaments potentiels à leurs protéines cibles. Cela aide à expliquer comment ils fonctionnent et est essentiel pour le développement de médicaments.
On utilise un ensemble de données appelé CPJUMP1, qui comprend divers composés chimiques et changements génétiques liés à leurs effets. Cet ensemble inclut 302 composés et 160 gènes. Notre objectif est de créer un modèle d'apprentissage automatique qui prédit la probabilité qu'un composé interagisse avec un gène spécifique basé sur les profils visuels générés par les essais Cell Painting.
Les méthodes traditionnelles pour vérifier si un composé affecte un gène reposent sur la comparaison de profils, mais celles-ci peuvent être limitées. Notre approche utilise un modèle de transformateur, un type d'IA qui a montré des promesses pour comprendre les relations dans de grands ensembles de données, afin de prédire ces interactions avec plus de précision.
Approche expérimentale
Pour voir à quel point notre méthode est efficace, on a développé un modèle qui prédit si une paire gène-composé a une véritable connexion. On a conçu l'ensemble de données CPJUMP1 pour inclure des paires de composés et de gènes qui sont probablement liés.
On a utilisé diverses stratégies pour tester notre modèle. Une façon était de laisser de côté certains composés pour voir si notre modèle pouvait encore identifier des connexions. Une autre façon était de laisser de côté certains gènes. Enfin, la troisième approche consistait à laisser aléatoirement de côté des paires de composés et de gènes. Chaque approche nous aide à comprendre à quel point le modèle fonctionne sous différentes circonstances.
Trois méthodes de référence ont été utilisées pour comparer les performances de notre modèle : la correspondance directe des profils, une approche basée sur la similarité, et l'entraînement d'un classificateur séparé pour chaque cible de gène. Notre modèle utilise la morphologie du gène pour améliorer les prévisions et espérons obtenir de meilleurs résultats que les références.
Résultats
Nos résultats montrent que le modèle fonctionne bien dans des scénarios où les connexions entre les composés sont connues grâce aux données d'entraînement. Dans les cas où les composés n'ont pas été vus lors de l'entraînement, le modèle a tout de même réussi à prédire des connexions possibles entre gènes, bien qu'il ait été moins efficace pour identifier des gènes qui n'avaient pas montré de connexions précédentes.
Pour les gènes nouveaux, le modèle a rencontré des défis importants. Contrairement aux scénarios de composés où des composés similaires partagent souvent des relations fonctionnelles, le scénario pour prédire des gènes nouveaux contient plus de diversité. Cette diversité entre les gènes complique la détermination des connexions pour les gènes non vus, conduisant à de moins bonnes performances.
Pour approfondir, on a aussi exploré une autre méthode de test où les gènes et les composés pouvaient avoir été manqués lors de l'entraînement. Ici, le modèle a généralement eu du mal à moins que les deux composants aient des connexions positives précédentes dans l'ensemble d'entraînement.
Discussion
Les résultats indiquent qu'utiliser une combinaison de profilage basé sur l'image et d'apprentissage automatique offre un moyen plus précis de prédire quels médicaments pourraient interagir avec quelles protéines. Le modèle prédit avec succès les cibles lorsque suffisamment de données de base sont disponibles, notamment pour les connexions qui ont été observées précédemment.
Cependant, les défis avec les gènes nouveaux soulignent la nécessité d'un ensemble de données plus large qui couvre des protéines plus diverses. Puisque de nombreux médicaments affectent plusieurs cibles, les données d'entraînement doivent refléter cette complexité pour améliorer la précision.
Les recherches futures doivent chercher à rassembler de plus grands ensembles de données et à examiner différentes stratégies pour améliorer les capacités prédictives. Intégrer d'autres sources de données, comme celles basées sur les structures chimiques et les fonctions des protéines, pourrait encore améliorer l'efficacité du modèle.
Conclusion
Notre travail met en lumière le potentiel d'utiliser le profilage basé sur l'image combiné à l'apprentissage automatique pour améliorer l'identification des cibles médicamenteuses. Cette méthode pourrait réduire significativement les coûts dans le processus de découverte de médicaments et accélérer le délai pour trouver de nouveaux traitements.
Améliorer la puissance prédictive pour les cibles de gènes nouveaux reste un défi mais est crucial pour faire avancer la découverte de médicaments. Plus de recherches sont nécessaires pour créer des ensembles de données qui reflètent mieux la complexité des interactions gène-cible et pour développer des méthodes qui s'adaptent à cette diversité.
En améliorant continuellement ces techniques et en intégrant diverses sources de données, on peut rationaliser le processus de découverte de médicaments, ouvrant la voie à de nouvelles solutions thérapeutiques efficaces.
Titre: Cell morphological representations of genes enhance prediction of drug targets
Résumé: Identifying how a given chemical of interest exerts its impact on biological systems is a critical step in developing new medicines and chemical products. The mechanism of a query compound of interest can sometimes be identified when its image-based morphological profile matches a compound in a library of well-annotated compound profiles. In this study, we demonstrate a significant improvement in classification performance by incorporating side information: gene representations. We generate these representations using the morphological profiles of cells where the level of a single genes expression has been artificially increased or decreased. The genes are selected as those encoding known protein targets of annotated compounds in the library. A transformer model is trained to classify gene-compound pairs, where each pair represents a potential interaction between a gene and a compound, as true or false. Subsequently, the model generates a ranked list of likely target genes for a previously unseen query compound. Although the strategy exhibits high performance only for compounds that target previously encountered genes - likely due to the limited size of our training dataset - the performance increase demonstrates a notable improvement over simply matching compound profiles directly to compound profiles or to gene profiles. Larger datasets may improve the prediction capabilities of this approach, enabling the prediction of gene targets for novel compounds, which can then be experimentally validated.
Auteurs: Shantanu Singh, N. S. Iyer, D. J. Michael, S.-Y. G. Chi, J. Arevalo, S. N. Chandrasekaran, A. E. Carpenter, P. Rajpurkar
Dernière mise à jour: 2024-06-10 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2024.06.08.598076
Source PDF: https://www.biorxiv.org/content/10.1101/2024.06.08.598076.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.