Avancées dans la prédiction des protéines avec l'apprentissage automatique
De nouveaux modèles prédisent la stabilité des protéines et génèrent des séquences efficacement.
― 9 min lire
Table des matières
- Le Rôle des Grands Ensembles de Données
- Défis dans la Prédiction des Protéines
- Amélioration de la Performance du Modèle
- DPO et son Application
- Utilisation du DPO pour Entraîner les Modèles
- Évaluation de la Performance de ProteinDPO
- Applications Plus Larges de ProteinDPO
- Génération de Nouvelles Séquences de Protéines
- Conclusion
- Directions Futures
- Source originale
- Liens de référence
Les protéines sont des molécules essentielles dans tous les êtres vivants, jouant un large éventail de fonctions. Leur capacité à bien fonctionner dépend en grande partie de leur forme ou structure. Quand une protéine se plie en sa forme spécifique, elle peut bien faire son job, tandis qu’une protéine mal pliée pourrait ne pas fonctionner du tout. Donc, comprendre comment prédire la structure d'une protéine et sa Stabilité est super important dans des domaines comme la médecine et la biotechnologie.
Ces dernières années, l'Apprentissage automatique est devenu un outil puissant en biologie. Ça permet aux scientifiques de prédire comment les protéines vont se comporter en se basant sur de grands ensembles de données qui contiennent des infos sur différentes séquences et structures de protéines. Un avancé notoire dans ce domaine vient des modèles qui apprennent sans supervision directe, ce qui signifie qu'ils peuvent trouver des motifs dans les données sans guidage explicite.
Le Rôle des Grands Ensembles de Données
Des ensembles de données comme UniProt et le Protein Data Bank (PDB) sont de grandes collections de données sur les protéines qui aident à entraîner les modèles d'apprentissage automatique. Ils contiennent une mine d'infos sur les protéines connues, y compris leurs séquences et structures. Les modèles d'apprentissage automatique formés sur ces ensembles de données peuvent identifier des relations et des motifs qui pourraient ne pas être évidents au premier abord.
Certains modèles, connus sous le nom de modèles de langage informés par la structure, peuvent générer des séquences de protéines susceptibles de se plier en structures spécifiques. Ces modèles ont montré des résultats prometteurs, aidant les chercheurs à améliorer des propriétés des protéines comme l'affinité de liaison-la force de l'interaction entre deux molécules-et la stabilité. C'est surprenant parce que ces modèles n'apprennent pas explicitement ces propriétés pendant leur formation.
Défis dans la Prédiction des Protéines
Bien que ces modèles soient puissants, ils ont des limites. Un problème est qu'ils ont parfois du mal à prédire avec précision la stabilité des protéines. La stabilité fait référence à la façon dont une protéine maintient sa forme dans différentes conditions. Les modèles formés sur des structures de protéines naturelles peuvent montrer une certaine capacité à prédire la stabilité, mais ils performent généralement moins bien par rapport aux modèles spécifiquement conçus pour cela.
Cette différence vient du fait que les processus évolutifs sélectionnent les protéines en fonction de la stabilité parmi d'autres facteurs. Donc, un modèle formé uniquement sur des données de protéines générales pourrait manquer certains détails cruciaux concernant la stabilité.
Amélioration de la Performance du Modèle
Pour améliorer la performance des modèles d'apprentissage automatique, les chercheurs cherchent à trouver des moyens de leur fournir plus d'infos spécifiques à la tâche tout en continuant à bénéficier des connaissances générales acquises durant l'entraînement non supervisé. Une approche est d'utiliser une méthode appelée ajustement supervisé (SFT). Dans le SFT, le modèle est de nouveau entraîné sur un ensemble d'exemples sélectionnés qui ont une propriété spécifique d'intérêt, comme la stabilité.
Bien que le SFT puisse améliorer la performance d'un modèle sur des tâches spécifiques, il y a un risque de surapprentissage. Cela signifie que le modèle pourrait devenir trop spécialisé aux exemples qu'il voit pendant l'ajustement, perdant les connaissances générales acquises lors de sa formation initiale.
Une autre méthode explorée s'appelle l'Optimisation de Préférence Directe (DPO). Cette méthode permet aux modèles d'apprendre à partir d'exemples partageant des similitudes superficielles mais différant de manière importante par rapport à la tâche à accomplir. C'est particulièrement pertinent en biologie, car même de petits changements dans la séquence d'une protéine peuvent avoir un impact significatif sur sa stabilité et sa structure.
DPO et son Application
Le DPO tire parti d'exemples en paire pour entraîner efficacement le modèle. En présentant au modèle des infos sur les protéines qui sont plus stables que d'autres, les chercheurs peuvent le guider vers des Prédictions de stabilité plus précises. Cette méthode permet au modèle d'utiliser l'ensemble du paysage de fitness, améliorant sa capacité à faire des prédictions sur la stabilité.
Grâce au DPO, les chercheurs peuvent créer de meilleurs ensembles de données et développer de meilleurs modèles pour les tâches de stabilité des protéines. Ils peuvent instruire les modèles à discerner des différences subtiles en matière de stabilité basées sur des changements spécifiques d'acides aminés, menant à des prédictions plus précises.
Utilisation du DPO pour Entraîner les Modèles
Dans une étude récente, le DPO a été utilisé pour améliorer un modèle pré-entraîné appelé ESM-IF1. Ce modèle est basé sur des infos concernant les structures et séquences de protéines. Les chercheurs visaient à créer une nouvelle version, appelée ProteinDPO, qui incorporait des infos de stabilité en utilisant des données expérimentales d'un ensemble de données complet de variantes de protéines.
Les résultats étaient notables. ProteinDPO a surpassé à la fois le modèle ESM-IF1 original et une version qui a subi un ajustement supervisé standard. Ce nouveau modèle a bien performé non seulement dans la prédiction des changements de stabilité dus à des mutations uniques, mais a également montré des performances compétitives dans d'autres tâches connexes, comme l'évaluation de la stabilité de protéines plus grandes et de complexes d'anticorps.
Évaluation de la Performance de ProteinDPO
Différents tests ont été réalisés pour évaluer la performance de ProteinDPO. Cela incluait des comparaisons avec d'autres modèles, comme ThermoMPNN, qui est connu pour sa précision dans les prédictions de stabilité. Les prédictions de ProteinDPO ont été évaluées en fonction de leur corrélation avec des changements de stabilité mesurés expérimentalement à travers divers ensembles de données.
Lorsqu'on les compare à des modèles formés spécifiquement sur la stabilité, ProteinDPO a montré une capacité prédictive améliorée. Il a affiché de fortes performances dans l'identification de la façon dont des mutations uniques affectent la stabilité, mettant en avant sa capacité à généraliser les connaissances acquises pendant l'entraînement.
Applications Plus Larges de ProteinDPO
Au-delà de ses capacités impressionnantes de prédiction de stabilité, l'efficacité de ProteinDPO s'étend à d'autres tâches importantes en recherche sur les protéines. Par exemple, il a montré des résultats prometteurs dans la prédiction des Affinités de liaison, cruciales pour comprendre les interactions entre protéines et autres molécules.
C'est significatif car des prédictions précises des affinités de liaison peuvent aider les chercheurs à concevoir de meilleurs médicaments et protéines thérapeutiques. ProteinDPO a pu fournir des infos sur la force de liaison de divers complexes de protéines, prouvant ainsi sa polyvalence en tant qu'outil prédictif.
Génération de Nouvelles Séquences de Protéines
En plus de noter les protéines existantes, ProteinDPO peut également générer de nouvelles séquences de protéines qui sont susceptibles d'être plus stables que leurs homologues natives. C'est une application excitante, car cela permet aux chercheurs d'explorer la conception de protéines avec des propriétés améliorées. Étant donné la complexité des interactions protéiques, générer des séquences qui maintiennent la stabilité tout en étant différentes des originales peut être un défi.
En utilisant le DPO, les chercheurs ont pu générer des séquences pour diverses structures de protéines, évaluant leur stabilité prédite en utilisant des techniques computationnelles. Les séquences générées montraient des caractéristiques prometteuses, suggérant que cette méthode pourrait conduire à la conception de protéines plus efficaces pour diverses applications.
Conclusion
Les avancées en apprentissage automatique, notamment grâce à des modèles comme ProteinDPO, représentent un pas en avant significatif dans notre capacité à prédire et concevoir des protéines. Grâce à l'utilisation de gros ensembles de données et à des méthodes d'entraînement innovantes comme le DPO, les chercheurs peuvent créer des modèles qui non seulement classifient la stabilité plus précisément mais génèrent aussi de nouvelles séquences de protéines.
Ces innovations promettent beaucoup pour des domaines comme la conception de médicaments et la biologie synthétique, où comprendre et manipuler la stabilité et la fonction des protéines est crucial. À mesure que ce domaine continue d'évoluer, le potentiel d'utiliser l'apprentissage automatique pour répondre à des questions biologiques complexes ne fera que croître, ouvrant la voie à des solutions plus efficaces et ciblées dans diverses applications.
Directions Futures
L'exploration du DPO et son intégration dans des modèles génératifs comme ProteinDPO ouvrent de nouvelles avenues excitantes pour la recherche future. Les études à venir pourraient approfondir l'alignement des modèles avec des ensembles de données reflétant d'autres propriétés au-delà de la stabilité. L'objectif est de voir si des approches similaires peuvent fournir des aperçus généralisables dans différents domaines de recherche sur les protéines.
Les chercheurs pourraient également améliorer les modèles actuels en intégrant des ensembles de données plus diversifiés ou en affinant les processus d'entraînement. Cela pourrait conduire à des prédictions encore meilleures et à une génération plus efficace de protéines avec des traits désirés.
Alors que nous continuons à repousser les frontières de ce que l'apprentissage automatique peut réaliser dans les sciences biologiques, de nouvelles innovations et méthodes émergeront, enrichissant notre compréhension du comportement des protéines et élargissant les possibilités dans la biotechnologie et la médecine.
Titre: Aligning protein generative models with experimental fitness via Direct Preference Optimization
Résumé: Generative models trained on unlabeled protein datasets have demonstrated a remarkable ability to predict some biological functions without any task-specific training data. However, this capability does not extend to all relevant functions and, in many cases, the unsupervised model still underperforms task-specific, supervised baselines. We hypothesize that this is due to a fundamental "alignment gap" in which the rules learned during unsupervised training are not guaranteed to be related to the function of interest. Here, we demonstrate how to provide protein generative models with useful task-specific information without losing the rich, general knowledge learned during pretraining. Using an optimization task called Direct Preference Optimization (DPO), we align a structure-conditioned language model to generate stable protein sequences by encouraging the model to prefer stabilizing over destabilizing variants given a protein backbone structure. Our resulting model, ProteinDPO, is the first structure-conditioned language model preference-optimized to experimental data. ProteinDPO achieves competitive stability prediction and consistently outperforms both unsupervised and finetuned versions of the model. Notably, the aligned model also performs well in domains beyond its training data to enable absolute stability prediction of large proteins and binding affinity prediction of multi-chain complexes, while also enabling single-step stabilization of diverse backbones. These results indicate that ProteinDPO has learned generalizable information from its biophysical alignment data.
Auteurs: Brian Hie, T. Widatalla, R. Rafailov
Dernière mise à jour: 2024-05-21 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2024.05.20.595026
Source PDF: https://www.biorxiv.org/content/10.1101/2024.05.20.595026.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.