Faire avancer les prédictions d'enzymes avec l'apprentissage automatique
Un nouveau modèle prédit les niveaux de pH des enzymes en utilisant des séquences et de gros ensembles de données.
Gregg T Beckham, J. E. Gado, M. Knotts, A. Y. Shaw, D. Marks, N. P. Gauthier, C. Sander
― 10 min lire
Table des matières
Les Enzymes sont des Protéines qui aident à accélérer les réactions chimiques dans les êtres vivants. Leur activité peut changer selon l'acidité ou l'alcalinité de leur environnement, ce qui peut souvent les rendre moins efficaces si le pH sort d'un certain intervalle. La plupart des enzymes fonctionnent mieux autour d'un pH neutre de 7. Cependant, certaines enzymes s'épanouissent dans des environnements très acides (comme pH 1) ou très alcalins (jusqu'à pH 12,5). Dans divers secteurs industriels, les enzymes fonctionnent souvent en dehors de leur pH idéal, ce qui réduit leur efficacité.
À cause de ces défis, les chercheurs cherchent à trouver ou créer des enzymes qui peuvent mieux fonctionner dans des Niveaux de pH extrêmes. Une approche est d'observer des organismes qui vivent naturellement dans des environnements avec des pH extrêmes. En étudiant leurs gènes, les scientifiques espèrent dénicher des enzymes qui résistent mieux aux conditions acides ou alcalines. Mais les enzymes trouvées de cette manière ne fonctionnent pas toujours assez bien. Une autre option est d’ajuster les enzymes existantes pour améliorer leur performance à différents pH, par exemple en les fixant à des surfaces ou en ajoutant des modifications chimiques.
Les avancées récentes en technologie ont facilité l'utilisation de l'Apprentissage automatique pour prédire comment les enzymes fonctionneront à différents niveaux de pH. En analysant de grandes quantités de données, ces outils peuvent identifier des motifs entre la séquence des éléments constitutifs d'une enzyme (acides aminés) et son efficacité dans diverses conditions de pH. Certains chercheurs ont commencé à utiliser des modèles informatiques pour prédire ces relations, mais le domaine manque encore de données suffisantes pour former ces modèles efficacement.
Dans cette étude, nous avons créé deux nouveaux ensembles de données qui incluent des infos sur les niveaux de pH optimaux pour diverses enzymes et leurs environnements naturels. Nous avons formé et testé différents modèles d'apprentissage automatique en utilisant ces ensembles de données pour améliorer nos prédictions. Notre meilleur modèle, nommé EpHod, utilise des techniques avancées pour prédire le pH de travail idéal d'une enzyme directement à partir de sa séquence d'acides aminés. Ce modèle a montré des résultats prometteurs, apprenant efficacement quelles parties de la structure de l'enzyme sont les plus importantes pour son activité.
Ensembles de données et formation
Le premier ensemble de données que nous avons créé comprend des informations sur 9 855 enzymes et leurs niveaux de pH optimaux. Cet ensemble représente une grande variété de formes de vie et inclut de nombreux types d'enzymes différents. Nous avons divisé l'ensemble de données en trois parties : une pour entraîner le modèle, une pour la validation et une pour les tests. L'ensemble de test nous permet de voir comment nos modèles se comportent sur de nouvelles données qu'ils n'ont pas encore vues.
Pour améliorer nos prédictions, nous avons aussi rassemblé un deuxième ensemble de données centré sur l'environnement entourant ces enzymes. Cet ensemble comprend des informations sur 1,9 million de protéines provenant de bactéries qui se sont adaptées à différentes conditions de pH. Nous avons principalement sélectionné des protéines qui sont sécrétées, car elles interagissent avec l'environnement extérieur, ce qui est plus pertinent pour notre étude.
En formant nos modèles d'abord sur l'ensemble de données environnementales puis en les ajustant sur l'ensemble de données enzymatiques, nous espérions améliorer notre capacité à prédire les niveaux de pH optimaux. Nous avons également rencontré des défis dans cette recherche car la distribution des valeurs de pH dans nos ensembles de données était déséquilibrée. La plupart des valeurs de pH étaient regroupées autour du neutre, ce qui pourrait amener nos modèles à mal performer en prédisant les enzymes acides ou alcalines extrêmes.
Pour remédier à ce déséquilibre, nous avons appliqué des techniques pour ajuster comment les modèles apprenaient de chaque échantillon, en veillant à ce qu'ils se concentrent davantage sur les valeurs de pH extrêmes moins courantes.
Développement de modèles d'apprentissage automatique
Nous avons testé une variété de méthodes d'apprentissage automatique pour voir lesquelles prédiraient le mieux les niveaux de pH des enzymes. Cela incluait des méthodes classiques comme la régression par vecteurs de support et les forêts aléatoires, ainsi que des méthodes d'apprentissage profond utilisant des réseaux neuronaux. Nous avons exploré de nombreuses architectures et configurations pour ces réseaux neuronaux afin de trouver le meilleur ajustement pour notre problème.
Plus précisément, nous nous sommes concentrés sur l'utilisation d'embeddings issus de modèles de langue protéique (PLMs) pour représenter les séquences enzymatiques. Ces embeddings capturent des informations détaillées sur les protéines, améliorant la capacité du modèle à faire des prédictions précises. Notre modèle le plus performant, EpHod, utilise une approche de réseau neuronal basée sur l'attention, ce qui lui permet de mettre plus l'accent sur certaines parties de la structure de l'enzyme qui sont les plus pertinentes pour déterminer l'activité pH.
Après avoir formé divers modèles, nous avons constaté que ceux utilisant des embeddings de PLM surpassaient de manière significative ceux qui reposaient sur des caractéristiques traditionnelles. Les meilleurs résultats ont été obtenus en combinant les prédictions de différents modèles dans une approche d'ensemble, améliorant encore l'exactitude et la robustesse.
Évaluation des performances
Pour garantir que nos modèles étaient efficaces, nous avons évalué leurs performances en utilisant diverses métriques. Nous avons mesuré à quel point le pH optimal prédit correspondait aux valeurs réelles dans notre ensemble de données de test. Nous avons constaté que notre modèle EpHod prédisait efficacement les niveaux de pH, en performants particulièrement bien même lorsque les enzymes montraient une faible similarité avec celles présentes dans l'ensemble de données d'entraînement.
Nous avons aussi voulu comprendre si notre modèle pouvait bien généraliser à travers différentes classes d'enzymes et conditions de pH. Nous avons examiné les résultats pour différentes catégories d'enzymes et confirmé que notre modèle fournissait systématiquement des prédictions précises pour toutes les classes, montrant son large champ d'application.
Importance des caractéristiques structurelles
Une découverte intéressante de notre analyse a été la manière dont EpHod a capturé les caractéristiques structurelles importantes pour la prédiction du pH des enzymes. Le modèle a appris à se concentrer sur des acides aminés spécifiques qui sont critiques pour l'activité et la stabilité des enzymes dans différentes conditions de pH. Par exemple, les enzymes qui fonctionnent dans des milieux acides avaient tendance à avoir plus de résidus chargés négativement à leur surface, ce qui les aide à rester stables et actives dans de tels environnements.
Dans le cadre de notre processus d'entraînement, nous avons mesuré combien d'attention chaque résidu recevait durant le processus de prédiction. Cette analyse a révélé que certains résidus, notamment ceux proches du Site Actif de l'enzyme, recevaient beaucoup plus d'attention, indiquant leur importance dans la détermination du pH optimal de l'enzyme.
De plus, nous avons exploré comment l'accessibilité au solvant impactait les prédictions. Notre modèle a montré une préférence claire pour les résidus qui étaient plus exposés et proches du site actif, ce qui est cohérent avec les compréhensions scientifiques antérieures de la façon dont les enzymes fonctionnent à différents niveaux de pH.
Comparaison avec des méthodes traditionnelles
Pour valider davantage l’efficacité d'EpHod, nous avons comparé ses performances avec celles des méthodes prédictives structurelles et biophysiques existantes. Nous avons constaté que notre modèle excellait à distinguer les enzymes acides et alcalines mieux que d'autres approches, ce qui en fait un outil précieux pour prédire les niveaux de pH des enzymes.
Bien que certaines méthodes alternatives se soient bien comportées, elles avaient généralement du mal avec les valeurs de pH extrêmes, tandis qu'EpHod maintenait une haute précision dans toutes les gammes. Nos résultats ont confirmé que d'autres méthodes, bien qu'utiles, échouaient souvent à intégrer la relation complexe entre la structure et la fonction de l'enzyme aussi efficacement que notre approche d'apprentissage automatique.
Applications pratiques
Les avancées réalisées avec EpHod ont des implications prometteuses pour la découverte et l'ingénierie des enzymes. Les chercheurs peuvent utiliser notre modèle pour prédire rapidement les niveaux de pH idéaux pour les enzymes trouvées dans de grandes bases de données de séquences. Cette capacité peut simplifier le processus d'identification des enzymes qui pourraient être mieux adaptées à différents environnements, y compris les applications industrielles.
De plus, les scientifiques peuvent utiliser EpHod pour aider à la mutagenèse ciblée. En identifiant les résidus essentiels qui influencent l'activité pH, les chercheurs peuvent concevoir des mutations spécifiques pour améliorer la performance des enzymes dans des conditions extrêmes. Cela pourrait être particulièrement bénéfique pour des efforts de bio-ingénierie où les enzymes doivent fonctionner efficacement à travers une large gamme de niveaux de pH.
Une autre application potentielle consiste à intégrer EpHod dans des cadres de conception protéique existants. En combinant les prédictions avec des approches d'apprentissage automatique, les chercheurs peuvent sélectionner et affiner de manière itérative des variantes d'enzymes avec une fonctionnalité améliorée dans des plages de pH spécifiques.
Enfin, les insights obtenus des poids d'attention dans EpHod pourraient fournir une compréhension plus profonde de la fonction et de la conception des enzymes. En révélant quels résidus sont critiques, les chercheurs peuvent concentrer leurs efforts sur ces zones lors de la conception de nouvelles protéines avec des propriétés souhaitées.
Conclusion
En résumé, notre travail a réussi à développer un modèle d'apprentissage automatique, EpHod, qui prédit les valeurs de pH optimales pour les enzymes en fonction de leurs séquences. En utilisant deux ensembles de données vastes, nous avons formé divers modèles, identifiant les meilleures approches et techniques pour améliorer la performance et la généralisation à travers diverses classes d'enzymes et conditions.
Nos résultats démontrent le potentiel de l'apprentissage automatique, en particulier dans le domaine des études protéiques, tout en remettant en question les méthodes traditionnelles en fournissant des capacités prédictives supérieures sans un important ensemble de données expérimentales. Le modèle fait non seulement progresser la compréhension actuelle du comportement des enzymes sous différentes conditions de pH, mais ouvre également de nouvelles avenues pour la recherche et les applications industrielles.
À l'avenir, nous prévoyons qu'EpHod continuera à avoir un impact sur la découverte et l'ingénierie des enzymes grâce à son pouvoir prédictif et sa capacité d'adaptation. Les idées tirées de notre recherche pourraient contribuer significativement au domaine de la biologie synthétique et de la bio-ingénierie, ouvrant la voie à des innovations dans les applications enzymatiques à travers diverses industries.
Titre: Machine learning prediction of enzyme optimum pH
Résumé: The relationship between pH and enzyme catalytic activity, especially the optimal pH (pHopt) at which enzymes function, is critical for biotechnological applications. Hence, computational methods to predict pHopt will enhance enzyme discovery and design by facilitating accurate identification of enzymes that function optimally at specific pH levels, and by elucidating sequence-function relationships. In this study, we proposed and evaluated various machine-learning methods for predicting pHopt, conducting extensive hyperparameter optimization, and training over 11,000 model instances. Our results demonstrate that models utilizing language model embeddings markedly outperform other methods in predicting pHopt. We present EpHod, the best-performing model, to predict pHopt, making it publicly available to researchers. From sequence data, EpHod directly learns structural and biophysical features that relate to pHopt, including proximity of residues to the catalytic center and the accessibility of solvent molecules. Overall, EpHod presents a promising advancement in pHopt prediction and will potentially speed up the development of enzyme technologies.
Auteurs: Gregg T Beckham, J. E. Gado, M. Knotts, A. Y. Shaw, D. Marks, N. P. Gauthier, C. Sander
Dernière mise à jour: 2024-10-21 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2023.06.22.544776
Source PDF: https://www.biorxiv.org/content/10.1101/2023.06.22.544776.full.pdf
Licence: https://creativecommons.org/licenses/by-nc/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.