Nouvelle méthode prédit les sites allostériques dans les protéines
Allo-Allo propose une nouvelle méthode pour identifier les sites allostériques à partir des séquences de protéines.
― 8 min lire
Table des matières
Ces dernières années, les scientifiques ont fait d'énormes progrès pour comprendre la structure des protéines, grâce à des outils capables de prédire ces structures avec beaucoup de précision. Cependant, il y a encore plein de choses à apprendre sur comment les protéines se déplacent et changent de forme, ce qui est super important pour leur bon fonctionnement. Un aspect clé de cette flexibilité s'appelle l'Allostérie.
L'allostérie fait référence à la façon dont une protéine change de forme quand une petite molécule, qu'on appelle un ligand, s'attache à elle à un endroit spécifique. Ce changement peut influencer d'autres parties de la protéine, ce qui peut modifier son fonctionnement. L'allostérie est essentielle dans de nombreux processus biologiques, comme la communication entre cellules et la régulation du métabolisme et de l'expression génétique.
Les protéines qui montrent de l'allostérie sont souvent des cibles importantes pour le développement de médicaments. Un groupe bien connu de protéines sur lequel les chercheurs se concentrent s'appelle les Récepteurs couplés aux protéines G (GPCR). Ces récepteurs sont cruciaux pour de nombreux chemins de signalisation et représentent une grande partie des médicaments approuvés par les agences de régulation. Pour développer de meilleurs médicaments, il est essentiel de repérer où se trouvent les sites allostériques sur ces protéines.
Le défi de trouver les sites allostériques
Actuellement, les scientifiques ont du mal à prédire où se situent les sites allostériques sur les protéines. Beaucoup de méthodes existantes ne fonctionnent que pour un petit nombre de protéines ou ne donnent pas des résultats précis. Certaines techniques utilisent une méthode appelée Dynamique Moléculaire (MD) pour trouver des poches sur les protéines qui causent des changements de forme. Cependant, il n'y a pas suffisamment de données MD longues et fiables disponibles pour appliquer ces méthodes de manière générale.
Une autre approche consiste à utiliser la théorie de l'information pour relier différents sites sur la protéine. Bien qu'il existe des modèles qui ont montré un certain succès, ils manquent encore de robustesse pour être largement applicables. Une barrière importante est la quantité limitée de données expérimentales sur les sites allostériques. Les données les plus fiables proviennent d'études mutationnelles à faible débit, ce qui signifie qu'elles ne sont disponibles que pour une infime fraction de toutes les protéines.
De plus, l'annotation des données peut être médiocre, ce qui signifie que même quand on a des données, elles peuvent ne pas être complètement exactes. Par exemple, une base de données spécifique qui liste les protéines avec des sites allostériques connus ne contient qu'une fraction du nombre total de protéines, et beaucoup d'entrées peuvent ne pas correspondre aux bonnes séquences d'autres sources fiables.
Une nouvelle approche pour prédire les sites allostériques
Pour relever ces défis, les scientifiques ont développé une nouvelle méthode appelée Allo-Allo. Cette méthode utilise des modèles avancés entraînés sur d'énormes quantités de séquences de protéines. Les chercheurs pensaient que ces modèles comprenaient déjà le concept d'allostérie, même si ce n'était pas explicitement étiqueté dans les données.
Au lieu de partir de zéro avec des données limitées, Allo-Allo identifie des parties de ces modèles pré-entraînés qui reconnaissent déjà des caractéristiques allostériques. En se concentrant sur des représentations internes spécifiques au sein du modèle, la nouvelle méthode peut entraîner un cadre plus simple, mais efficace, pour prédire où se trouvent les sites allostériques uniquement sur la base de la séquence de la protéine.
Le modèle Allo-Allo utilise des têtes d'attention d'un modèle de langage protéique spécifique, connu sous le nom de ESM-2. Ces têtes d'attention aident à évaluer comment différentes parties d'une protéine se rapportent les unes aux autres. En utilisant ces scores, les chercheurs ont créé un classificateur de forêt aléatoire pour faire des prédictions sur les sites allostériques.
Résultats d'Allo-Allo
Lorsqu'il a été testé par rapport aux méthodes existantes, Allo-Allo a nettement surpassé celles-ci, atteignant une précision de prédiction qui était notablement plus élevée que les normes actuelles. C'est impressionnant car Allo-Allo n'exige que la séquence de la protéine, tandis que d'autres méthodes dépendent souvent de connaître la structure 3D de la protéine.
Les résultats ont également indiqué que les sites allostériques sont importants pour la dynamique globale de la structure de la protéine, plutôt que d'être confinés à des zones spécifiques comme les sites orthostériques (les principaux sites de liaison pour les Ligands). Pour valider davantage ces prédictions, les scientifiques ont comparé les résultats d'Allo-Allo aux scores de risque connus pour diverses maladies, montrant comment les mutations dans les sites allostériques pourraient être liées à une augmentation des chances de développer ces maladies.
Collecte de données et entraînement du modèle
Pour entraîner le modèle Allo-Allo, les chercheurs ont rassemblé des données à partir d'une base de données bien connue qui contient des informations sur les protéines. Après avoir vérifié l'exactitude de ces informations avec d'autres bases de données, ils ont obtenu un ensemble de données plus petit mais fiable. Ces données ont été divisées en ensembles d'entraînement, de validation et de test pour s'assurer que le modèle pouvait être efficacement ajusté.
Allo-Allo cherche à quantifier à quel point les têtes d'attention sont sensibles aux caractéristiques allostériques en notant leurs relations basées sur les sites allostériques connus. Ce processus permet au modèle de filtrer les informations moins pertinentes et de se concentrer spécifiquement sur les parties critiques de la structure de la protéine.
Explorer d'autres méthodes
Tout en développant Allo-Allo, les chercheurs ont également examiné des approches alternatives. L'une consistait à entraîner un modèle plus basique directement sur les embeddings des protéines sans les étapes supplémentaires utilisées dans Allo-Allo. Une autre méthode ne se concentrait que sur les interactions entre les sites orthostériques et allostériques. Cependant, ces alternatives n'ont pas bien performé par rapport à Allo-Allo, soulignant l'efficacité du modèle initial.
Analyse des performances
La performance d'Allo-Allo est restée stable sur différentes tailles de Modèles de langage protéique sous-jacents. Même les modèles plus petits ont capturé des caractéristiques essentielles liées à l'allostérie. Les chercheurs ont déterminé que l'utilisation de plus de têtes d'attention ou la variation des seuils internes avait seulement un impact léger sur la performance, indiquant que le modèle était robuste.
Le modèle identifie sur quelles têtes d'attention se concentrer en fonction de leur capacité à comprendre les interactions allostériques. Les résultats ont confirmé que les propriétés allostériques se trouvent généralement dans les couches supérieures du modèle, qui ont tendance à capturer des relations plus complexes.
Lien entre Allo-Allo et le risque de maladie
Étant donné l'importance des sites allostériques dans la fonction des protéines, les chercheurs ont appliqué Allo-Allo pour analyser un groupe de protéines présentes à la surface des cellules. Ces protéines sont essentielles pour la communication et la transmission des signaux dans le corps. En comparant les prédictions d'Allo-Allo avec des modèles existants qui indiquent les risques de maladie dus à des mutations génétiques, ils ont trouvé un fort accord.
Cette analyse statistique a révélé que les prédictions d'Allo-Allo étaient significativement pertinentes, montrant que les changements allostériques dans ces protéines pouvaient conduire au développement de maladies. Les prédictions suggèrent un chemin biologique par lequel les sites allostériques affectent la fonction des protéines, influençant finalement la santé.
Conclusion
L'allostérie joue un rôle fondamental dans le fonctionnement des protéines et leur réponse aux signaux dans les systèmes biologiques. Le développement de méthodes comme Allo-Allo représente un avancement prometteur dans l'étude de la dynamique des protéines. En utilisant efficacement les données existantes dans les modèles de langage protéique, les scientifiques ont créé un outil capable de prédire avec précision les sites allostériques uniquement à partir des séquences de protéines.
Alors que la recherche se poursuit, le potentiel d'Allo-Allo pour contribuer à la découverte de médicaments et aux applications thérapeutiques est significatif. En améliorant notre compréhension de l'allostérie et de son impact sur les maladies, cette méthode peut aider à développer des traitements ciblés et à améliorer notre connaissance globale des interactions protéiques. L'avenir pourrait offrir encore plus d'opportunités pour approfondir ces découvertes et affiner les méthodes de prédiction des sites allostériques dans d'autres protéines, comblant ainsi le fossé entre structure et fonction en biologie.
Titre: Allo-Allo: Data-efficient prediction of allosteric sites
Résumé: Allostery, a fundamental structural mechanism where ligand binding at a protein site affects protein function at another site, plays a crucial role in key drug-target proteins like GPCRs. Unfortunately, existing methods for predicting allosteric sites have limited performance- they are particularly constrained by scarce ground-truth experimental data. We introduce Allo-Allo, a data-efficient, sequence-based method that predicts allosteric sites by leveraging protein language models (PLMs). Honing in on ESM-2 attention heads that capture allosteric residue associations, Allo-Allo achieves a 67% higher AUPRC than state-of-the-art methods. Our innovative, data-efficient pipeline not only outperforms alternate, commonly-used PLM-based prediction architectures but also generalizes well. Notably, mutations in Allo-Allo-predicted sites show significant association with elevated disease risk scores from AlphaMissense, highlighting its translational potential. Beyond Allo-Allos biological and translational applicability, its architecture presents a powerful framework for other data-scarce problems in protein analysis.
Auteurs: Tianze Dong, Christopher Kan, Kapil Devkota, Rohit Singh
Dernière mise à jour: 2024-09-30 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2024.09.28.615583
Source PDF: https://www.biorxiv.org/content/10.1101/2024.09.28.615583.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.