Les prévisions de structure des protéines d'AlphaFold2 : Aperçus et surprises
Un aperçu des prédictions d'AlphaFold2 et des potentielles mauvaises interprétations dans les structures protéiques.
Olivia S. Pratt, Luc G. Elliott, Margaux Haon, Shahram Mesdaghi, Rebecca M. Price, Adam J. Simpkin, Daniel J. Rigden
― 8 min lire
Table des matières
- Arrivée d'AlphaFold2
- Comment fonctionne AlphaFold2
- Étude des protéines répétitives
- Le cas curieux de la mucine 22
- Construction et test des modèles
- Validation des modèles
- La différence avec d'autres modèles
- Pas juste un coup de chance aléatoire
- Dynamique Moléculaire et instabilité
- Le grand tableau
- Conclusion
- Source originale
Comprendre comment les protéines fonctionnent est super important pour piger comment les êtres vivants tournent et comment les maladies liées aux protéines apparaissent. Les scientifiques explorent souvent les structures des protéines avec des méthodes comme la cristallographie des protéines et la microscopie électronique cryogénique (cryoEM). Malheureusement, ces techniques peuvent prendre plus de temps que d'attendre une livraison de pizza, parfois des mois, voire des années, pour avoir des résultats. Du coup, les chercheurs cherchent des méthodes plus rapides pour prédire les structures des protéines via des ordinateurs.
AlphaFold2
Arrivée d'En 2020, un grand changement est survenu avec l’introduction d'AlphaFold2 (AF2), un modèle basé sur l'apprentissage profond lancé par Google DeepMind. C’était une énorme avancée pour prédire les structures des protéines sans avoir besoin de se baser sur des structures connues comme modèles. C'était comme trouver un raccourci pour résoudre un puzzle compliqué ! Peu après, la base de données AlphaFold Protein Structure Database (AFDB) a été créée, avec plus de modèles que quiconque ne pourrait le croire-plus de 214 millions, pour être précis.
Comment fonctionne AlphaFold2
AlphaFold2 s'appuie sur un large éventail de séquences de protéines appelées alignements multiples de séquences (MSAs). En analysant ces séquences, il peut déterminer quelles paires d'acides aminés ont évolué ensemble avec le temps. Cela aide AF2 à prédire comment la protéine va se replier dans l'espace tridimensionnel. En plus de prédire la structure, AF2 donne deux scores de qualité. Le premier, appelé pLDDT, montre à quel point le modèle est sûr de la structure locale, tandis que le second, PAE, donne une idée de la fiabilité de la structure globale. En gros, plus la prédiction est sûre, moins tu auras besoin d’un verre après avoir vu les résultats.
Étude des protéines répétitives
AF2 a été particulièrement utile pour étudier les protéines avec des séquences répétitives, connues sous le nom de répétitions en tandem. Ces protéines sont diversifiées et peuvent répéter un seul acide aminé ou monter jusqu'à des centaines de répétitions. Étonnamment, environ 14 % des protéines sont composées de ces répétitions, mais elles ne sont toujours pas bien comprises.
En 2014, une base de données appelée RepeatsDB a été créée pour aider à classer et annoter ces structures répétitives. Elle reconnaît cinq classes différentes de protéines répétitives, chacune avec des caractéristiques uniques. Certaines classes ont de courtes répétitions liées à des maladies, tandis que d’autres sont constituées de structures fibreuses ou de formes repliées complexes.
Récemment, les chercheurs se sont penchés sur les protéines bêta-solénoïdes, qui font partie de l'une de ces classes. Ces protéines ont un motif répétitif de brins bêta qui sont tordus en une forme allongée. Bien qu'elles semblent être la meilleure version d'une protéine, elles restent encore mal comprises.
Le cas curieux de la mucine 22
Une découverte intéressante concerne une protéine humaine appelée mucine 22. Quand la séquence répétée de cette protéine est mélangée, AF2 prédit quand même une structure bêta-solénoïde très confiante. Cependant, le modèle a l'air bizarre, avec un empilement interne de résidus d'acide glutamique qui ne devrait pas se produire dans de vraies protéines. Cela a soulevé une grande question : AF2 pourrait-il être trop impatient pour prédire des bêta-solénoïdes, même dans des cas où ils ne devraient pas exister du tout ?
Construction et test des modèles
Les chercheurs ont pris des séquences aléatoires de 20 acides aminés et les ont répétées pour créer des modèles, puis les ont passées à AF2. Ils ont découvert que beaucoup des modèles résultants étaient des bêta-solénoïdes en confiance, même lorsque les séquences étaient aléatoires. Les chercheurs ont classé ces modèles pour voir s'ils représentaient vraiment des bêta-solénoïdes.
Ils ont trouvé que beaucoup de ces modèles étaient confiants mais contenaient des caractéristiques étranges-comme des résidus chargés négativement empilés de manière incompréhensible. Normalement, de telles structures sont cachées à l'intérieur des protéines, pas exposées à la lumière du jour.
Validation des modèles
Pour s'assurer que leurs découvertes étaient logiques, ils ont utilisé un outil logiciel appelé Verify3D. Cet outil évalue si les structures de protéines prédites sont faisables en fonction de leurs conceptions. Alors que certains modèles avaient de bons scores, d'autres étaient à la traîne, montrant que la confiance d'AF2 pourrait être mal placée.
Dans plusieurs cas, les modèles ont produit des prédictions confiantes mais contenaient des conflits internes qui les rendaient improbables. C'était comme un ami enthousiaste essayant de te convaincre qu'une idée est géniale, alors que tu vois clairement les défauts.
La différence avec d'autres modèles
AF2 n’était pas le seul modèle en ville ; de nouveaux modèles comme ESMFold et RoseTTAFold-All-Atom (RFAA) ont été utilisés pour comparer les résultats. Étonnamment, ces modèles alternatifs étaient souvent en désaccord avec les prédictions d'AF2. Alors qu'AF2 donnait des notes de confiance élevées, ESMFold et RFAA signalaient fréquemment ces modèles comme suspects.
Il semblait qu'AF2 avait un angle mort unique concernant les structures bêta-solénoïdes, ce qui l'amenait à interpréter de nombreuses séquences comme des prédictions confiantes qui pourraient ne pas refléter la réalité.
Pas juste un coup de chance aléatoire
Au départ, les chercheurs pensaient que les séquences aléatoires pourraient partager des similitudes avec des protéines naturelles connues, amenant AF2 à les mal interpréter. Cependant, après une vérification extensive contre des bases de données, ils ont découvert qu'un petit nombre de séquences produisaient des correspondances significatives. La plupart des séquences étaient juste uniques.
Dynamique Moléculaire et instabilité
Pour tester la stabilité des modèles, les scientifiques ont effectué des simulations appelées dynamique moléculaire sur quelques modèles sélectionnés. Ils ont comparé des modèles à haute confiance avec empilement de charges internes à une structure bêta-solénoïde naturelle.
Que s'est-il passé ? La vraie protéine a gardé sa forme sans problème, tandis que les modèles AF2 se tordaient, tournaient et se comportaient généralement comme un adolescent rebelle.
Le grand tableau
À travers toutes ces comparaisons et tests, une chose est devenue claire : AlphaFold2 pourrait induire les scientifiques en erreur quand il s'agit d'étudier certaines protéines répétitives. Beaucoup des prédictions qu'il a générées étaient trop confiantes et irréalistes. Bien qu'AF2 soit révolutionnaire sur bien des points, les chercheurs doivent être prudents en se fiant à ses résultats, surtout en ce qui concerne ces structures.
Il y a encore beaucoup à apprendre, et les chercheurs sont impatients d'explorer si ce biais affecte d'autres séquences défectueuses. Ils prévoient de créer plus de mélanges de types de séquences et de voir si la tendance d’AF2 se vérifie aussi dans ces cas.
Conclusion
AlphaFold2 peut être un outil remarquable, mais il n'est pas sans ses bizarreries. C’est comme trouver un gadget chic qui fait du café, mais qui, parfois, le prépare trop fort pour le confort. Les résultats de cette recherche nous rappellent que bien que la technologie puisse nous aider, nous devons évaluer de manière critique ses résultats et rester conscients de ses limites.
Alors que les scientifiques continuent d'apprendre de ces modèles, ils seront mieux préparés à percer les mystères des structures protéiques et à comprendre plus clairement les éléments de base de la vie. Avec plus d'expériences et d'études à l'horizon, on va tous se régaler alors que le monde de la structure des protéines se dévoile devant nous.
Titre: AlphaFold 2, but not AlphaFold 3, predicts confident but unrealistic beta-solenoid structures for repeat proteins
Résumé: AlphaFold 2 has revolutionised protein structure prediction but, like any new tool, its performance on specific classes of targets, especially those potentially under- represented in its training data, merits attention. Prompted by a highly confident prediction for a biologically meaningless, scrambled repeat sequence, we assessed AF2 performance on sequences comprised perfect repeats of random sequences of different lengths. AF2 frequently folds such sequences into {beta}-solenoids which, while ascribed high confidence, contain unusual and implausible features such as internally stacked and uncompensated charged residues. A number of sequences confidently predicted as {beta}-solenoids are predicted by other advanced methods as intrinsically disordered. The instability of some predictions is demonstrated by Molecular Dynamics. Importantly, other Deep Learning-based structure prediction tools predict different structures or {beta}-solenoids with much lower confidence suggesting that AF2 alone has an unreasonable tendency to predict confident but unrealistic {beta}-solenoids for perfect repeat sequences. The potential implications for structure prediction of natural (near-)perfect sequence repeat proteins are also explored.
Auteurs: Olivia S. Pratt, Luc G. Elliott, Margaux Haon, Shahram Mesdaghi, Rebecca M. Price, Adam J. Simpkin, Daniel J. Rigden
Dernière mise à jour: 2024-10-30 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2024.10.30.621056
Source PDF: https://www.biorxiv.org/content/10.1101/2024.10.30.621056.full.pdf
Licence: https://creativecommons.org/licenses/by-nc/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.