Avancées dans l'analyse de la structure des protéines avec AFDB
L'AFDB fournit des infos cruciales sur les structures protéiques, aidant la recherche et le développement de médicaments.
― 9 min lire
Table des matières
- Limitations de l'AFDB
- Trouver des Domaines protéiques
- L'arbre de la vie
- Analyse de la version 4 de l'AFDB
- Identification des structures redondantes
- Composition des domaines
- Méthodes de parsing des domaines
- Classification des domaines TED
- Architectures à haute symétrie
- Distribution des nouveaux domaines
- Prédiction de fonction pour les nouveaux domaines
- Nouvelles interactions entre les paires de domaines
- Aborder les séquences redondantes
- Importance de la qualité des modèles
- Conclusion
- Directions futures
- Source originale
La base de données des structures protéiques AlphaFold (AFDB) est un grand projet qui a révolutionné notre façon de voir les structures des protéines. Elle a ajouté des formes 3D pour plus de 200 millions de séquences protéiques de UniProt. Ces infos sont importantes non seulement pour les scientifiques qui bossent dans les sciences de la vie, mais aussi pour les entreprises qui développent des nouveaux médicaments. Les données et les méthodes avancées utilisées dans l'AFDB aident les chercheurs à créer de meilleurs médicaments basés sur ces structures protéiques.
Limitations de l'AFDB
Malgré ses contributions majeures, l'AFDB a quelques défis. La grande quantité de données signifie que beaucoup d’outils traditionnels pour les jeux de données plus petits ne fonctionnent pas bien avec ça. Il faut donc de nouvelles stratégies pour visualiser et analyser les données efficacement. Les liens entre les structures protéiques et leurs fonctions sont complexes, donc les chercheurs ont besoin de nouvelles méthodes de calcul et de matériel à jour pour gérer ce gros jeu de données.
Trouver des Domaines protéiques
Les chercheurs peuvent trouver de nouveaux domaines protéiques en utilisant différentes approches basées sur les séquences et les structures. Par exemple, des bases de données comme Pfam et Gene3D utilisent les séquences pour identifier les familles de protéines. Pfam regroupe les protéines en familles avec des alignements de séquences multiples, tandis que Gene3D utilise des structures existantes pour trouver de nouveaux domaines en analysant leurs séquences. Bien que les méthodes basées sur les séquences puissent couvrir beaucoup de terrain, elles ont parfois du mal à identifier des parents éloignés à cause de leurs limitations.
En revanche, les méthodes basées sur la structure fournissent souvent une meilleure qualité lorsqu'il s'agit de définir les limites des domaines, surtout dans les cas où il y a peu de similarité avec des structures connues. Une analyse des domaines protéiques en utilisant l'AFDB et des données structurelles permet aux chercheurs de voir comment les domaines ont évolué à travers différents organismes.
L'arbre de la vie
Un sujet important qui n’a pas encore été pleinement étudié avec les données de l'AFDB est la cartographie des domaines protéiques à travers l'Arbre de la Vie. Différentes bases de données, comme CATH et SCOP, montrent comment les repliements et les domaines des protéines sont liés. Parfois, ces bases de données ne s'accordent pas sur ce qui constitue un domaine, ce qui peut prêter à confusion. Par exemple, la structure d'une protéine kinase peut être vue comme deux domaines séparés ou un domaine continu selon la technique d'analyse utilisée.
En analysant les données de l'AFDB à travers le cadre de CATH, les chercheurs peuvent potentiellement découvrir des liens profonds entre structure et fonction dans les protéines. Cette approche peut aider à annoter et classer une vaste gamme de protéines efficacement.
Analyse de la version 4 de l'AFDB
Dans cette étude, on a mené une exploration détaillée des structures des domaines dans l'AFDB. Cette analyse a porté sur plus de 371 millions de domaines potentiels issus de plus de 214 millions de séquences protéiques de plus d'un million d'organismes différents. L'étude a utilisé trois méthodes automatisées pour identifier les structures des domaines : Merizo, Chainsaw et UniDoc. En comparant ces méthodes et en utilisant des techniques avancées de comparaison structurelle comme Foldseek, on a réussi à catégoriser plus de 251 millions de domaines selon la hiérarchie de CATH.
Identification des structures redondantes
L'AFDB contient beaucoup de séquences redondantes, c’est-à-dire des séquences protéiques identiques qui ont été modélisées plusieurs fois. On a commencé par filtrer ces séquences pour obtenir un ensemble de séquences non redondantes. Ce filtrage nous a menés à 188 millions de séquences uniques à travers différents taxons, qu'on appelle TED-100.
Ce flux de travail nous a permis d'identifier beaucoup plus de domaines que ce que les méthodes basées sur les séquences pouvaient réaliser. Parmi ça, environ 100 millions de nouveaux domaines ont été découverts, montrant la puissance de l'analyse basée sur la structure.
Composition des domaines
On a trouvé un nombre à peu près égal de protéines à domaine unique et à domaines multiples dans le TED-100. Étonnamment, seulement 5% de ces protéines n'avaient pas de domaines identifiables, ce qui est beaucoup moins que ce que des bases de données précédentes comme Gene3D avaient rapporté. L'analyse a révélé que la proportion de protéines sans domaines identifiables variait selon les différentes formes de vie, les eucaryotes montrant un pourcentage plus élevé de résidus non-domaines.
Méthodes de parsing des domaines
Le flux de travail qu’on a utilisé combinait trois méthodes de parsing de domaines à la pointe de la technologie avec des algorithmes de classification des structures pour identifier des repliements et des domaines connus de l'AFDB. On a découvert un total de 371 millions de structures de domaines à travers l'AFDB. Ce nombre est beaucoup plus grand que celui des précédentes tentatives basées sur les séquences, permettant d'explorer des relations plus complexes entre les structures des protéines.
Classification des domaines TED
Pour classifier les domaines TED identifiés dans la hiérarchie de CATH, on les a regroupés selon leurs séquences en utilisant le programme MMseqs2. En utilisant des méthodes comme Foldseek et notre méthode interne, Foldclass-search, on a réussi à valider beaucoup des classifications de domaines.
Les résultats ont montré que TED enrichit significativement la compréhension des domaines structurels. Grâce à l'analyse avancée, on a pu évaluer et catégoriser une large gamme de repliements et d'architectures protéiques.
Architectures à haute symétrie
En analysant les données, on a découvert une classe de domaines avec une forte symétrie interne, ce qui pourrait représenter des structures encore inexplorées dans les bases de données existantes. Certaines nouvelles architectures intéressantes ont été trouvées, comme un propulseur beta à 11 pales et un propulseur à 11 hélices. De plus, on a identifié une nouvelle catégorie d'architectures appelées "répétitions extrudées", montrant une symétrie et une variété remarquables.
Distribution des nouveaux domaines
On a évalué la distribution des nouveaux domaines identifiés à travers différentes branches de la vie. Les résultats ont suggéré que beaucoup de ces nouvelles structures étaient plus présentes dans certains groupes bactériens. Cette sous-représentation indique des liens évolutifs possibles et des interactions inter-espèces qui pourraient ne se détecter que par des comparaisons structurelles.
Prédiction de fonction pour les nouveaux domaines
Pour explorer les fonctions potentielles des nouveaux repliements et répétitions identifiés, on a utilisé une méthode basée sur l'apprentissage profond pour prédire leurs rôles associés en utilisant les données de séquence. Beaucoup de domaines ont montré une forte confiance dans leurs fonctions prédites, particulièrement ceux liés à la liaison au zinc et aux acides nucléiques.
Nouvelles interactions entre les paires de domaines
L'AFDB permet aux chercheurs d'examiner en profondeur les interactions entre les paires de domaines. Dans TED, on a identifié plus de 27 millions d’instances de domaines interagissant à travers diverses superfamilles structurales. Ces infos sont super utiles car elles donnent des idées sur comment les protéines interagissent ensemble dans les cellules.
Aborder les séquences redondantes
Notre analyse a montré qu'un nombre considérable de séquences redondantes dans l'AFDB ne montrent pas des structures uniformes. Certaines séquences ont exhibé des variations significatives, indiquant des conformations alternatives potentielles. Cette découverte souligne l'importance de considérer la redondance lors de l'évaluation des structures protéiques.
Importance de la qualité des modèles
Bien que la majorité des structures dans l'AFDB soient de haute qualité, la quantité de données signifie que des erreurs vont inévitablement se produire. Pour une protéine donnée, un utilisateur peut trouver un meilleur modèle en examinant des copies redondantes de la séquence. Cette idée souligne la nécessité d'aller au-delà de simples entrées pour capter les meilleures données disponibles.
Conclusion
L'AFDB et notre flux de travail TED offrent une approche puissante pour étudier les structures protéiques. En décomposant ces structures en leurs domaines fonctionnels, les chercheurs peuvent tirer des idées importantes sur leurs relations et leur signification évolutive. Ce travail non seulement établit des connexions entre les protéines mais fournit aussi une ressource inestimable pour les chercheurs en biologie et en médecine, aidant à percer les secrets derrière la fonction et l'interaction des protéines à grande échelle.
Directions futures
Notre développement continu de TED vise à améliorer encore la compréhension des structures protéiques en intégrant de nouvelles données et méthodes au fur et à mesure qu'elles deviennent disponibles. L'AFDB est un véritable trésor d'informations qui peut mener à des découvertes passionnantes dans le domaine des sciences protéiques, avec des possibilités de nouvelles pistes de recherche qui émergent régulièrement. En collaborant avec et en informant la communauté de recherche, on espère stimuler la prochaine génération d'enquête scientifique dans ce domaine crucial.
Titre: Exploring structural diversity across the protein universe with The Encyclopedia of Domains
Résumé: The AlphaFold Protein Structure Database (AFDB) contains full-length predictions of the three-dimensional structures of almost every protein in UniProt. Because protein function is closely linked to structure, the AFDB is poised to revolutionise our understanding of biology, evolution and more. Protein structures are composed of domains, independently folding units that can be found in multiple structural contexts and functional roles. The AFDBs potential remains untapped due to the difficulty of characterising 200 million structures. Here we present The Encyclopedia of Domains or TED, which combines state-of-the-art deep learning-based domain parsing and structure comparison algorithms to segment and classify domains across the whole AFDB. TED describes over 370 million domains, over 100 million more than detectable by sequence-based methods. Nearly 80% of TED domains share similarities to known superfamilies in CATH, greatly expanding the set of known protein structural domains. We uncover over 10,000 previously unseen structural interactions between superfamilies, expand domain coverage to over 1 million taxa, and unveil thousands of architectures and folds across the unexplored continuum of protein fold space. We expect TED to be a valuable resource that provides a functional interface to the AFDB, empowering it to be useful for a multitude of downstream analyses.
Auteurs: David T Jones, A. M. C. Lau, N. Bordin, S. M. Kandathil, I. Sillitoe, V. P. Waman, J. Wells, C. Orengo
Dernière mise à jour: 2024-03-27 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2024.03.18.585509
Source PDF: https://www.biorxiv.org/content/10.1101/2024.03.18.585509.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.