Simple Science

La science de pointe expliquée simplement

# Biologie# Bioinformatique

Avancées dans la prédiction des régions désordonnées intrinsèques des protéines

De nouvelles méthodes améliorent la prévision des régions de protéines sans structure stable.

― 8 min lire


Nouvelle méthode pourNouvelle méthode pourprédire les IDRprotéines désordonnées.prédictions pour les régions dePredIDR améliore la précision des
Table des matières

Les protéines sont des molécules essentielles dans les organismes vivants, remplissant une large gamme de fonctions. Ces fonctions dépendent souvent de la forme de la protéine, qui est généralement une structure tridimensionnelle fixe. Toutefois, certaines parties des protéines, appelées régions intrinsèquement désordonnées (IDR), n'ont pas de forme stable. Au lieu de cela, elles peuvent changer de forme et fonctionner sans se plier complètement en une structure spécifique. Des études récentes ont montré que ces IDR sont assez courantes, représentant plus de 30 % des protéines dans les organismes à cellules complexes (eucaryotes). Les IDR jouent des rôles importants dans de nombreux processus biologiques.

Méthodes pour étudier les IDR

Pour en savoir plus sur les IDR, les scientifiques utilisent diverses techniques de laboratoire, comme la cristallographie aux rayons X, la résonance magnétique nucléaire (RMN) et la dichroïsme circulaire. Cependant, étudier ces régions peut être compliqué à cause de leur nature flexible. Comme seul un nombre limité d'IDR a été étudié en détail, les chercheurs ont développé de nombreuses méthodes informatiques pour prédire où se trouvent les IDR dans les séquences de protéines. Ces outils de prédiction se sont révélés utiles tant pour comprendre des protéines spécifiques que pour analyser de grands ensembles de protéines.

Évaluations communautaires des outils de prédiction d'IDR

La performance de différents outils de prédiction d'IDR a été évaluée à travers des compétitions dirigées par la communauté. L'une de ces compétitions est l'Évaluation Critique de la Prédiction de Structure Protéique (CASP), et une plus récente appelée Évaluation Critique du Désordre Intrinsèque Protéique (CAID). Au fil des ans, le nombre d'outils de prédiction d'IDR a considérablement augmenté, indiquant un intérêt croissant pour ce domaine. Les participants soumettent leurs logiciels de prédiction pour comparer leurs méthodes sur des cibles protéiques communes, qui ont des annotations IDR connues.

Dans CAID, non seulement la capacité à prédire les IDR est évaluée, mais aussi la prédiction des sites de liaison au sein de ces régions. Les participants utilisent une méthode qui attribue des scores à chaque acide aminé dans une protéine, montrant la probabilité qu'il fasse partie d'une région intrinsèquement désordonnée ou d'un site de liaison. Les éditions récentes de CAID ont observé une augmentation substantielle du nombre de méthodes de prédiction évaluées, démontrant le focus croissant sur ce défi.

Avancées dans la prédiction d'IDR

Un nouveau serveur web appelé CAID Prediction Portal a été développé pour faire fonctionner toutes les méthodes des compétitions CAID. Cette plateforme offre des résultats standardisés et permet aux utilisateurs de comparer facilement différentes méthodes. Les dernières évaluations ont démontré que la performance entre diverses méthodes de prédiction d'IDR peut varier selon les benchmarks différents, soulignant la nécessité d'améliorations continues dans les logiciels de prédiction.

Récemment, une nouvelle méthode d'apprentissage profond nommée PredIDR a été créée pour prédire précisément les IDR dans les protéines, ciblant spécifiquement ces régions manquantes dans les données de cristallographie aux rayons X. Cette méthode reflète les caractéristiques des IDR connus et vise à fournir une prédiction plus fiable.

Analyse des IDR à partir de la Banque de Données de Protéines

Pour analyser les IDR, les chercheurs ont extrait des séquences de protéines haute résolution de la Banque de Données de Protéines (PDB). En sélectionnant uniquement les protéines avec une identité de séquence de moins de 25 % et plus de 51 résidus, ils se sont concentrés sur un ensemble diversifié de protéines. Un résidu désordonné est défini comme celui qui manque de coordonnées tridimensionnelles dans les expériences aux rayons X. L'analyse a inclus uniquement des segments d'au moins quatre résidus désordonnés consécutifs.

En utilisant les séquences de protéines sélectionnées, un ensemble de validation a été créé. Cet ensemble comprenait 597 chaînes avec un total de plus de 151 000 résidus, dont environ 8 % ont été identifiés comme désordonnés. Des ensembles de données supplémentaires ont également été créés pour une validation supplémentaire, contenant différentes longueurs d'IDR pour imiter des conditions réelles.

Construction de l'Ensemble d'entraînement

Comme la tâche de prédiction est un problème de classification binaire, les chercheurs ont dû préparer un ensemble d'entraînement déséquilibré. L'ensemble d'entraînement a été formé en combinant des séquences d'IDR et des séquences structurées ordonnées tout en assurant une distribution équilibrée de résidus désordonnés et ordonnés. Ils ont ensuite créé des exemples négatifs artificiels pour garantir que le nombre d'échantillons positifs et négatifs soit égal.

Caractéristiques d'Entrée pour la Prédiction

Pour prédire si un résidu est désordonné ou ordonné, les chercheurs ont représenté chaque résidu protéique à l'aide de trois caractéristiques principales : profil évolutif, structure secondaire et accessibilité au solvant. Ces caractéristiques ont fourni des informations précieuses et ont été obtenues grâce à des outils de prédiction établis.

Architecture du Réseau Neural

La tâche de prédiction a été réalisée à l'aide d'un Réseau de neurones convolutionnel 2D (CNN). Cette architecture se compose de plusieurs couches, y compris des couches d'entrée, des couches convolutionnelles et des couches entièrement connectées. Le modèle traite les données d'entrée en petits segments, ce qui lui permet de capturer des motifs et d'améliorer efficacement les Prédictions.

Entraînement du Modèle de Réseau Neural

Le modèle a été entraîné en utilisant des mini-batchs de données, et le processus d'entraînement visait à réduire les erreurs de prédiction en ajustant les paramètres du modèle. Un algorithme spécialisé connu sous le nom d'Adam a été utilisé pour mettre à jour ces paramètres, en se concentrant sur la minimisation des erreurs dans les prédictions.

Amélioration des Prédictions avec des Techniques d'Ensemble et de Lissage

Pour améliorer la précision des prédictions, une méthode d'ensemble a été utilisée. Cette approche impliquait d'entraîner plusieurs modèles et de combiner leurs prédictions pour obtenir un meilleur résultat global. De plus, une technique de lissage a été appliquée en faisant la moyenne des prédictions sur une fenêtre glissante centrée sur un résidu spécifique, affinant ainsi la sortie.

Métriques d'Évaluation

Pour évaluer la performance des modèles de prédiction, deux mesures basées sur la probabilité, connues sous le nom de AUC_ROC et AUC_PR, ont été utilisées. Ces métriques aident à comprendre à quel point le modèle attribue des scores de confiance à chaque résidu en fonction de son statut de désordre.

Résultats et Discussion

PredIDR a démontré des prédictions efficaces pour les régions intrinsèquement désordonnées dans les protéines, en particulier pour les résidus manquants dans les données aux rayons X. La performance de la méthode s'est améliorée avec la combinaison de diverses caractéristiques et grâce à l'utilisation de techniques d'ensemble et de lissage. Les meilleurs résultats ont été obtenus en utilisant une taille de fenêtre spécifique pour le lissage, qui variait en fonction de l'ensemble de données.

PredIDR a été testé par rapport à des méthodes de prédiction existantes lors de compétitions, où il a surpassé de nombreuses autres approches. Cela indique son potentiel en tant qu'outil fiable pour identifier les IDR dans les protéines.

Comparaison avec d'autres méthodes

PredIDR a été évalué par rapport à d'autres méthodes de prédiction d'IDR lors de compétitions. Il a montré une amélioration significative par rapport à plusieurs autres outils, soulignant son efficacité dans la détection des régions intrinsèquement désordonnées. La méthode a particulièrement bien performé dans des ensembles de données avec un pourcentage plus élevé de résidus désordonnés.

Directions Futures

À l'avenir, l'objectif est d'améliorer encore les méthodes de prédiction en incluant des données provenant d'annotations non-X-ray en plus des données existantes. De telles améliorations pourraient mener à des prédictions encore plus précises des IDR et de leurs fonctions.

Conclusion

Le développement de PredIDR marque une avancée importante dans la prédiction des régions intrinsèquement désordonnées dans les protéines. En combinant diverses caractéristiques et en utilisant des techniques d'apprentissage automatique sophistiquées, cette méthode fournit un outil puissant pour les chercheurs étudiant la structure et la fonction des protéines. À mesure que le domaine continue de croître, de telles méthodes prédictives joueront un rôle crucial dans l'amélioration de notre compréhension de la nature dynamique des protéines et de leurs interactions dans les systèmes biologiques.

Source originale

Titre: PredIDR: Accurate prediction of protein intrinsic disorder regions using deep convolutional neural network

Résumé: The involvement of protein intrinsic disorder in essential biological processes, it is well known in structural biology. However, experimental methods for detecting intrinsic structural disorder and directly measuring highly dynamic behavior of protein structure are limited. To address this issue, several computational methods to predict intrinsic disorder from protein sequences were developed and their performance is evaluated by the Critical Assessment of protein Intrinsic Disorder (CAID). In this paper, we describe a new computational method, PredIDR, which provides accurate prediction of intrinsically disordered regions in proteins, mimicking experimental X-ray missing residues. Indeed, missing residues in Protein Data Bank (PDB) were used as positive examples to train a deep convolutional neural network which produces two types of output for short and long regions. PredIDR took part in the second round of CAID and was as accurate as the top state-of-the-art IDR prediction methods. PredIDR can be freely used through the CAID Prediction Portal available at https://caid.idpcentral.org/portal or downloaded as a Singularity container from https://biocomputingup.it/shared/caid-predictors/.

Auteurs: Damiano Piovesan, K.-S. Han, S.-J. Yun, C.-S. Kim, C.-P. Ri, A. Del Conte

Dernière mise à jour: 2024-07-24 00:00:00

Langue: English

Source URL: https://www.biorxiv.org/content/10.1101/2024.07.24.604908

Source PDF: https://www.biorxiv.org/content/10.1101/2024.07.24.604908.full.pdf

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires