Simple Science

La science de pointe expliquée simplement

# Biologie# Bioinformatique

Avancées dans le regroupement de protéines avec ProtParts

ProtParts améliore le clustering de protéines et réduit le surapprentissage dans les modèles de machine learning.

― 8 min lire


ProtParts : Un nouvelProtParts : Un nouveloutil de clusteringrésultats du machine learning.Améliore l'analyse des protéines et les
Table des matières

Ces dernières années, l'apprentissage automatique est devenu un outil super important en bioinformatique, surtout pour comprendre les protéines. Les chercheurs utilisent l'apprentissage automatique pour analyser les séquences de protéines, ce qui aide à identifier des motifs et comprendre les fonctions plus rapidement.

Un des gros défis pour créer des modèles d'apprentissage automatique efficaces, c'est le surapprentissage. Le surapprentissage se produit quand un modèle fonctionne bien sur les données d'entraînement mais pas sur les nouvelles données qu'il n'a jamais vues. Ce problème peut limiter l'utilité du modèle dans des applications concrètes.

Une raison courante du surapprentissage, c'est la Fuite de données. Ça arrive quand des infos des données de test se faufilent dans les données d'entraînement, ce qui fait que les modèles mémorisent plutôt qu'ils n'apprennent. En bioinformatique, la fuite de données est un problème fréquent. Les chercheurs ont proposé différentes solutions pour y remédier, comme séparer les données en groupes tout en gardant les éléments similaires à l'écart.

Clustering de données

Pour éviter la fuite de données et le surapprentissage, une méthode importante, c'est le clustering. Le clustering consiste à regrouper des données similaires. Ça aide à réduire la redondance, ce qui veut dire ne pas avoir trop d'infos similaires dans les ensembles de données d'entraînement et de test.

Il existe des outils pour aider avec le clustering des séquences de protéines. Un de ces outils s'appelle CD-HIT, qui utilise un algorithme spécifique pour grouper des séquences de protéines similaires. Le principe, c'est de trier les séquences par longueur et de les comparer pour trouver des Similarités. Si deux séquences sont suffisamment similaires, elles sont regroupées. Ça aide les chercheurs à analyser de grandes quantités de données plus efficacement.

Un autre outil est UCLUST, qui fonctionne de manière similaire mais utilise une approche différente pour mesurer la similarité. Et puis il y a MMseqs2, qui utilise une méthode plus complexe pour trouver des groupes de séquences de protéines similaires. Bien que ces outils soient utiles, ils ne trouvent pas toujours la meilleure solution et peuvent rater des similarités importantes à cause de leurs algorithmes.

Nouveaux outils de clustering

Pour améliorer les méthodes existantes, un nouvel outil web a été créé, appelé ProtParts. ProtParts a une interface conviviale qui permet aux chercheurs de regrouper les protéines selon leur similarité. Cet outil a été conçu pour éviter la fuite de données en utilisant une méthode différente pour mesurer la similarité.

Dans le développement de ProtParts, plusieurs méthodes ont été comparées pour trouver la meilleure façon d'évaluer la similarité entre les protéines. Les créateurs ont examiné l'efficacité de différentes méthodes pour créer des clusters efficaces. Ils ont découvert que certaines approches étaient meilleures pour garantir que les clusters contenaient des protéines réellement similaires.

Méthodes utilisées dans le clustering

Pour évaluer la performance de ProtParts, diverses bases de données ont été collectées. Par exemple, une base de données était axée sur les protéines allergènes qui peuvent causer des réactions allergiques chez les humains. Cette base contenait une variété de protéines que les chercheurs voulaient analyser.

Une autre base de données a rassemblé des infos sur la structure des protéines et leurs relations évolutives, ce qui a aidé à fournir un contexte à l'analyse. Les chercheurs ont comparé ces bases de données en utilisant des méthodes de recherche tous contre tous pour obtenir des mesures de similarité. Ils ont collecté des métriques basées sur la similarité entre les protéines, ce qui a servi de base pour le clustering.

Le nouvel outil, ProtParts, construit un graphique où chaque protéine est représentée par un nœud. Les arêtes du graphique représentent la similarité entre les protéines. En appliquant un seuil basé sur la similarité, le graphique peut être divisé en groupes plus petits, facilitant l'analyse et l'interprétation des données.

Évaluer la performance du clustering

Pour comprendre à quel point ProtParts était efficace, les chercheurs ont testé ses performances par rapport à d'autres méthodes de clustering. Ils ont utilisé deux métriques appelées information mutuelle ajustée (AMI) et coefficient de silhouette pour évaluer la qualité des clusters. L'AMI mesure combien d'infos des vraies étiquettes sont contenues dans les étiquettes de clusters prédites, tandis que le coefficient de silhouette évalue à quel point une protéine s'intègre bien dans son cluster comparé aux autres.

Les résultats de ces évaluations ont montré que ProtParts était efficace pour créer des clusters où les protéines partageaient plus de similarités. Les scores AMI élevés indiquaient que les clusters facilitaient une meilleure compréhension des relations entre les protéines. Ça suggère que ProtParts peut être un outil fiable pour les chercheurs qui étudient les protéines.

Entraînement en machine learning

Dans le cadre de l'apprentissage automatique, avoir des clusters bien définis joue un rôle vital dans la performance du modèle. Les chercheurs ont entraîné différents modèles en utilisant les clusters créés par ProtParts. Ils ont utilisé divers outils d'apprentissage automatique, dont un basé sur un algorithme de forêt aléatoire. Un autre modèle a utilisé une approche de deep learning pour analyser les données plus en profondeur.

Les chercheurs ont évalué la performance de chaque modèle à l'aide de métriques comme l'AUC (aire sous la courbe) et l'AUC 0.1. Ces métriques donnent un aperçu de la précision des prédictions des modèles en fonction des données d'entraînement. Les modèles entraînés avec les clusters de ProtParts ont montré une meilleure performance par rapport à ceux entraînés sur des données mal regroupées.

Résultats et découvertes

Les résultats ont indiqué que lorsque les modèles étaient entraînés sur des partitions correctement regroupées avec ProtParts, ils ont connu moins de surapprentissage. Ça veut dire que les modèles pouvaient mieux généraliser à de nouvelles données, ce qui a conduit à des prédictions plus précises.

Les chercheurs ont aussi examiné comment ces modèles se comportaient lorsqu'ils étaient appliqués à un nouvel ensemble de données d'évaluation qu'ils n'avaient pas vus pendant l'entraînement. Ils ont remarqué que les modèles entraînés sur des clusters aléatoires avaient tendance à mieux fonctionner, mais c'était trompeur à cause de la fuite de données. En revanche, les modèles entraînés avec ProtParts ont maintenu leur performance, prouvant leur fiabilité.

Implications globales

La recherche a souligné l'importance de lutter contre le surapprentissage et la fuite de données dans les applications d'apprentissage automatique en bioinformatique. Utiliser un outil de clustering approprié comme ProtParts, qui utilise l'E-value pour mesurer la similarité, peut significativement améliorer les résultats des modèles.

En veillant à ce que les clusters soient indépendants et contiennent des données vraiment similaires, les résultats des modèles d'apprentissage automatique peuvent être plus précis et fiables. L'étude a insisté sur le fait que les chercheurs en bioinformatique devraient considérer l'utilisation de meilleures méthodes de clustering pour éviter des pièges comme le surapprentissage, qui peuvent compromettre les résultats et les interprétations.

Conclusion

En résumé, le développement et la mise en œuvre de ProtParts marquent un grand pas en avant dans le clustering des séquences de protéines en bioinformatique. La capacité à mesurer efficacement la similarité et à éviter la fuite de données profite non seulement aux chercheurs, mais renforce aussi la fiabilité globale des modèles d'apprentissage automatique dans la prédiction des fonctions et structures des protéines.

Avec des outils comme ProtParts maintenant disponibles, la communauté de la bioinformatique a le potentiel d'obtenir des aperçus plus profonds des relations entre protéines, menant à des avancées dans la compréhension des processus biologiques et à l'amélioration des modèles prédictifs. L'accent mis sur le raffinement des stratégies de clustering et de partitionnement continuera à jouer un rôle crucial pour assurer la crédibilité et l'utilité des recherches dans ce domaine.

Source originale

Titre: ProtParts, an automated web server for clustering and partitioning protein datasets

Résumé: Data leakage originating from protein sequence similarity shared among train and test sets can result in model overfitting and overestimation of model performance and utility. However, leakage is often subtle and might be difficult to eliminate. Available clustering tools often do not provide completely independent partitions, and in addition it is difficult to assess the statistical significance of those differences. In this study, we developed a clustering and partitioning tool, ProtParts, utilizing the E-value of BLAST to compute pairwise similarities between each pair of proteins and using a graph algorithm to generate clusters of similar sequences. This exhaustive clustering ensures the most independent partitions, giving a metric of statistical significance and, thereby enhancing the model generalization. A series of comparative analyses indicated that ProtParts clusters have higher silhouette coefficient and adjusted mutual information than other algorithms using k-mers or sequence percentage identity. Re-training three distinct predictive models revealed how sub-optimal data clustering and partitioning leads to overfitting and inflated performance during cross-validation. In contrast, training on ProtParts partitions demonstrated a more robust and improved model performance on predicting independent data. Based on these results, we deployed the user-friendly web server ProtParts (https://services.healthtech.dtu.dk/services/ProtParts-1.0) for protein partitioning prior to machine learning applications. GRAPHICAL ABSTRACT O_FIG O_LINKSMALLFIG WIDTH=200 HEIGHT=79 SRC="FIGDIR/small/603234v1_ufig1.gif" ALT="Figure 1"> View larger version (22K): [email protected]@994c6borg.highwire.dtl.DTLVardef@68147eorg.highwire.dtl.DTLVardef@1198eab_HPS_FORMAT_FIGEXP M_FIG C_FIG

Auteurs: Carolina Barra, Y. Li

Dernière mise à jour: 2024-07-16 00:00:00

Langue: English

Source URL: https://www.biorxiv.org/content/10.1101/2024.07.12.603234

Source PDF: https://www.biorxiv.org/content/10.1101/2024.07.12.603234.full.pdf

Licence: https://creativecommons.org/licenses/by-nc/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires