Simple Science

La science de pointe expliquée simplement

# Biologie# Bioinformatique

Nouveau tool identifie les gènes d'enzymes orphelins

DeepES révèle des gènes candidats pour des enzymes orphelines liées à la santé intestinale.

― 8 min lire


Outil DeepES pour lesOutil DeepES pour lesenzymes orphelinesd'enzymes orphelines liés à la santé.Un nouvel outil prédit des gènes
Table des matières

Des avancées récentes en technologie ont permis aux scientifiques de lire de nombreuses séquences de protéines. Parmi ces protéines, il y a des enzymes qui aident à accélérer les réactions chimiques dans les organismes vivants. Il existe de grandes bases de données, comme KEGG et BRENDA, qui contiennent des infos sur ces enzymes. Cependant, beaucoup de ces enzymes n'ont pas de séquences répertoriées. Les enzymes dont on connaît le fonctionnement mais qui n'ont pas de données de séquence correspondantes sont appelées des enzymes orphelines.

Les enzymes orphelines sont assez courantes. Par exemple, elles sont impliquées dans environ 20,8 % des réactions métaboliques détaillées dans la base de données KEGG. De plus, au moins 22,4 % des enzymes enregistrées sont classées comme orphelines. Ça crée un manque dans nos connaissances parce qu'on ne peut souvent pas étudier les fonctions biologiques de ces enzymes à cause de l'info de séquence manquante. Ce manque est particulièrement évident lorsqu'il s'agit de comprendre certains processus complexes, comme ceux réalisés par les bactéries intestinales, qui peuvent affecter des problèmes de santé comme l'inflammation intestinale et le cancer.

Pour mieux comprendre le rôle des enzymes orphelines, il est essentiel de trouver des moyens de lier leurs infos génétiques à leurs fonctions sans se fier uniquement aux séquences connues. Des développements récents en intelligence artificielle, surtout dans le deep learning, se sont montrés efficaces pour prédire les fonctions et structures des protéines. De nombreux outils existent maintenant pour aider à classer les enzymes uniquement basés sur leurs séquences.

Cet article présente un nouvel outil appelé DeepES, qui vise à identifier les gènes d'enzymes orphelines. Cet outil utilise des infos génétiques existantes et un nouveau système de classification appelé RClass pour aider à la recherche de gènes candidats liés aux enzymes orphelines.

Le Problème des Enzymes Orphelines

Les enzymes orphelines représentent un défi important pour les chercheurs. Les méthodes traditionnelles pour déterminer les fonctions des protéines s'appuient souvent sur l'appariement des séquences avec celles de protéines connues. Cependant, cette approche ne fonctionne pas pour les enzymes orphelines car elles n'ont aucune séquence connue. En conséquence, il y a un décalage entre l'énorme quantité de données de séquence disponibles et notre compréhension de la façon dont ces séquences se rapportent aux fonctions biologiques.

Cette limitation est particulièrement critique lorsqu'il s'agit d'étudier les bactéries intestinales. De nombreux processus dans l'intestin, comme la production d'Acides gras à chaîne courte, sont médiés par des enzymes orphelines. Sans comprendre ces enzymes, il devient difficile d'avoir un aperçu de la façon dont fonctionnent les bactéries intestinales et comment elles peuvent impacter la santé humaine.

Introduction de DeepES

DeepES est un cadre conçu pour aider à identifier les gènes associés aux enzymes orphelines. Il le fait en utilisant des Clusters de gènes biosynthétiques (BGC), qui sont des groupes de gènes qui travaillent ensemble pour produire des composés spécifiques. L'idée principale est d'évaluer ces clusters pour des gènes candidats qui pourraient coder des enzymes orphelines.

DeepES fonctionne en trois étapes principales :

  1. Il collecte les séquences de protéines de gènes successifs dans un génome.
  2. Il prédit la probabilité que chaque gène corresponde à diverses réactions enzymatiques en utilisant les classificateurs RClass.
  3. Enfin, il évalue si les gènes sont susceptibles de produire des enzymes qui effectuent des réactions chimiques spécifiques basées sur les probabilités prédites.

Comment fonctionne DeepES

Pour construire cet outil, les chercheurs ont commencé par collecter des données à partir de séquences de protéines et du système de classification RClass. Le RClass fournit un moyen de catégoriser les réactions en fonction des types de changements chimiques qui se produisent plutôt que de se fier à des descriptions détaillées de l'activité enzymatique. Essentiellement, RClass permet aux chercheurs de classer les réactions même lorsque les enzymes ne sont pas complètement comprises.

DeepES utilise un modèle qui emploie le machine learning pour analyser les données. L'ensemble de données initial comprenait des millions d'entrées, mais certaines séquences qui étaient trop longues ou contenaient certains types d'acides aminés ont été enlevées pour l'analyse. Cet ensemble de données affiné a ensuite été utilisé pour apprendre au modèle à reconnaître des motifs et à faire des prédictions.

Validation de DeepES

Pour s'assurer que DeepES était efficace, les chercheurs ont comparé ses prédictions avec les résultats de méthodes traditionnelles, en particulier l'outil BLAST, qui recherche des similitudes dans les séquences. Ils ont créé un ensemble de données plus petit pour la validation et ont suivi une série d'étapes de formation et de test.

Les résultats ont montré que DeepES pourrait faire des prédictions précises sur les fonctions des enzymes, même lorsque les séquences n'étaient pas connues. Cela signifie que le cadre a surpassé les méthodes traditionnelles dans de nombreux cas, mettant en évidence son potentiel pour combler le fossé dans la compréhension des enzymes orphelines.

Clusters de Gènes Biosynthétiques

Dans les systèmes biologiques, de nombreux gènes apparentés se trouvent proches les uns des autres dans le génome. Ces groupes, connus sous le nom de clusters de gènes biosynthétiques, sont essentiels pour comprendre comment les cellules produisent divers composés. En étudiant ces clusters, DeepES vise à localiser efficacement les gènes potentiels des enzymes orphelines.

Le cadre évalue les groupes de gènes de manière successive et attribue des scores pour indiquer la probabilité qu'un ensemble de gènes code les enzymes souhaitées. Cette approche de fenêtre glissante aide à affiner efficacement les gènes candidats.

Application de DeepES aux Enzymes Orphelines Réelles

Les chercheurs ont appliqué DeepES à un ensemble de gènes représentatifs provenant des bactéries intestinales humaines pour identifier des gènes candidats pour des enzymes orphelines uniques à ces micro-organismes. Ils se sont concentrés sur une liste d'enzymes associées à des voies métaboliques pertinentes pour la santé intestinale.

DeepES a réussi à mettre en évidence des gènes candidats pour de nombreuses enzymes orphelines, renforçant son utilité dans l'identification des enzymes potentielles impliquées dans des voies métaboliques clés. Les résultats ont indiqué que DeepES pouvait efficacement réduire les candidats de gènes par rapport aux méthodes précédentes qui examinaient les gènes individuellement.

Résultats et Découvertes

DeepES a réussi à identifier des gènes liés aux enzymes orphelines, en particulier ceux impliqués dans la production d'acides gras à chaîne courte. Cette découverte est significative car les acides gras à chaîne courte jouent un rôle vital dans la santé humaine, affectant tout, de la santé intestinale au métabolisme global.

Les chercheurs ont trouvé de nombreux gènes candidats associés aux enzymes orphelines, indiquant que DeepES peut efficacement détecter ces gènes difficiles à trouver. Ils ont également noté l'importance d'une validation expérimentale ultérieure pour confirmer les prédictions faites par le modèle.

Limitations et Perspectives Futures

Malgré ses forces, DeepES n'est pas sans limitations. Par exemple, bien que RClass permette aux chercheurs de classifier les enzymes plus largement que les méthodes traditionnelles, cela peut encore conduire à une représentation déséquilibrée des activités enzymatiques. De plus, toutes les réactions enzymatiques ne sont pas classées en utilisant RClass, donc certaines enzymes orphelines peuvent rester non identifiées.

De plus, les prédictions faites par DeepES nécessitent une validation expérimentale supplémentaire. Les chercheurs soulignent la nécessité de ces tests réels pour confirmer l'exactitude des résultats du modèle.

Conclusion

DeepES représente une avancée significative dans la recherche des gènes d'enzymes orphelines. En s'appuyant sur des infos provenant des clusters de gènes biosynthétiques et en utilisant un système de classification unique, il a ouvert de nouvelles voies pour la recherche sur les fonctions enzymatiques liées à la santé humaine. Cet outil innovant met en évidence le potentiel de combler les lacunes existantes entre les données de séquence et la compréhension biologique, surtout dans le contexte du microbiote intestinal et de leur influence sur la santé. À l'avenir, les chercheurs peuvent s'attendre à découvrir des infos précieuses sur les fonctions enzymatiques et leurs impacts sur le métabolisme et la santé.

Source originale

Titre: DeepES: Deep learning-based enzyme screening to identify orphan enzyme genes

Résumé: MotivationProgress in sequencing technology has led to determination of large numbers of protein sequences, and large enzyme databases are now available. Although many computational tools for enzyme annotation were developed, sequence information is unavailable for many enzymes, known as orphan enzymes. These orphan enzymes hinder sequence similarity-based functional annotation, leading gaps in understanding the association between sequences and enzymatic reactions. ResultsTherefore, we developed DeepES, a deep learning-based tool for enzyme screening to identify orphan enzyme genes, focusing on biosynthetic gene clusters and reaction class. DeepES uses protein sequences as inputs and evaluates whether the input genes contain biosynthetic gene clusters of interest by integrating the outputs of the binary classifier for each reaction class. The validation results suggested that DeepES can capture functional similarity between protein sequences, and it can be implemented to explore orphan enzyme genes. By applying DeepES to 4744 metagenome-assembled genomes, we identified candidate genes for 236 orphan enzymes, including those involved in short-chain fatty acid production as a characteristic pathway in human gut bacteria. Availability and implementationDeepES is available at https://github.com/yamada-lab/DeepES. Model weights and the candidate genes are available at Zenodo (https://doi.org/10.5281/zenodo.11123900).

Auteurs: Takuji Yamada, K. Hirota, F. Salim

Dernière mise à jour: 2024-05-10 00:00:00

Langue: English

Source URL: https://www.biorxiv.org/content/10.1101/2024.05.09.592857

Source PDF: https://www.biorxiv.org/content/10.1101/2024.05.09.592857.full.pdf

Licence: https://creativecommons.org/licenses/by-nc/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires