Simple Science

Scienza all'avanguardia spiegata semplicemente

# La biologia# Bioinformatica

Nuovo strumento identifica geni di enzimi orfani

DeepES svela geni candidati per enzimi orfani legati alla salute intestinale.

― 6 leggere min


Strumento DeepES perStrumento DeepES perenzimi orfaniorfani legati alla salute.Nuovo strumento prevede geni di enzimi
Indice

Recenti progressi nella tecnologia hanno permesso agli scienziati di leggere molte sequenze proteiche. Tra queste proteine ci sono gli enzimi, che aiutano ad accelerare le reazioni chimiche negli organismi viventi. Ci sono grandi database disponibili, come KEGG e BRENDA, che contengono informazioni su questi enzimi. Tuttavia, molti di questi enzimi non hanno le loro sequenze elencate. Gli enzimi di cui conosciamo l'attività ma di cui non abbiamo i dati di sequenza corrispondenti vengono chiamati enzimi orfani.

Gli enzimi orfani sono abbastanza comuni. Ad esempio, sono coinvolti in circa il 20,8% delle reazioni metaboliche dettagliate nel database KEGG. Inoltre, almeno il 22,4% degli enzimi registrati è classificato come orfano. Questo crea una lacuna nella nostra conoscenza perché spesso non possiamo studiare le funzioni biologiche di questi enzimi a causa della mancanza di informazioni sulle sequenze. Questa lacuna è particolarmente evidente quando si tratta di comprendere alcuni processi complessi, come quelli svolti dai batteri intestinali, che possono influenzare problemi di salute come l'infiammazione intestinale e il cancro.

Per comprendere meglio il ruolo degli enzimi orfani, è fondamentale trovare modi per collegare le loro informazioni genetiche alle loro funzioni senza fare affidamento solo su sequenze conosciute. Gli sviluppi recenti nell'intelligenza artificiale, in particolare nel deep learning, si sono dimostrati efficaci nel prevedere le funzioni e le strutture delle proteine. Ora ci sono molti strumenti disponibili per aiutare a classificare gli enzimi basandosi esclusivamente sulle loro sequenze.

Questo articolo introduce un nuovo strumento chiamato DeepES, che mira a identificare i geni degli enzimi orfani. Questo strumento utilizza informazioni genetiche esistenti e un nuovo sistema di classificazione chiamato RClass per assistere nella ricerca di geni candidati legati agli enzimi orfani.

Il Problema degli Enzimi Orfani

Gli enzimi orfani rappresentano una sfida significativa per i ricercatori. I metodi tradizionali per determinare le funzioni delle proteine spesso si basano sul confronto delle sequenze con quelle di proteine conosciute. Tuttavia, questo approccio non funziona per gli enzimi orfani perché mancano di sequenze note. Di conseguenza, c'è una disconnessione tra la vasta quantità di dati sulle sequenze disponibili e la nostra comprensione di come queste sequenze si riferiscano alle funzioni biologiche.

Questa limitazione è particolarmente critica quando si studiano i batteri intestinali. Molti processi nell'intestino, come la produzione di acidi grassi a catena corta, sono mediati da enzimi orfani. Senza comprendere questi enzimi, diventa difficile avere intuizioni su come funzionano i batteri intestinali e come possono influenzare la salute umana.

Introducendo DeepES

DeepES è un framework progettato per aiutare a identificare i geni associati agli enzimi orfani. Lo fa utilizzando i cluster genici biosintetici (BGC), che sono gruppi di geni che lavorano insieme per produrre composti specifici. L'idea principale è valutare questi cluster per i geni candidati che potrebbero codificare enzimi orfani.

DeepES funziona in tre passaggi principali:

  1. Raccoglie le sequenze proteiche di geni successivi in un genoma.
  2. Prevede la probabilità che ciascun gene corrisponda a varie reazioni enzimatiche utilizzando i classificatori RClass.
  3. Infine, valuta se i geni sono probabilmente in grado di produrre enzimi che svolgono reazioni chimiche specifiche in base alle probabilità previste.

Come Funziona DeepES

Per costruire questo strumento, i ricercatori hanno iniziato raccogliendo dati da sequenze proteiche e dal sistema di classificazione RClass. L'RClass fornisce un modo per categorizzare le reazioni in base ai tipi di cambiamenti chimici che si verificano, piuttosto che fare affidamento su descrizioni dettagliate delle attività enzimatiche. Fondamentalmente, l'RClass consente ai ricercatori di classificare le reazioni anche quando gli enzimi non sono completamente compresi.

DeepES impiega un modello che utilizza l'apprendimento automatico per analizzare i dati. Il set di dati iniziale includeva milioni di voci, ma alcune sequenze che erano troppo lunghe o contenevano determinati tipi di amminoacidi sono state rimosse per l'analisi. Questo dataset affinato è stato poi utilizzato per insegnare al modello a riconoscere schemi e fare previsioni.

Validazione di DeepES

Per assicurarsi che DeepES fosse efficace, i ricercatori hanno confrontato le sue previsioni con i risultati dei metodi tradizionali, in particolare lo strumento BLAST, che cerca somiglianze nelle sequenze. Hanno creato un dataset più piccolo per la validazione e hanno seguito una serie di fasi di addestramento e test.

I risultati hanno mostrato che DeepES può fare previsioni accurate sulle funzioni degli enzimi, anche quando le sequenze non sono note. Questo significa che il framework ha superato i metodi tradizionali in molti casi, evidenziando il suo potenziale per colmare il divario nella comprensione degli enzimi orfani.

Cluster Genici Biosintetici

Nei sistemi biologici, molti geni correlati si trovano vicini l'uno all'altro nel genoma. Questi gruppi, noti come cluster genici biosintetici, sono essenziali per comprendere come le cellule producano vari composti. Studiando questi cluster, DeepES mira a localizzare in modo efficiente i potenziali geni degli enzimi orfani.

Il framework valuta gruppi di geni in successione e assegna punteggi per indicare la probabilità che un insieme di geni codifichi gli enzimi desiderati. Questo approccio a finestra scorrevole aiuta a restringere efficacemente i geni candidati.

Applicazione di DeepES a Enzimi Orfani Reali

I ricercatori hanno applicato DeepES a un insieme di geni rappresentativi dai batteri intestinali umani per identificare geni candidati per enzimi orfani unici per questi microorganismi. Si sono concentrati su un elenco di enzimi associati a vie metaboliche rilevanti per la salute intestinale.

DeepES ha evidenziato con successo geni candidati per numerosi enzimi orfani, confermando la sua utilità nell'identificare potenziali enzimi coinvolti in percorsi metabolici chiave. I risultati indicano che DeepES può effettivamente restringere i candidati genici rispetto ai metodi precedenti che esaminavano singoli geni in isolamento.

Risultati e Scoperte

DeepES è stato efficace nell'identificare geni legati a enzimi orfani, in particolare quelli coinvolti nella produzione di acidi grassi a catena corta. Questa scoperta è significativa perché gli acidi grassi a catena corta giocano un ruolo vitale nella salute umana, influenzando tutto, dalla salute intestinale al metabolismo generale.

I ricercatori hanno trovato molti geni candidati associati a enzimi orfani, indicando che DeepES può effettivamente analizzare questi geni difficili da trovare. Hanno anche notato l'importanza di ulteriori validazioni sperimentali per confermare le previsioni fatte dal modello.

Limitazioni e Direzioni Future

Nonostante i suoi punti di forza, DeepES non è privo di limiti. Ad esempio, mentre RClass consente ai ricercatori di classificare gli enzimi in modo più ampio rispetto ai metodi tradizionali, può comunque portare a una rappresentazione sbilanciata delle attività enzimatiche. Inoltre, non tutte le reazioni enzimatiche sono classificate utilizzando RClass, quindi alcuni enzimi orfani potrebbero rimanere non identificati.

In aggiunta, le previsioni fatte da DeepES richiedono ulteriori validazioni sperimentali. I ricercatori sottolineano la necessità di questi test nel mondo reale per confermare l'accuratezza dei risultati del modello.

Conclusione

DeepES rappresenta un importante avanzamento nella ricerca dei geni degli enzimi orfani. Sfruttando le informazioni dai cluster genici biosintetici e impiegando un sistema di classificazione unico, ha aperto nuove strade per la ricerca sulle funzioni enzimatiche legate alla salute umana. Questo strumento innovativo evidenzia il potenziale di colmare i divari esistenti tra i dati di sequenza e la comprensione biologica, specialmente nel contesto del microbiota intestinale e della sua influenza sulla salute. Andando avanti, i ricercatori possono aspettarsi di scoprire preziose intuizioni sulle funzioni enzimatiche e il loro impatto sul metabolismo e sulla salute.

Fonte originale

Titolo: DeepES: Deep learning-based enzyme screening to identify orphan enzyme genes

Estratto: MotivationProgress in sequencing technology has led to determination of large numbers of protein sequences, and large enzyme databases are now available. Although many computational tools for enzyme annotation were developed, sequence information is unavailable for many enzymes, known as orphan enzymes. These orphan enzymes hinder sequence similarity-based functional annotation, leading gaps in understanding the association between sequences and enzymatic reactions. ResultsTherefore, we developed DeepES, a deep learning-based tool for enzyme screening to identify orphan enzyme genes, focusing on biosynthetic gene clusters and reaction class. DeepES uses protein sequences as inputs and evaluates whether the input genes contain biosynthetic gene clusters of interest by integrating the outputs of the binary classifier for each reaction class. The validation results suggested that DeepES can capture functional similarity between protein sequences, and it can be implemented to explore orphan enzyme genes. By applying DeepES to 4744 metagenome-assembled genomes, we identified candidate genes for 236 orphan enzymes, including those involved in short-chain fatty acid production as a characteristic pathway in human gut bacteria. Availability and implementationDeepES is available at https://github.com/yamada-lab/DeepES. Model weights and the candidate genes are available at Zenodo (https://doi.org/10.5281/zenodo.11123900).

Autori: Takuji Yamada, K. Hirota, F. Salim

Ultimo aggiornamento: 2024-05-10 00:00:00

Lingua: English

URL di origine: https://www.biorxiv.org/content/10.1101/2024.05.09.592857

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.05.09.592857.full.pdf

Licenza: https://creativecommons.org/licenses/by-nc/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili