Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Biología# Bioinformática

Nueva herramienta identifica genes de enzimas huérfanas

DeepES revela genes candidatos para enzimas huérfanas relacionadas con la salud intestinal.

― 7 minilectura


Herramienta DeepES paraHerramienta DeepES paraEnzimas Huérfanassalud.enzimas huérfanas relacionados con laNueva herramienta predice genes de
Tabla de contenidos

Los avances recientes en tecnología han permitido que los científicos lean muchas secuencias de proteínas. Entre estas proteínas están las enzimas, que ayudan a acelerar reacciones químicas en organismos vivos. Hay grandes bases de datos disponibles, como KEGG y BRENDA, que contienen información sobre estas enzimas. Sin embargo, muchas de estas enzimas no tienen sus secuencias listadas. A las enzimas que conocemos pero que no tienen datos de secuencia correspondientes se les llama enzimas huérfanas.

Las enzimas huérfanas son bastante comunes. Por ejemplo, están involucradas en alrededor del 20.8% de las reacciones metabólicas detalladas en la base de datos KEGG. Además, al menos el 22.4% de las enzimas registradas se clasifican como huérfanas. Esto crea una brecha en nuestro conocimiento porque a menudo no podemos estudiar las funciones biológicas de estas enzimas debido a la falta de información de secuencia. Esta brecha es particularmente evidente cuando se trata de entender algunos procesos complejos, como los llevados a cabo por las bacterias intestinales, que pueden afectar problemas de salud como la inflamación intestinal y el cáncer.

Para comprender mejor el papel de las enzimas huérfanas, es esencial encontrar formas de vincular su información genética a sus funciones sin depender únicamente de las secuencias conocidas. Los desarrollos recientes en inteligencia artificial, particularmente en aprendizaje profundo, han demostrado ser efectivos para predecir las funciones y estructuras de las proteínas. Ahora existen muchas herramientas para ayudar a clasificar enzimas basándose únicamente en sus secuencias.

Este artículo presenta una nueva herramienta llamada DeepES, que tiene como objetivo identificar genes de enzimas huérfanas. Esta herramienta utiliza información genética existente y un nuevo sistema de clasificación llamado RClass para ayudar en la búsqueda de genes candidatos relacionados con enzimas huérfanas.

El Problema con las Enzimas Huérfanas

Las enzimas huérfanas representan un desafío significativo para los investigadores. Los métodos tradicionales para determinar las funciones de las proteínas a menudo dependen de emparejar secuencias con proteínas conocidas. Sin embargo, este enfoque no funciona para las enzimas huérfanas porque carecen de secuencias conocidas. Como resultado, hay una desconexión entre la gran cantidad de datos de secuencia disponibles y nuestra comprensión de cómo estas secuencias se relacionan con funciones biológicas.

Esta limitación es particularmente crítica al estudiar bacterias intestinales. Muchos procesos en el intestino, como la producción de ácidos grasos de cadena corta, son mediados por enzimas huérfanas. Sin comprender estas enzimas, se vuelve difícil obtener información sobre cómo funcionan las bacterias intestinales y cómo pueden afectar la salud humana.

Presentando DeepES

DeepES es un marco diseñado para ayudar a identificar los genes asociados con enzimas huérfanas. Hace esto utilizando grupos de genes biosintéticos (BGCs), que son grupos de genes que trabajan juntos para producir compuestos específicos. La idea principal es evaluar estos grupos en busca de genes candidatos que puedan codificar enzimas huérfanas.

DeepES funciona en tres pasos principales:

  1. Recoge secuencias de proteínas de genes sucesivos en un genoma.
  2. Predice la probabilidad de que cada gen corresponda a varias reacciones enzimáticas usando los clasificadores RClass.
  3. Finalmente, evalúa si los genes son propensos a producir enzimas que realicen reacciones químicas específicas basadas en las probabilidades predichas.

Cómo Funciona DeepES

Para construir esta herramienta, los investigadores comenzaron recolectando datos de secuencias de proteínas y el sistema de clasificación RClass. RClass ofrece una forma de categorizar reacciones en función de los tipos de cambios químicos que ocurren en lugar de depender de descripciones detalladas de la actividad enzimática. Esencialmente, RClass permite a los investigadores clasificar reacciones incluso cuando no se entienden completamente las enzimas.

DeepES emplea un modelo que utiliza aprendizaje automático para analizar datos. El conjunto de datos inicial incluía millones de entradas, pero algunas secuencias que eran demasiado largas o contenían ciertos tipos de aminoácidos fueron eliminadas para su análisis. Este conjunto de datos refinado se utilizó luego para enseñar al modelo a reconocer patrones y hacer predicciones.

Validando DeepES

Para asegurarse de que DeepES fuera efectivo, los investigadores compararon sus predicciones con los resultados de métodos tradicionales, específicamente la herramienta BLAST, que busca similitudes en las secuencias. Crearon un conjunto de datos más pequeño para la validación y pasaron por una serie de pasos de entrenamiento y prueba.

Los resultados mostraron que DeepES podía hacer predicciones precisas sobre las funciones de las enzimas, incluso cuando las secuencias no eran conocidas. Esto significa que el marco superó a los métodos tradicionales en muchos casos, destacando su potencial para cerrar la brecha en la comprensión de las enzimas huérfanas.

Grupos de Genes Biosintéticos

En sistemas biológicos, muchos genes relacionados se encuentran cerca unos de otros en el genoma. Estos grupos, conocidos como grupos de genes biosintéticos, son esenciales para entender cómo las células producen diversos compuestos. Al estudiar estos grupos, DeepES tiene como objetivo localizar eficientemente los posibles genes de enzimas huérfanas.

El marco evalúa grupos de genes en sucesión y asigna puntajes para indicar la probabilidad de que un conjunto de genes codifique las enzimas deseadas. Este enfoque de ventana deslizante ayuda a reducir eficazmente los genes candidatos.

Aplicación de DeepES a Enzimas Huérfanas Reales

Los investigadores aplicaron DeepES a un conjunto de genes representativos de bacterias intestinales humanas para identificar genes candidatos para enzimas huérfanas únicas de estos microorganismos. Se centraron en una lista de enzimas asociadas con vías metabólicas relevantes para la salud intestinal.

DeepES destacó con éxito genes candidatos para numerosas enzimas huérfanas, reforzando su utilidad en la identificación de posibles enzimas involucradas en vías metabólicas clave. Los resultados indicaron que DeepES podía reducir efectivamente los candidatos a genes en comparación con métodos anteriores que analizaban genes individuales de forma aislada.

Resultados y Hallazgos

DeepES tuvo éxito en la identificación de genes vinculados a enzimas huérfanas, particularmente aquellas involucradas en la producción de ácidos grasos de cadena corta. Este hallazgo es significativo porque los ácidos grasos de cadena corta juegan un papel vital en la salud humana, afectando todo, desde la salud intestinal hasta el metabolismo general.

Los investigadores encontraron muchos genes candidatos asociados con enzimas huérfanas, indicando que DeepES puede filtrar eficazmente estos genes difíciles de encontrar. También señalaron la importancia de una validación experimental adicional para confirmar las predicciones hechas por el modelo.

Limitaciones y Direcciones Futuras

A pesar de sus fortalezas, DeepES no está exento de limitaciones. Por ejemplo, aunque RClass permite a los investigadores clasificar enzimas de manera más amplia que los métodos tradicionales, aún puede llevar a una representación desequilibrada de las actividades enzimáticas. Además, no todas las reacciones enzimáticas se clasifican usando RClass, por lo que algunas enzimas huérfanas pueden seguir sin identificarse.

Además, las predicciones realizadas por DeepES requieren una validación experimental adicional. Los investigadores enfatizan la necesidad de estas pruebas en el mundo real para confirmar la precisión de los hallazgos del modelo.

Conclusión

DeepES representa un avance significativo en la búsqueda de genes de enzimas huérfanas. Al aprovechar la información de grupos de genes biosintéticos y emplear un sistema de clasificación único, ha abierto nuevas avenidas para la investigación en funciones enzimáticas relacionadas con la salud humana. Esta herramienta innovadora destaca el potencial para cerrar las brechas existentes entre los datos de secuencia y la comprensión biológica, especialmente en el contexto de la microbiota intestinal y su influencia en la salud. En el futuro, los investigadores pueden esperar descubrir valiosas ideas sobre las funciones enzimáticas y sus impactos en el metabolismo y la salud.

Fuente original

Título: DeepES: Deep learning-based enzyme screening to identify orphan enzyme genes

Resumen: MotivationProgress in sequencing technology has led to determination of large numbers of protein sequences, and large enzyme databases are now available. Although many computational tools for enzyme annotation were developed, sequence information is unavailable for many enzymes, known as orphan enzymes. These orphan enzymes hinder sequence similarity-based functional annotation, leading gaps in understanding the association between sequences and enzymatic reactions. ResultsTherefore, we developed DeepES, a deep learning-based tool for enzyme screening to identify orphan enzyme genes, focusing on biosynthetic gene clusters and reaction class. DeepES uses protein sequences as inputs and evaluates whether the input genes contain biosynthetic gene clusters of interest by integrating the outputs of the binary classifier for each reaction class. The validation results suggested that DeepES can capture functional similarity between protein sequences, and it can be implemented to explore orphan enzyme genes. By applying DeepES to 4744 metagenome-assembled genomes, we identified candidate genes for 236 orphan enzymes, including those involved in short-chain fatty acid production as a characteristic pathway in human gut bacteria. Availability and implementationDeepES is available at https://github.com/yamada-lab/DeepES. Model weights and the candidate genes are available at Zenodo (https://doi.org/10.5281/zenodo.11123900).

Autores: Takuji Yamada, K. Hirota, F. Salim

Última actualización: 2024-05-10 00:00:00

Idioma: English

Fuente URL: https://www.biorxiv.org/content/10.1101/2024.05.09.592857

Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.05.09.592857.full.pdf

Licencia: https://creativecommons.org/licenses/by-nc/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares