Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Biología# Bioinformática

FAPM: Un Nuevo Enfoque para Predecir Funciones de Proteínas

FAPM mejora la predicción de la función de proteínas usando modelos multimodales y aprendizaje profundo.

― 7 minilectura


FAPM Avanza en laFAPM Avanza en laPredicción de la Funciónde Proteínaspara predecir funciones de proteínas.Nuevo método mejora mucho la precisión
Tabla de contenidos

Las proteínas son vitales para todos los seres vivos. Son los bloques de construcción de las células y los tejidos, y están involucradas en muchos procesos que ayudan a mantener la vida. Saber cómo funcionan las proteínas es clave para entender cómo operan los sistemas biológicos y encontrar formas de tratar enfermedades.

Obtener Secuencias de Proteínas

Conseguir secuencias de proteínas de la naturaleza suele ser una tarea sencilla. Los avances recientes en tecnología, especialmente en informática, han facilitado mucho predecir las estructuras tridimensionales de las proteínas. Sin embargo, menos del 1% de las proteínas tienen información detallada sobre sus funciones en bases de datos globales como UniProt. La mayoría de las proteínas aún necesitan ser estudiadas para comprender bien sus funciones, lo cual puede ser caro y complicado. Además, las proteínas pueden variar mucho e interactuar de formas complejas, lo que hace que la validación experimental sea aún más desafiante.

Describiendo Funciones de las Proteínas

Para describir lo que hacen las proteínas, los científicos utilizan un sistema llamado Gene Ontology (GO). Este sistema es una de las formas más efectivas de categorizar funciones en biología. GO tiene tres partes principales:

  1. Funciones Moleculares (MFO): Lo que hacen las proteínas individuales.
  2. Procesos Biológicos (BPO): Los procesos en los que están involucradas las proteínas.
  3. Componentes Celulares (CCO): Dónde son activas las proteínas en la célula.

GO ayuda a estandarizar cómo se registran las actividades de proteínas entre diferentes organismos. La información en el sistema GO proviene de estudios científicos y, una vez verificada, se compila en bases de datos como UniProtKB/Swiss-Prot para hacer la información accesible y uniforme.

Métodos para Predecir Funciones de Proteínas

A lo largo de los años, se han desarrollado diferentes métodos para predecir funciones de proteínas basándose en sus secuencias. Una de las primeras herramientas se llama BLAST, que permite a los científicos comparar una secuencia de proteína desconocida con una base de datos de secuencias conocidas para encontrar similitudes. Este método se basa en la idea de que las proteínas con un ancestro compartido suelen realizar funciones similares.

Otros enfoques catalogan partes específicas de las proteínas, como dominios y motivos, para predecir funciones basándose en secuencias conocidas. Estos métodos han hecho contribuciones significativas a bases de datos como InterPro, pero todavía se basan principalmente en encontrar secuencias similares. Esto deja a muchas proteínas sin información funcional.

Usando Deep Learning para Predicciones de Proteínas

Investigaciones más recientes han introducido modelos de deep learning que pueden analizar múltiples tipos de datos a la vez para predecir funciones de proteínas. Estos modelos utilizan diversas fuentes de información, incluyendo datos de secuencia, interacciones y anotaciones de dominio. Algunos de los modelos más destacados son DeepGOPlus, DeepGOZero y DeepGraphGO. Estos modelos utilizan características de bases de datos establecidas para entrenar modelos de clasificación.

Los transformers, que han tenido un gran éxito en muchos campos de la inteligencia artificial, también se están usando en modelado de proteínas. Por ejemplo, un modelo llamado ProteinBert utiliza secuencias de proteínas combinadas con características semánticas para mejorar cómo predecimos funciones.

Nuestro Enfoque: FAPM

En este trabajo, proponemos un nuevo método llamado FAPM (Anotación Funcional de Proteínas usando Modelos Multi-modales). Nuestro enfoque combina secuencias de proteínas y sus descripciones funcionales para predecir mejor las funciones de las proteínas. Tratamos tanto las secuencias de proteínas como el texto funcional como dos tipos diferentes de información que podemos alinear a través de un método llamado aprendizaje contrastivo.

FAPM utiliza un modelo de secuencia de proteínas preentrenado junto con un modelo de lenguaje grande para crear descripciones funcionales para las proteínas. Al combinar estos dos modelos, podemos generar mejores anotaciones para las proteínas.

Beneficios de FAPM

  1. Modelado Multi-modal: Al integrar el modelado de secuencia de proteínas y generación de lenguaje, podemos generar anotaciones precisas que son más fáciles de entender.
  2. Rendimiento: Las evaluaciones muestran que FAPM tiene un mejor desempeño que los métodos existentes en la predicción de funciones de proteínas.
  3. Uso de Información Opcional: Podemos usar información adicional, como la taxonomía, para mejorar la calidad de las descripciones generadas, haciendo nuestro modelo más flexible.

Cómo Funciona FAPM

FAPM tiene dos etapas principales de aprendizaje. Primero, aprende a representar secuencias de proteínas y su texto funcional. Luego, genera descripciones funcionales basadas en la información aprendida.

Aprendizaje de Representación

En la primera etapa, el modelo procesa las secuencias de proteínas para crear representaciones detalladas. Utiliza un modelo llamado ESM2, que produce incrustaciones para cada aminoácido en la secuencia. Estas incrustaciones interactúan con las incrustaciones de consulta aprendidas para alinear las características de las proteínas con los textos funcionales.

Aprendizaje Generativo

En la segunda etapa, el modelo de lenguaje genera etiquetas funcionales, como términos GO, basándose en las características aprendidas del paso anterior. Este modelo procesa las consultas aprendidas y cualquier indicación opcional para producir predicciones de alta calidad.

Datos de Entrenamiento

Los datos de entrenamiento para FAPM provienen de diversas fuentes. Utilizamos un conjunto de datos grande que incluye secuencias de proteínas Swiss-Prot y anotaciones. Los datos son cuidadosamente seleccionados para incluir solo entradas de alta calidad y validadas experimentalmente. Además, los datos de dominio de InterPro ayudan a mejorar aún más el rendimiento de las predicciones.

Mejorando Predicciones

Para mejorar nuestro modelo, lo entrenamos en un amplio rango de datos, lo que le ayuda a aprender a hacer mejores predicciones para proteínas con funciones complejas. La capacidad del modelo para generar etiquetas funcionales se mejora a través de objetivos de entrenamiento conjunto, haciéndolo más efectivo que los métodos anteriores.

Rendimiento de FAPM

FAPM ha mostrado resultados impresionantes en varias pruebas. Durante las evaluaciones, superó consistentemente a otros modelos existentes. Proporciona mejores anotaciones incluso para proteínas sin homólogos cercanos. El modelo también permite indicaciones interactivas, lo que puede mejorar aún más la precisión de las predicciones.

Evaluando con Proteínas de Bacteriófagos

Una de las aplicaciones emocionantes de FAPM es predecir las funciones de proteínas de bacteriófagos, que son virus que infectan bacterias. Esta área es particularmente desafiante ya que muchas de estas proteínas carecen de homólogos cercanos. En nuestras pruebas, FAPM también ha demostrado un rendimiento superior en la predicción de funciones para estas proteínas difíciles de analizar.

Conclusiones

FAPM representa un avance significativo en las predicciones de funciones de proteínas. Al combinar la información de secuencia con modelos de lenguaje, el enfoque no solo simplifica el proceso de predicción, sino que también mejora la precisión de las anotaciones funcionales.

  • Características Clave:
    • Solo se necesitan secuencias de proteínas como entrada, lo que lo hace fácil de usar.
    • El modelo tiene un rendimiento excepcional en comparación con otros métodos, especialmente en la predicción de funciones de proteínas raras.
    • El uso de indicaciones interactivas abre nuevas posibilidades para predicciones más matizadas.

El potencial de FAPM para adaptarse y mejorar con futuros desarrollos lo convierte en una herramienta emocionante para la investigación biológica y el campo de la ciencia de proteínas. En general, FAPM muestra una promesa considerable para el trabajo futuro, lo que podría llevar a predicciones más ricas sobre modificaciones e interacciones de proteínas.

Fuente original

Título: FAPM: Functional Annotation of Proteins using Multi-Modal Models Beyond Structural Modeling

Resumen: Assigning accurate property labels to proteins, like functional terms and catalytic activity, is challenging, especially for proteins without homologs and "tail labels" with few known examples. Unlike previous methods that mainly focused on protein sequence features, we use a pretrained large natural language model to understand the semantic meaning of protein labels. Specifically, we introduce FAPM, a contrastive multi-modal model that links natural language with protein sequence language. This model combines a pretrained protein sequence model with a pretrained large language model to generate labels, such as Gene Ontology (GO) functional terms and catalytic activity predictions, in natural language. Our results show that FAPM excels in understanding protein properties, outperforming models based solely on protein sequences or structures. It achieves state-of-the-art performance on public benchmarks and in-house experimentally annotated phage proteins, which often have few known homologs. Additionally, FAPMs flexibility allows it to incorporate extra text prompts, like taxonomy information, enhancing both its predictive performance and explainability. This novel approach offers a promising alternative to current methods that rely on multiple sequence alignment for protein annotation. The online demo is at: https://huggingface.co/spaces/wenkai/FAPM_demo.

Autores: Qian Shi, W. Xiang, Z. Xiong, C. Huan, J. Xiong, W. Zhang, Z. Fu, M. Zheng, B. Liu

Última actualización: 2024-07-03 00:00:00

Idioma: English

Fuente URL: https://www.biorxiv.org/content/10.1101/2024.05.07.593067

Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.05.07.593067.full.pdf

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares