Sci Simple

New Science Research Articles Everyday

# Biología # Bioinformática

Avances en la Predicción de la Estructura de Proteínas

Nuevos modelos mejoran la forma en que los científicos predicen las formas e interacciones de las proteínas.

Toshiyuki Oda

― 7 minilectura


Descubrimiento en la Descubrimiento en la Predicción de Proteínas proteínas. en el análisis de la estructura de Nuevas técnicas están rompiendo límites
Tabla de contenidos

La predicción de la estructura de proteínas es un desafío significativo y complejo en biología. Las proteínas son vitales para casi todos los procesos biológicos, y sus funciones dependen mucho de sus formas. Esto se puede comparar a cómo una llave encaja en una cerradura; si la forma no es la correcta, nada funciona. Durante años, los científicos han buscado métodos para predecir estas formas intrincadas sin necesidad de verlas físicamente, lo cual puede ser un proceso que consume mucho tiempo y es caro.

El papel de AlphaFold y su sucesor

Un avance notable en este campo es un sistema conocido como AlphaFold. Desarrollado por un equipo que buscaba descifrar el código de las formas de las proteínas, AlphaFold logró hacer avances impresionantes en la predicción de cómo las proteínas se pliegan en sus formas funcionales. En una competencia llamada CASP14, AlphaFold superó a sus rivales al modelar con precisión un gran número de dominios de proteínas, mostrando su potencial para revolucionar la predicción de Estructuras de proteínas.

Después del éxito de AlphaFold, se lanzó una nueva versión llamada AlphaFold-Multimer, que amplió la capacidad de AlphaFold para predecir cómo interactúan múltiples proteínas entre sí, algo crucial dado que muchas proteínas no operan en aislamiento. Resulta que predecir cómo se juntan las proteínas, como piezas de un rompecabezas, es más complejo que predecir la forma de una sola proteína.

Los desafíos en las predicciones de Multímeros

A pesar del impresionante rendimiento de AlphaFold-Multimer, todavía hay espacio para mejorar, especialmente en lo que respecta a la predicción de las estructuras de múltiples proteínas, conocidas como multímeros. Aunque ha tenido éxito con algunas estructuras de multímeros, la precisión desciende significativamente para ciertos tipos, particularmente en proteínas relacionadas con el sistema inmunológico.

Los investigadores han notado que este desafío parece surgir de un par de problemas. Primero, los métodos actuales a menudo dependen de información de co-evolución, lo que significa que observan cómo diferentes proteínas han evolucionado juntas. Para usar esta información, los científicos deben encontrar las parejas de secuencias correctas, lo cual puede ser complicado. Muchas proteínas tienen versiones similares, llamadas paralogos, y diferenciarlas no es tarea fácil.

Segundo, los métodos utilizados para analizar secuencias de proteínas a menudo incorporan datos de proteínas estrechamente relacionadas. Esto puede ser útil porque proteínas similares tienden a tener estructuras similares. Sin embargo, en el caso de regiones únicas, como las que se encuentran en las proteínas del sistema inmunológico, depender de similitudes evolutivas puede llevar a imprecisiones.

Para abordar estos desafíos, los investigadores han considerado alejarse de los métodos tradicionales basados en secuencias y buscar nuevos enfoques para mejorar las predicciones.

Un nuevo enfoque: AFM-Refine-G

Aquí entra AFM-Refine-G, una versión afinada de AlphaFold-Multimer. Este sistema fue desarrollado para tomar las estructuras de proteínas predichas y mejorarlas aún más. En lugar de usar herramientas de secuencia tradicionales, AFM-Refine-G se centra en refinar estructuras basadas en sus propiedades físicas. Se basa en la forma predicha de la proteína y busca mejorarla, como si se estuviera puliendo un diamante para que brille más.

Este nuevo enfoque se probó en varios conjuntos de datos de estructuras de proteínas. La idea era usar las formas predichas de las proteínas como punto de partida y luego afinar estas formas para lograr una representación más precisa de las estructuras reales de las proteínas. Esto implicaba seleccionar estructuras que probablemente interactuarían bien y centrarse en mejorar estas interacciones durante el proceso de refinamiento.

Entrenamiento y prueba del modelo

Entrenar AFM-Refine-G implicó un proceso meticuloso para asegurar que pudiera refinar efectivamente las estructuras de proteínas. Las predicciones iniciales se generaron utilizando AlphaFold-Multimer, y estas estructuras predichas luego se alimentaron a AFM-Refine-G para su mejora.

El sistema evaluó la calidad de cada estructura refinada a través de varias métricas. Los investigadores observaron cuán bien se comparaban las estructuras refinadas con las predicciones originales y los datos experimentales reales. Usaron múltiples conjuntos de datos para las pruebas, lo que les permitió evaluar el rendimiento del modelo de manera integral.

Curiosamente, los resultados fueron mixtos. Para algunos conjuntos de datos, AFM-Refine-G mejoró significativamente las estructuras predichas, mientras que para otros, los resultados fueron menos favorables. Esta inconsistencia sugirió que el modelo podría estar sesgado hacia ciertos tipos de estructuras de proteínas.

Analizando resultados y áreas de mejora

Al analizar, se hizo evidente que ciertas estructuras mejoraron mientras que otras enfrentaron desafíos. En particular, las estructuras multiméricas asociadas con respuestas inmunitarias a menudo terminaban en la categoría de "Incorrectas" cuando se evaluaban contra criterios establecidos. Esto indicó que se necesitaban más mejoras, particularmente para estas proteínas complicadas.

Además, se notó que la conexión entre cuán bien un modelo predijo una estructura y el nivel de confianza asignado a esa predicción podría ser engañosa. A veces, una estructura podría verse bien en papel, pero en realidad, podría tener fallas importantes, como átomos chocando entre sí de una manera no deseada.

Los investigadores especularon que esta inconsistencia podría surgir de cómo se entrenó el modelo. Dado que AFM-Refine-G se desarrolló con un enfoque en estructuras más "normales", tuvo problemas con formas no convencionales, particularmente las relacionadas con el sistema inmunológico.

Manteniéndose al día con los avances

A medida que la ciencia avanza, también lo hacen las herramientas disponibles para los investigadores. Después de la creación de AFM-Refine-G, se introdujo una nueva versión de AlphaFold-Multimer. Esta versión actualizada se basó en los éxitos y lecciones aprendidas de modelos anteriores. Utilizó nuevos métodos de entrenamiento y conjuntos de datos más grandes, aumentando las posibilidades de mejores predicciones.

Para evaluar qué tan bien se desempeñó AFM-Refine-G frente a estos nuevos modelos, los investigadores lo probaron nuevamente en desafíos más recientes. Buscaban ver si AFM-Refine-G aún podía proporcionar valor incluso cuando se enfrentaba a los últimos avances en la predicción de estructuras de proteínas.

El futuro de la predicción de estructuras de proteínas

El camino de la predicción de estructuras de proteínas está lejos de estar terminado. Aunque nuevos modelos como AFM-Refine-G han mostrado promesa, el panorama de la biología está en constante cambio. Las herramientas y métodos tendrán que evolucionar para mantenerse al día con interacciones de proteínas cada vez más complejas, especialmente las involucradas en enfermedades.

En conclusión, aunque puede ser un campo desafiante con muchos rompecabezas por resolver, el trabajo continuo en la predicción de estructuras de proteínas está ayudando a los científicos a abrir nuevas puertas en biología. A medida que los investigadores refinan sus enfoques y desarrollan mejores modelos, podemos esperar avances emocionantes. Con cada pieza del rompecabezas que encaja, nuestra comprensión del mundo intrincado de las proteínas se profundizará, allanando el camino para nuevos descubrimientos en medicina y más allá.

Así que, ¡un brindis por los científicos y su perseverancia! Después de todo, en el mundo de la predicción de proteínas, son los héroes navegando por un laberinto, teniendo la llave de incontables misterios biológicos. ¿Quién diría que estudiar moléculas diminutas podría llevar a descubrimientos tan grandes?

Fuente original

Título: Refinement of AlphaFold-Multimer structures with single sequence input

Resumen: AlphaFold2, introduced by DeepMind in CASP14, demonstrated outstanding performance in predicting protein monomer structures. It could model more than 90% of targets with high accuracy, and so the next step would surely be multimer predictions, since many proteins do not act by themselves but with their binding partners. After the publication of AlphaFold2, DeepMind published AlphaFold-Multimer, which showed excellent performance in predicting multimeric structures. However, its accuracy still has room for improvement compared to that of monomer predictions by AlphaFold2. In this paper, we introduce a fine-tuned version of AlphaFold-Multimer, named AFM-Refine-G, which uses structures predicted by AlphaFold-Multimer as inputs and produces refined structures without the help of multiple sequence alignments or templates. The performance of AFM-Refine-G was assessed using four datasets: Ghani_et_al_Benchmark2 and Yin_et_al_Hard using AlphaFold-Multimer version 2.2 outputs, and CASP15_multimer and Yin_and_Pierce_af23 using AlphaFold-Multimer version 2.3 outputs. Of 1925 predicted structures, 203 had DockQ improvement > 0.05 after refinement, demonstrating that our model is useful for the refinement of multimer structures. However, considering the per target success rate, the overall improvement was modest, suggesting that the original AlphaFold-Multimer network had already learned a biophysical energy function independent of MSAs or templates, as proposed by Roney and Ovchinnikov (Roney and Ovchinnikov, 2022). Furthermore, both the default AlphaFold-Multimer and our refinement model showed lower performance for immune-related targets compared to general targets, indicating that room for improvement remains. AvailabilityThe inference scripts are available from https://github.com/t-oda-ic/afm_refiner under the Apache License, Version 2.0. The network parameters are available from https://figshare.com/articles/online_resource/afm_refine_g_20230110_zip/21856407 under the license CC BY 4.0.

Autores: Toshiyuki Oda

Última actualización: 2024-12-26 00:00:00

Idioma: English

Fuente URL: https://www.biorxiv.org/content/10.1101/2022.12.27.521991

Fuente PDF: https://www.biorxiv.org/content/10.1101/2022.12.27.521991.full.pdf

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.

Más del autor

Artículos similares