Avances y limitaciones en la predicción de la estructura de proteínas
Examinando cómo AlphaFold predice las estructuras de proteínas y sus desafíos.
― 6 minilectura
Tabla de contenidos
Las proteínas son moléculas esenciales en los organismos vivos. Sus funciones dependen mucho de sus formas, que están determinadas por sus secuencias de aminoácidos. El proceso de predecir estas formas es complejo e importante para entender cómo funcionan las proteínas y para desarrollar nuevos medicamentos.
El Rol del Aprendizaje Automático
El aprendizaje automático, especialmente a través de un modelo llamado AlphaFold, ha cambiado mucho la forma en que predecimos las estructuras de proteínas. AlphaFold puede predecir las formas 3D de las proteínas basándose solo en sus secuencias de aminoácidos. Da una puntuación para cada parte de la proteína para mostrar cuán precisas son sus predicciones.
Cómo Funciona AlphaFold
AlphaFold utiliza información sobre cómo han cambiado los aminoácidos a lo largo del tiempo en varias especies para adivinar cómo interactúan en una proteína. Examina muchas secuencias similares para encontrar patrones que indiquen cómo podrían estar dispuestos estos aminoácidos en el espacio.
AlphaFold emplea múltiples redes neuronales que han sido entrenadas de varias maneras. Algunas redes dependen solo de los datos de secuencia, mientras que otras también utilizan estructuras de proteínas existentes durante el entrenamiento. El proceso comienza creando una alineación de múltiples secuencias (MSA), que agrupa secuencias similares. Esta MSA se envía luego a las redes neuronales para predecir la estructura de la proteína.
Una característica clave de AlphaFold es su método de "reciclaje", donde refina repetidamente sus predicciones para mejorar la precisión. Esto lleva a múltiples estructuras predichas para cada proteína, que luego se puntúan por calidad.
Dinámica de Proteínas
Las proteínas no son estructuras fijas; pueden cambiar de forma con el tiempo, y estos cambios son vitales para sus funciones. Para estudiar estos movimientos, los científicos han desarrollado métodos como simulaciones de dinámica molecular (MD), que rastrean cómo se comportan las proteínas con el tiempo. Sin embargo, estas simulaciones pueden estar limitadas por el tiempo y los recursos computacionales que requieren.
Algunas técnicas avanzadas permiten a los investigadores explorar más de las posibles formas de una proteína sin necesitar tanta computación. A pesar de esto, muchos de estos métodos aún requieren conocimiento previo sobre cómo se comportan las proteínas.
Limitaciones de AlphaFold
Si bien AlphaFold es excelente para predecir estructuras estáticas, tiene problemas con proteínas que pueden existir en múltiples formas o conformaciones. Los esfuerzos recientes buscan adaptar AlphaFold para observar estos múltiples estados al cambiar cómo se construye la MSA.
Por ejemplo, al seleccionar aleatoriamente diferentes secuencias de la MSA, los investigadores han logrado que AlphaFold prediga varias formas de proteínas de manera efectiva. Otros métodos agrupan secuencias similares para generar mejores predicciones.
El Estudio de Cuatro Proteínas
En este estudio, analizamos cuatro proteínas diferentes para ver qué tan bien AlphaFold podía predecir sus estructuras, particularmente en lo que respecta a sus movimientos.
1. Inhibidor de Tripsina Pancreática Bovina (BPTI)
BPTI es una proteína pequeña que inhibe ciertas enzimas. Se ha estudiado mucho, ofreciendo una gran cantidad de datos para comparación. El análisis encontró que, aunque AlphaFold predice estructuras similares a formas cristalinas conocidas, a menudo no logra capturar todos los arreglos diversos observados en la realidad.
2. Trombin
La Trombina juega un papel crucial en la coagulación de la sangre. Las predicciones para esta proteína no capturaron su forma inactiva, sorprendiendo a los investigadores ya que había muchas estructuras conocidas disponibles. Esto sugiere un posible sesgo en los datos de entrenamiento de AlphaFold, favoreciendo la forma activa.
3. Nanocuerpo de Camélidos
Los nanocuerpos son fragmentos de anticuerpos pequeños con importantes aplicaciones en medicina. El modelo funcionó bien al predecir el estado ligado del nanocuerpo, pero mostró menos precisión al predecir su estado no ligado.
4. Anticuerpo Anti-Hemaglutinina
Este anticuerpo presenta cambios de forma significativos, especialmente en una región llamada CDR-H3. Las predicciones en su mayoría no fueron suficientes, ya que no representaron los diversos estados que el anticuerpo puede adoptar.
Cómo Se Hicieron las Predicciones de Estructura
Usando AlphaFold, los investigadores predijeron las estructuras de estas proteínas mientras modificaban la configuración de la MSA y los parámetros de reciclaje. Compararon sus predicciones con datos experimentales conocidos para evaluar su precisión.
Las predicciones de AlphaFold se evaluaron usando RMSD (una medida de cuán diferentes son las estructuras predichas de las conocidas) y otros indicadores como pLDDT y puntuaciones pTM, que reflejan la calidad de las estructuras predichas.
El análisis también incluyó simulaciones de dinámica molecular que proporcionaron información adicional sobre los movimientos de las proteínas a lo largo del tiempo. Al comparar los conjuntos predichos con estas simulaciones, los investigadores determinaron la capacidad de AlphaFold para capturar la verdadera diversidad y dinámica de las estructuras de proteínas.
Hallazgos y Observaciones
BPTI: El estudio mostró que las predicciones de AlphaFold coincidieron estrechamente con estructuras conocidas, pero no capturaron completamente el rango de conformaciones observadas en estudios específicos. Las predicciones tendieron a favorecer la estructura cristalina, posiblemente debido a sesgos de entrenamiento.
Trombin: AlphaFold pudo predecir bien la forma activa, pero se perdió la forma inactiva, lo que indica una limitación en sus datos de entrenamiento actuales.
Nanocuerpo de Camélidos: Si bien las predicciones para la forma ligada fueron satisfactorias, el estado no ligado fue menos representado con precisión, destacando nuevamente los desafíos en la predicción del comportamiento dinámico.
Anticuerpo Anti-Hemaglutinina: Las predicciones fueron insuficientes para capturar la flexibilidad necesaria para entender la funcionalidad de este anticuerpo.
Conclusión
AlphaFold ha hecho avances considerables en la predicción de estructuras de proteínas, contribuyendo a campos como el diseño de medicamentos y la biología molecular. Sin embargo, el estudio muestra que todavía hay limitaciones significativas al capturar la naturaleza dinámica de las proteínas y sus estados conformacionales.
Para mejorar las predicciones, es vital desarrollar mejores métodos para generar datos estructurales y entender la dinámica de las proteínas. Reunir datos experimentales de alta calidad es esencial, ya que el rendimiento de los modelos de predicción depende significativamente de la calidad de la información que se les proporciona. Aunque varias estrategias, como el muestreo de la MSA, pueden mejorar las predicciones, aún pueden faltar conformaciones esenciales que son críticas para entender la función de la proteína.
Al continuar refinando estos métodos de predicción e integrando datos experimentales, podemos mejorar nuestra comprensión de las proteínas y sus roles en los procesos biológicos.
Título: Assessing AF2's ability to predict structural ensembles of proteins
Resumen: Recent breakthroughs in protein structure prediction have enhanced the precision and speed at which protein configurations can be determined, setting new benchmarks for accuracy and efficiency in the field. However, the fundamental mechanisms of biological processes at a molecular level are often connected to conformational changes of proteins. Molecular dynamics (MD) simulations serve as a crucial tool for capturing the conformational space of proteins, providing valuable insights into their structural fluctuations. However, the scope of MD simulations is often limited by the accessible timescales and the computational resources available, posing challenges to comprehensively exploring protein behaviors. Recently emerging approaches have focused on expanding the capability of AlphaFold2 (AF2) to predict conformational substates of protein structures by manipulating the input multiple sequence alignment (MSA). These approaches operate under the assumption that the MSA also contains information about the heterogeneity of protein structures. Here, we benchmark the performance of various workflows that have adapted AF2 for ensemble prediction focusing on the subsampling of the MSA as implemented in ColabFold and compare the obtained structures with ensembles obtained from MD simulations and NMR. As test cases, we chose four proteins namely the bovine pancreatic inhibitor protein (BPTI), thrombin and two antigen binding fragments (antibody Fv and nanobody), for which reliable experimentally validated structural information (X-ray and/or NMR) was available. Thus, we provide an overview of the levels of performance and accessible timescales that can currently be achieved with machine learning (ML) based ensemble generation. In three out of the four test cases, we find structural variations fall within the predicted ensembles. Nevertheless, significant minima of the free energy surfaces remain undetected. This study highlights the possibilities and pitfalls when generating ensembles with AF2 and thus may guide the development of future tools while informing upon the results of currently available applications.
Autores: Monica Lisa Fernandez-Quintero, J. R. Riccabona, F. C. Spoendlin, A.-L. M. Fischer, J. R. Loeffler, P. K. Quoika, T. P. Jenkins, J. A. Ferguson, E. Smorodina, A. H. Laustsen, V. Greiff, S. Forli, A. Ward, C. Deane
Última actualización: 2024-04-17 00:00:00
Idioma: English
Fuente URL: https://www.biorxiv.org/content/10.1101/2024.04.16.589792
Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.04.16.589792.full.pdf
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.