Avances en el Reemplazo Molecular para Estructuras de Proteínas
El estudio investiga el impacto de AlphaFold 2 en la determinación de la estructura de proteínas a través del Reemplazo Molecular.
― 8 minilectura
Tabla de contenidos
- Selección de Objetivos
- Modelado y Caracterización de Secuencias Objetivo
- Procesamiento de Predicciones Estructurales en Modelos de Búsqueda
- Modelos de Búsqueda Basados en Estructura Secundaria
- Reemplazo Molecular y Refinamiento
- Resultados de Soluciones Estructurales
- Importancia de la División de Dominios
- Enfoques Alternativos
- Proteínas Coiled-Coil y Desafíos Estructurales
- Desafíos Pendientes en Determinación Estructural
- Direcciones Futuras y Conclusiones
- Fuente original
El Reemplazo Molecular (RM) es un método que se usa para ayudar a determinar la estructura de moléculas grandes, como proteínas, resolviendo un problema complejo conocido como el problema de fases. Este problema surge porque es difícil obtener información completa sobre la disposición de los átomos en una molécula solo a partir de los datos recogidos durante la cristalografía de rayos X. RM se ha convertido en la técnica principal para abordar este asunto en el mundo de la determinación de estructuras macromoleculares.
Para usar RM, los científicos comienzan encontrando un modelo de búsqueda que sea similar a la nueva estructura de proteína que están estudiando. Este modelo de búsqueda se coloca en la nueva estructura, lo que permite a los investigadores calcular las fases iniciales, que llevan a la creación de Mapas de Densidad Electrónica. Estos mapas sirven como guías para identificar la posición de los átomos en la proteína, permitiendo un mayor refinamiento y análisis.
Tradicionalmente, el modelo de búsqueda se derivaba a menudo de otra proteína que estuviera relacionada. Sin embargo, los avances en bioinformática estructural han introducido nuevas técnicas para mejorar estos modelos. Esto incluye usar partes pequeñas de proteínas identificadas mediante la predicción de su estructura secundaria, así como emplear varios enfoques para descubrir subestructuras útiles en proteínas más distantes.
Recientemente, los métodos de aprendizaje profundo, especialmente AlphaFold 2, han cambiado drásticamente el panorama de RM. Estos métodos ofrecen predicciones de estructuras proteicas altamente precisas, facilitando mucho la resolución del problema de fases para muchos objetivos que antes se consideraban difíciles. A menudo, un modelo sin modificar de AlphaFold 2 puede servir como un modelo de búsqueda adecuado, aunque los investigadores han reconocido la importancia de refinar estos modelos eliminando secciones de menor confianza, especialmente en proteínas de múltiples dominios.
En este estudio, el enfoque está en averiguar qué tan bien los modelos de búsqueda de AlphaFold 2 y otros métodos pueden resolver estructuras recientemente depositadas que se determinaron utilizando la difracción anómala de un solo longitud de onda (SAD). Al analizar un conjunto más grande de casos, el estudio busca identificar las características que hacen que algunas estructuras sean más fáciles o más difíciles de resolver con RM.
Selección de Objetivos
Para esta investigación, los objetivos seleccionados fueron estructuras de proteínas que utilizaron SAD y se depositaron dentro de un marco de tiempo específico. Se analizaron un total de 408 casos, excluyendo algunos debido a la presencia de aminoácidos modificados o no naturales. Este conjunto de casos ofrece información sobre los tipos de estructuras que se pueden resolver usando los métodos actuales.
Modelado y Caracterización de Secuencias Objetivo
Las secuencias de proteínas objetivo se modelaron utilizando tanto AlphaFold 2 como su variante, ColabFold. Si bien ambos métodos se basan en tecnología similar, difieren en cómo generan alineaciones múltiples de secuencias (MSAs), que son cruciales para un modelado efectivo. AlphaFold 2 emplea varias bases de datos establecidas para MSA, mientras que ColabFold utiliza un método más rápido que permite un procesamiento más eficiente.
La profundidad de las MSAs se mide mediante un valor llamado Neff, que representa el número efectivo de secuencias. Cada objetivo fue clasificado según su estructura secundaria predicha, ayudando a los investigadores a entender si la proteína estaba compuesta principalmente de hélices alfa, hojas beta o una mezcla de ambas.
Procesamiento de Predicciones Estructurales en Modelos de Búsqueda
Las predicciones de AlphaFold 2 vienen acompañadas de estimaciones de confianza para cada residuo. Estas estimaciones se expresan usando una escala donde valores más altos indican predicciones más confiables. Los modelos se probaron sin alterar o después de recortar áreas con niveles de confianza más bajos.
Para algunas proteínas de múltiples dominios, donde las predicciones no dieron resultados exitosos, se usó un método llamado Slice’N’Dice para dividir los modelos en unidades estructurales separadas. Este enfoque, combinado con varios algoritmos, ayuda a refinar los modelos de búsqueda y mejorar las posibilidades de una determinación estructural exitosa.
Modelos de Búsqueda Basados en Estructura Secundaria
Además de métodos como AlphaFold 2, los investigadores usaron otras técnicas para objetivos específicos ricos en hélices alfa. Estos incluyeron herramientas diseñadas para manejar hélices ideales o conjuntos de estructuras helicoidales, demostrando la versatilidad de diferentes enfoques de modelado.
Reemplazo Molecular y Refinamiento
El proceso de solución estructural comenzó con pruebas automatizadas donde las predicciones de AlphaFold 2 y ColabFold se alimentaron en una línea de trabajo para RM. Esta línea preparó modelos de búsqueda y los ejecutó a través de un algoritmo de RM. El éxito de la solución se evaluó utilizando coeficientes de correlación que miden qué tan bien los modelos colocados coinciden con la estructura real.
En casos donde los métodos automatizados no fueron suficientes, fue necesaria la intervención manual. Esto implicó usar un proyecto basado en la nube para una exploración más interactiva y refinamiento de los modelos de búsqueda.
Resultados de Soluciones Estructurales
Las pruebas iniciales usando modelos de AlphaFold 2 mostraron una alta tasa de éxito, con muchas estructuras siendo resueltas directamente. Los modelos abarcaron una gama de niveles de precisión, y un porcentaje significativo de los casos cumplió con los criterios para una colocación exitosa y un posterior refinamiento.
El análisis también reveló que ColabFold tenía un conjunto de éxitos ligeramente diferente en comparación con AlphaFold 2. Algunos casos requirieron la inclusión de información de plantillas para mejorar la precisión del modelo. Además, alternativas como ESMFold mostraron promesas en casos donde los modelos de AlphaFold tuvieron dificultades, destacando el potencial de varias herramientas de modelado.
Importancia de la División de Dominios
Las proteínas de múltiples dominios pueden presentar desafíos, ya que la información sobre sus estructuras puede no ser tan clara. El estudio encontró que dividir proteínas más grandes en dominios más pequeños a menudo lleva a mejores resultados en la determinación estructural. Se probaron diferentes algoritmos para la división, y en algunas instancias, un enfoque funcionó mejor que otros.
Enfoques Alternativos
Los investigadores también exploraron otras opciones de software para casos donde los métodos tradicionales fallaron. El uso de ESMFold proporcionó predicciones útiles que ayudaron a resolver algunas estructuras problemáticas. Además, crear modelos de complejos proteicos fue beneficioso para ciertas estructuras de alta complejidad, mostrando la ventaja de tener un modelo de búsqueda más completo.
Proteínas Coiled-Coil y Desafíos Estructurales
Ciertas estructuras proteicas, particularmente aquellas ricas en regiones coiled-coil, resultaron ser más difíciles de modelar con éxito. Estas regiones a menudo exhiben características únicas que desafían las herramientas de predicción actuales. Los casos donde las técnicas tradicionales de RM fallaron destacan la necesidad continua de enfoques especializados en estas situaciones.
Desafíos Pendientes en Determinación Estructural
A pesar de los avances en el modelado predictivo, algunas proteínas siguen siendo resistentes a soluciones de RM. Esto suele deberse a MSAs de baja calidad, que no proporcionan la información evolutiva necesaria para un modelado preciso. Además, las proteínas con alto contenido helicoidal o aquellas que contienen iones metálicos pueden presentar desafíos únicos que complican los esfuerzos de determinación estructural.
Direcciones Futuras y Conclusiones
La aparición de herramientas como AlphaFold ha mejorado sustancialmente la capacidad para resolver el problema de fases en la cristalografía de rayos X. Si bien la mayoría de las estructuras ahora pueden ser faseadas usando estos métodos modernos, aún quedan casos donde pueden ser necesarias técnicas experimentales de faseo tradicionales.
El estudio sugiere que entender las características específicas de los objetivos difíciles puede ayudar a priorizar casos para enfoques experimentales. La exploración continua de nuevas técnicas de modelado y algoritmos será crucial para avanzar en el campo y abordar las limitaciones que aún están presentes en la determinación de estructuras proteicas.
Título: In the AlphaFold era, when is experimental phasing of protein crystals still required?
Resumen: The availability of highly accurate protein structure predictions from AlphaFold 2 (AF2) and similar tools has hugely expanded the applicability of Molecular Replacement (MR) for crystal structure solution. Many structures solve routinely using raw models, structures processed to remove unreliable parts or models split into distinct structural units. There is therefore an open question around how many and which cases still require experimental phasing methods such as single-wavelength anomalous diffraction (SAD). Here we address the question using a large set of PDB deposits that were solved by SAD. A large majority (87%) solve using unedited or minimally edited AF2 predictions. A further 17 (4%) yield straightforwardly to MR after splitting of the AF2 prediction using SliceNDice, although different splitting methods succeed on slightly different sets of cases. We also find that further unique targets can be solved by alternative modelling approaches such as ESMFold (four cases), alternative MR approaches such as ARCIMBOLDO and AMPLE (two cases each), and multimeric model building with AlphaFold-Multimer or UniFold (three cases). Ultimately, only 12 cases, or 3% of the SAD-phased set did not yield to any form of MR tested here, offering valuable hints as to the number and characteristics of cases where experimental phasing remains essential for macromolecular structure solution.
Autores: Daniel J Rigden, R. Keegan, A. J. Simpkin
Última actualización: 2024-07-22 00:00:00
Idioma: English
Fuente URL: https://www.biorxiv.org/content/10.1101/2024.07.19.604295
Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.07.19.604295.full.pdf
Licencia: https://creativecommons.org/licenses/by-nc/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.