Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Biología# Bioinformática

Nuevo método para modelar complejos de proteínas

Enfoque innovador automatiza el modelado de regiones flexibles de proteínas.

― 7 minilectura


Descubrimiento enDescubrimiento enModelado de Proteínaseficiente.complejos de proteínas de maneraIDRWalker automatiza la modelación de
Tabla de contenidos

Las proteínas son bloques esenciales de la vida. Realizan una amplia variedad de funciones en nuestros cuerpos, incluyendo llevar a cabo reacciones químicas, apoyar las células y proporcionar estructura. Algunas proteínas trabajan solas, mientras que otras se juntan para formar estructuras más grandes llamadas Complejos de proteínas. Estos complejos son vitales para muchos procesos biológicos, pero determinar sus formas y estructuras puede ser bastante complicado.

El desafío de estudiar complejos de proteínas

Determinar la estructura de un gran complejo de proteínas es una tarea desafiante. Métodos actuales, como la criomicrocopía electrónica (cryo-EM), se usan mucho para esto. Cryo-EM ayuda a los investigadores a crear mapas 3D detallados de proteínas, proporcionando información a nivel atómico. Sin embargo, estos mapas a menudo solo muestran las partes bien estructuradas de un complejo, dejando fuera áreas flexibles. Además, preparar muestras para estos experimentos puede ser complicado, y lidiar con diferentes tipos de moléculas en una muestra puede complicar aún más las cosas. Cuanto más grande es el complejo de proteínas, más difícil se vuelve obtener imágenes claras.

Nuevas herramientas para modelar proteínas

Recientemente, han surgido nuevas herramientas para ayudar a los científicos a construir modelos de grandes complejos de proteínas, incluso cuando tienen datos de baja resolución. Algunas de estas herramientas incluyen la Plataforma de Modelado Integrativo (IMP), Haddock y Assembline. Estas herramientas funcionan primero determinando la estructura de piezas individuales de proteínas y luego ensamblándolas según información de varios experimentos. Este proceso ha mostrado resultados prometedores con estructuras grandes, como el complejo del poro nuclear, que es bastante grande.

Con el auge de métodos basados en aprendizaje automático, como AlphaFold, los científicos ahora pueden predecir la forma de piezas de proteínas sin depender únicamente de costosos experimentos. AlphaFold puede proporcionar resultados similares a los métodos tradicionales, haciendo que el estudio de grandes complejos de proteínas sea más asequible.

A pesar de estos avances, los investigadores aún enfrentan dificultades cuando tratan con regiones flexibles en proteínas, a menudo llamadas regiones intrínsecamente desordenadas (IDRs). Los métodos tradicionales luchan por capturar la naturaleza dinámica de estas regiones, por lo que las técnicas de modelado se vuelven clave para hacer predicciones sobre sus estructuras. Algunos métodos de modelado existentes, sin embargo, no funcionan bien para IDRs y pueden complicar el proceso.

Presentando IDRWalker

Para abordar estos desafíos, se ha creado un nuevo enfoque llamado IDRWalker. IDRWalker utiliza un algoritmo de modelado simple llamado caminata aleatoria sin auto-intersección. Si bien este método puede no producir los mejores modelos de inmediato, un refinamiento adicional puede mejorar la calidad de los resultados.

IDRWalker automatiza el proceso de modelar IDRs en proteínas. Se ha probado en varios complejos de proteínas, incluyendo el complejo del poro nuclear humano, proteínas de canales de calcio y la proteína espiga Omicron del SARS-CoV-2. Para estructuras complejas como el NPC, aunque manejar los archivos de entrada puede ser complicado, IDRWalker simplifica el modelado de IDRs.

Cómo funciona IDRWalker

IDRWalker sigue un flujo de trabajo claro. Primero, lee archivos de secuencia y estructura, notando cualquier pieza que falte. El programa luego entra en un bucle donde genera nuevas piezas de proteínas hasta que todas las secciones faltantes están modeladas. Una vez completado, los resultados se refinan y guardan.

Durante el proceso de modelado, IDRWalker trata cada cadena de proteína por separado, generando coordenadas 3D para nuevos residuos en función de los existentes. Para llevar un control del espacio ocupado por los átomos, utiliza una matriz de ocupación, que le permite verificar posibles superposiciones y conflictos entre átomos.

Después de generar los átomos de la columna vertebral de un nuevo residuo, IDRWalker determina las posiciones de los átomos de la cadena lateral según sus ángulos y configuraciones. También calcula la posición de los átomos de oxígeno en los enlaces peptídicos, aunque estos solo pueden ser finalizados después de que toda la cadena de proteínas ha sido modelada.

Para asegurar que los nuevos residuos se conecten correctamente con los existentes, IDRWalker verifica si los extremos de las regiones que faltan se encuentran después de un cierto número de pasos. Si un residuo generado no pasa ninguna verificación, el proceso se repite hasta tener éxito. Si demasiados intentos fallan, el programa retrocede para encontrar una mejor solución.

Después de completar el modelado, IDRWalker refina los resultados para corregir problemas como ángulos de enlace incorrectos o posiciones de átomos.

Aplicaciones de IDRWalker

IDRWalker se ha aplicado con éxito a varios complejos de proteínas:

El complejo del poro nuclear humano

El complejo del poro nuclear (NPC) ayuda a controlar el movimiento de moléculas entre el núcleo celular y el citoplasma. Tiene muchas regiones desordenadas, por lo que modelar estas secciones es crucial para entender mejor cómo opera el NPC. Usando IDRWalker, los investigadores modelaron las áreas faltantes en la estructura del NPC. El programa procesó los archivos de entrada y generó modelos de manera eficiente, que se pueden usar como puntos de partida para más simulaciones.

Proteína del canal de calcio RyR1

El receptor de rianodina 1 (RyR1) es una proteína clave del canal de calcio involucrada en la función muscular. Tiene huecos en su estructura debido a regiones flexibles. IDRWalker fue probado en estos huecos, aunque algunos eran más largos que los límites típicos. Los resultados mostraron que IDRWalker pudo manejar eficazmente las regiones faltantes más largas.

A pesar de algunos problemas con los ángulos de enlace en el modelo generado, estos fueron corregidos a través de una minimización de energía posterior, lo que llevó a resultados más precisos.

Proteína espiga Omicron del SARS-CoV-2

La proteína espiga del virus SARS-CoV-2 juega un papel crucial en cómo el virus entra en las células huésped. Muchos segmentos de esta proteína estaban faltando, particularmente cerca de regiones activas importantes para la administración de fármacos. Al modelar estas áreas con IDRWalker, se notó que pueden aparecer nudos entre cadenas, lo cual se considera generalmente poco realista. Al permitir un poco de aleatoriedad en el modelado, los investigadores pudieron probar diferentes configuraciones y seleccionar modelos que evitaban nudos.

Eficiencia de IDRWalker

Una de las principales razones para desarrollar IDRWalker fue mejorar la eficiencia en el modelado de IDRs. El programa puede modelar regiones faltantes en menos de un segundo para proteínas más pequeñas y solo toma unos minutos para complejos más grandes como el NPC. Ha sido diseñado para trabajar efectivamente en un solo núcleo de CPU, y hay potencial para más aceleraciones a través del procesamiento paralelo, lo que permite generar múltiples modelos a la vez.

Sin embargo, a medida que aumenta el tamaño del sistema, el uso de memoria puede convertirse en un factor limitante, presentando áreas para mejorar en futuras actualizaciones.

Conclusión

IDRWalker representa un avance significativo en el modelado de regiones intrínsecamente desordenadas en grandes complejos de proteínas. Al simplificar el proceso y utilizar métodos de caminata aleatoria, los investigadores pueden abordar los complejos problemas que surgen de las regiones flexibles en las proteínas. Las aplicaciones exitosas de IDRWalker al NPC, RyR1 y la proteína espiga del SARS-CoV-2 ilustran su potencial para mejorar nuestra comprensión de las estructuras de proteínas.

De cara al futuro, hay oportunidades para integrar datos experimentales en el proceso de modelado, permitiendo resultados aún más precisos. Esto podría implicar el uso de mapas de densidad o datos de varias técnicas experimentales para guiar aún más el proceso de modelado. La investigación futura buscará explorar estas posibilidades para mejorar las capacidades de IDRWalker y hacer el modelado de proteínas aún más efectivo.

Fuente original

Título: IDRWalker: A Random Walk based Modeling Tool for Disordered Regions in Proteins

Resumen: MotivationWith the advancement of structural biology techniques, the elucidation of increasingly large protein structures has become possible. However, the structural modeling of intrinsically disordered regions in proteins remains challenging. Particularly in the case of large protein complexes, it is difficult to rapidly construct models for all intrinsically disordered regions using existing methods. In the nuclear pore complex, a gigantic protein machine of interest, intrinsically disordered regions play a crucial role in the function of the nuclear pore complex. Therefore, there is a need to develop a modeling tool suitable for intrinsically disordered regions in large protein complexes. ResultsWe have developed a program named IDRWalker based on self-avoiding random walks, enabling convenient and rapid modeling of intrinsically disordered regions in large protein complexes. Using this program, modeling of all disordered regions within the nuclear pore complex can be completed in a matter of minutes. Furthermore, we have addressed issues related to peptide chain connectivity and knot that may arise during the application of random walks. Availability and implementationIDRWalker is an open-source Python package. Its source code is publicly accessible on GitHub (https://github.com/zyzhangGroup/IDRWalker).

Autores: Zhiyong Zhang, G. Chen

Última actualización: 2024-03-18 00:00:00

Idioma: English

Fuente URL: https://www.biorxiv.org/content/10.1101/2024.03.17.585378

Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.03.17.585378.full.pdf

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares