El nuevo modelo mejora las predicciones de la estabilidad de las proteínas
Investigadores desarrollan un modelo para predecir mejor los cambios de estabilidad de proteínas por mutaciones en aminoácidos.
― 6 minilectura
Tabla de contenidos
La estabilidad de las proteínas es una parte importante de cómo funcionan y evolucionan. Afecta muchos problemas de salud en humanos y es clave para crear nuevas proteínas para diferentes usos. Cuando las proteínas cambian sus bloques de construcción, conocidos como Aminoácidos, puede afectar su estabilidad. Una proteína estable es aquella que se pliega correctamente y mantiene su estructura bajo varias condiciones. Si la estabilidad de una proteína cambia debido a uno o más sustitutos de aminoácidos, puede causar problemas graves, incluyendo enfermedades.
En este estudio, los investigadores buscaron mejorar los métodos para predecir cómo estos cambios en los aminoácidos afectan la estabilidad de las proteínas. Usaron tecnologías avanzadas para analizar las proteínas a un nivel más profundo. Al emplear un tipo de inteligencia artificial llamada redes neuronales de grafos, los investigadores pudieron considerar las relaciones entre los aminoácidos de manera más efectiva que los métodos anteriores.
Importancia de la Estabilidad de las Proteínas
La estabilidad de las proteínas se puede ver como el equilibrio entre los estados plegados y desplegados de una proteína. Una proteína puede existir en dos formas principales: plegada, que es su estado activo, y desplegada, que es su estado inactivo. El objetivo es tener un cambio negativo en la energía libre cuando una proteína se pliega. Cuanto más estable sea una proteína, más fácil será que mantenga su forma y funcione correctamente. Algunas mutaciones pueden hacer que una proteína sea más inestable al interrumpir su estructura plegada.
Por ejemplo, un cambio de treonina a metionina en una enzima específica se ha relacionado con enfermedades del corazón. Este cambio interrumpe las fuerzas estabilizadoras dentro de la proteína, lo que lleva a una estructura menos estable y a una función reducida.
Métodos Actuales para Medir la Estabilidad de las Proteínas
Tradicionalmente, los científicos miden cómo las mutaciones afectan la estabilidad de las proteínas usando experimentos. Un método común implica calentar proteínas y observar cómo se despliegan. Al comparar las temperaturas de despliegue de la proteína original y sus variantes mutantes, los científicos pueden inferir los cambios de estabilidad. Sin embargo, estos experimentos pueden ser largos y costosos.
Para acelerar este proceso, los investigadores han recurrido a modelos computacionales. Algunos modelos usan principios basados en la física conocidos para estimar cambios de estabilidad. Por ejemplo, simulan las interacciones físicas entre los átomos en las proteínas para predecir cuán estable será una proteína después de mutaciones. Aunque estos modelos pueden proporcionar información, a menudo requieren recursos computacionales significativos y tiempo, lo que los hace menos prácticos para Conjuntos de datos grandes.
Avances a Través del Aprendizaje automático
Con el rápido crecimiento de datos disponibles para las proteínas, el aprendizaje automático se ha convertido en una herramienta poderosa para predecir la estabilidad de las proteínas. Los métodos recientes se centran en usar técnicas de aprendizaje automático para analizar secuencias de aminoácidos y su historia evolutiva. Estos modelos pueden hacer predicciones basadas únicamente en los datos de secuencia, pero a menudo carecen de información detallada sobre la estructura tridimensional de la proteína.
Para mejorar estas predicciones, los investigadores en este estudio combinaron datos de secuencia con información estructural. Crearon un sistema que podría evaluar los cambios en las proteínas de manera más precisa utilizando dos escalas diferentes: la escala atómica y la de residuos. La escala atómica observa átomos individuales, mientras que la escala de residuos examina grupos de aminoácidos.
El Nuevo Enfoque Usando Redes Neuronales de Grafos
Los investigadores diseñaron un nuevo modelo utilizando redes neuronales de grafos (GNNs) para construir una representación más detallada y flexible de las proteínas. Al tratar las proteínas como grafos, donde los aminoácidos son nodos y sus conexiones son aristas, el modelo pudo tener en cuenta las complejas relaciones entre diferentes partes de la proteína.
Entrenaron el modelo en un nuevo conjunto de datos grande que incluía muchas variantes de proteínas. Este conjunto de datos, llamado Mega-escala, se había recopilado a través de experimentos de alto rendimiento e incluía información completa sobre cambios en la estabilidad de las proteínas. Con más de 600,000 puntos de datos, proporcionó una base sólida para entrenar el modelo.
Los investigadores establecieron dos tareas principales para su modelo. La primera tarea era identificar el entorno atómico alrededor de los aminoácidos. La segunda era puntuar los cambios de estabilidad causados por mutaciones. El uso de redes neuronales de grafos permitió a los investigadores considerar varias relaciones y efectos de diferentes cambios de aminoácidos en un solo modelo.
Resultados y Evaluación
Al evaluar, el modelo mostró resultados prometedores. Fue capaz de predecir cambios en la estabilidad de las proteínas con precisión, incluso para combinaciones de mutaciones que no había sido entrenado directamente. Esta flexibilidad es una mejora significativa sobre modelos anteriores que solo podían manejar mutaciones individuales o números fijos de mutaciones.
El equipo también comparó sus resultados con métodos tradicionales y otros modelos de aprendizaje automático, encontrando que su enfoque ofrecía resultados competitivos, aunque tenía algunas limitaciones. Por ejemplo, el modelo ocasionalmente enfrentaba desafíos con el sobreajuste al conjunto de datos Mega-escala, lo que podría reducir su capacidad de generalización a nuevas secuencias de proteínas.
Direcciones Futuras
Los investigadores reconocieron que, si bien su enfoque muestra gran promesa, todavía hay áreas que necesitan mejoras. Por ejemplo, están trabajando para refinar los umbrales de distancia utilizados para definir conexiones entre aminoácidos, lo que podría mejorar la precisión del modelo. Además, incorporar otros métodos y conjuntos de datos podría proporcionar más información sobre cómo se comportan las proteínas bajo diferentes condiciones.
Al refinar continuamente su modelo y explorar nuevos datos, los investigadores esperan crear una herramienta confiable que pueda asistir en el diseño e ingeniería de proteínas. Esto podría llevar a avances significativos en medicina, biotecnología y nuestra comprensión de las enfermedades relacionadas con las proteínas.
Conclusión
Este estudio representa un avance significativo en la predicción de cómo los cambios en los aminoácidos afectan la estabilidad de las proteínas. Al aprovechar técnicas avanzadas de aprendizaje automático y combinar datos de múltiples fuentes, los investigadores crearon un modelo que puede acomodar las complejidades de las estructuras de proteínas. A medida que la comprensión científica de las proteínas continúa evolucionando, herramientas como esta serán esenciales para desbloquear nuevas posibilidades en la investigación y desarrollo de proteínas.
Título: Predicting protein stability changes under multiple amino acid substitutions using equivariant graph neural networks
Resumen: The accurate prediction of changes in protein stability under multiple amino acid substitutions is essential for realising true in-silico protein re-design. To this purpose, we propose improvements to state-of-the-art Deep learning (DL) protein stability prediction models, enabling first-of-a-kind predictions for variable numbers of amino acid substitutions, on structural representations, by decoupling the atomic and residue scales of protein representations. This was achieved using E(3)-equivariant graph neural networks (EGNNs) for both atomic environment (AE) embedding and residue-level scoring tasks. Our AE embedder was used to featurise a residue-level graph, then trained to score mutant stability ($\Delta\Delta G$). To achieve effective training of this predictive EGNN we have leveraged the unprecedented scale of a new high-throughput protein stability experimental data-set, Mega-scale. Finally, we demonstrate the immediately promising results of this procedure, discuss the current shortcomings, and highlight potential future strategies.
Autores: Sebastien Boyer, Sam Money-Kyrle, Oliver Bent
Última actualización: 2023-05-30 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2305.19801
Fuente PDF: https://arxiv.org/pdf/2305.19801
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.