Avances en la predicción de proteínas usando aprendizaje automático
Nuevos modelos predicen la estabilidad de proteínas y generan secuencias de manera efectiva.
― 8 minilectura
Tabla de contenidos
- El papel de los grandes conjuntos de datos
- Desafíos en la Predicción de proteínas
- Mejorando el rendimiento del modelo
- DPO y su aplicación
- Usando DPO para entrenar modelos
- Evaluación del rendimiento de ProteinDPO
- Aplicaciones más amplias de ProteinDPO
- Generando nuevas secuencias de proteínas
- Conclusión
- Direcciones futuras
- Fuente original
- Enlaces de referencia
Las proteínas son moléculas esenciales en todos los seres vivos, llevando a cabo una gran variedad de funciones. Su capacidad para trabajar de manera efectiva depende en gran medida de su forma, o estructura. Cuando una proteína se pliega en su forma específica, puede hacer bien su trabajo, mientras que una proteína mal plegada puede no funcionar en absoluto. Por eso, entender cómo predecir la estructura de una proteína y su Estabilidad es crucial en campos como la medicina y la biotecnología.
En los últimos años, el Aprendizaje automático ha surgido como una herramienta poderosa en biología. Permite a los científicos predecir cómo se comportarán las proteínas basándose en grandes Conjuntos de datos que contienen información sobre diversas secuencias y estructuras de proteínas. Un avance notable en este ámbito proviene de modelos que aprenden sin supervisión directa, lo que significa que pueden encontrar patrones en los datos sin una guía explícita.
El papel de los grandes conjuntos de datos
Conjuntos de datos como UniProt y el Banco de Datos de Proteínas (PDB) son grandes colecciones de datos de proteínas que ayudan a entrenar modelos de aprendizaje automático. Contienen un montón de información sobre proteínas conocidas, incluidas sus secuencias y estructuras. Los modelos de aprendizaje automático entrenados con estos conjuntos de datos pueden identificar relaciones y patrones que pueden no ser obvios a simple vista.
Algunos modelos, conocidos como modelos de lenguaje informados por la estructura, pueden generar secuencias de proteínas que probablemente se plieguen en estructuras específicas. Estos modelos han mostrado resultados prometedores, ayudando a los investigadores a mejorar propiedades de las proteínas como la afinidad de unión -la fuerza de la interacción entre dos moléculas- y la estabilidad. Esto es sorprendente porque estos modelos no aprenden explícitamente sobre estas propiedades durante su entrenamiento.
Predicción de proteínas
Desafíos en laAunque estos modelos son poderosos, tienen limitaciones. Un problema es que a veces les cuesta predecir con precisión la estabilidad de las proteínas. La estabilidad se refiere a qué tan bien una proteína mantiene su forma bajo diversas condiciones. Los modelos entrenados en estructuras de proteínas naturales pueden mostrar cierta capacidad para predecir la estabilidad, pero en general, funcionan peor en comparación con modelos diseñados específicamente para esa tarea.
Esta discrepancia surge porque los procesos evolutivos seleccionan proteínas basándose en la estabilidad, entre otros factores. Por lo tanto, un modelo entrenado solo con datos generales de proteínas puede perderse detalles críticos sobre la estabilidad.
Mejorando el rendimiento del modelo
Para mejorar el rendimiento de los modelos de aprendizaje automático, los investigadores están buscando maneras de proporcionarles más información específica sobre la tarea mientras aún se benefician del amplio conocimiento adquirido durante el entrenamiento no supervisado. Un enfoque es usar un método llamado ajuste fino supervisado (SFT). En SFT, el modelo se entrena aún más con un conjunto curado de ejemplos que tienen una propiedad específica de interés, como la estabilidad.
Aunque SFT puede mejorar el rendimiento de un modelo en tareas específicas, viene con el riesgo de sobreajuste. Esto significa que el modelo podría volverse demasiado especializado en los ejemplos que ve durante el ajuste fino, perdiendo el conocimiento general adquirido en su entrenamiento inicial.
Otro método que se está explorando se llama Optimización de Preferencias Directas (DPO). Este método permite a los modelos aprender de ejemplos que comparten similitudes superficiales, pero difieren en formas importantes relacionadas con la tarea en cuestión. Esto es particularmente relevante en biología, ya que incluso pequeños cambios en la secuencia de una proteína pueden impactar significativamente su estabilidad y estructura.
DPO y su aplicación
DPO aprovecha ejemplos por pares para entrenar el modelo de manera efectiva. Al presentar al modelo información sobre qué proteínas son más estables que otras, los investigadores pueden guiarlo hacia predicciones más precisas sobre la estabilidad. Este método permite que el modelo utilice todo el paisaje de aptitud, mejorando su capacidad para hacer predicciones sobre la estabilidad.
A través de DPO, los investigadores pueden crear conjuntos de datos mejorados y desarrollar mejores modelos para tareas de estabilidad de proteínas. Pueden instruir a los modelos para que disciernan diferencias sutiles en la estabilidad basadas en cambios específicos de aminoácidos, llevando a predicciones más precisas.
Usando DPO para entrenar modelos
En un estudio reciente, se empleó DPO para mejorar un modelo preentrenado llamado ESM-IF1. Este modelo se basa en información sobre estructuras y secuencias de proteínas. Los investigadores tenían como objetivo crear una nueva versión, llamada ProteinDPO, que incorporara información sobre estabilidad utilizando datos experimentales de un conjunto de datos completo de variantes de proteínas.
Los resultados fueron notables. ProteinDPO superó tanto al modelo original ESM-IF1 como a una versión que pasó por un ajuste fino supervisado estándar. Este nuevo modelo logró buenos resultados no solo en la predicción de cambios de estabilidad debido a mutaciones individuales, sino que también mostró un rendimiento competitivo en otras tareas relacionadas, como evaluar la estabilidad de proteínas más grandes y complejos de anticuerpos.
Evaluación del rendimiento de ProteinDPO
Se realizaron varias pruebas para evaluar el rendimiento de ProteinDPO. Esto incluyó comparar su rendimiento con otros modelos, como ThermoMPNN, que es conocido por su precisión en predicciones de estabilidad. Las predicciones de ProteinDPO se evaluaron en función de su correlación con cambios de estabilidad medidos experimentalmente en varios conjuntos de datos.
Cuando se comparó con modelos entrenados específicamente en estabilidad, ProteinDPO mostró una capacidad predictiva mejorada. Demostró un rendimiento sólido al identificar cómo las mutaciones individuales afectan la estabilidad, destacando su capacidad para generalizar el conocimiento aprendido durante el entrenamiento.
Aplicaciones más amplias de ProteinDPO
Más allá de sus impresionantes capacidades de predicción de estabilidad, la efectividad de ProteinDPO se extiende a otras tareas importantes en la investigación de proteínas. Por ejemplo, mostró resultados prometedores en la predicción de Afinidades de unión, que son cruciales para entender las interacciones entre proteínas y otras moléculas.
Esto es significativo porque predicciones precisas de afinidades de unión pueden ayudar a los investigadores a diseñar mejores fármacos y proteínas terapéuticas. ProteinDPO pudo ofrecer información sobre la fuerza de unión de varios complejos de proteínas, demostrando así su versatilidad como herramienta predictiva.
Generando nuevas secuencias de proteínas
Además de calificar proteínas existentes, ProteinDPO también puede generar nuevas secuencias de proteínas que probablemente sean más estables que sus contrapartes nativas. Esta es una aplicación emocionante, ya que permite a los investigadores explorar el diseño de proteínas con propiedades mejoradas. Dada la complejidad de las interacciones entre proteínas, generar secuencias que mantengan la estabilidad mientras difieren de la original puede ser un reto.
Aprovechando DPO, los investigadores pudieron generar secuencias para diversas estructuras de proteínas, evaluando su estabilidad predicha usando técnicas computacionales. Las secuencias generadas mostraron características prometedoras, sugiriendo que este método podría llevar al diseño de proteínas más efectivas para diversas aplicaciones.
Conclusión
Los avances en el aprendizaje automático, particularmente a través de modelos como ProteinDPO, representan un gran paso adelante en nuestra capacidad para predecir y diseñar proteínas. Mediante el uso de grandes conjuntos de datos y métodos de entrenamiento innovadores como DPO, los investigadores pueden crear modelos que no solo califican la estabilidad con más precisión, sino que también generan nuevas secuencias de proteínas.
Estas innovaciones tienen un gran potencial para campos como el diseño de fármacos y la biología sintética, donde entender y manipular la estabilidad y función de las proteínas es crucial. A medida que este campo sigue evolucionando, la posibilidad de usar el aprendizaje automático para abordar preguntas biológicas complejas solo crecerá, allanando el camino para soluciones más efectivas y específicas en diversas aplicaciones.
Direcciones futuras
La exploración de DPO y su integración en modelos generativos como ProteinDPO abre emocionantes avenidas para futuras investigaciones. Los estudios futuros podrían profundizar en alinear modelos con conjuntos de datos que reflejen otras propiedades más allá de la estabilidad. El objetivo es ver si enfoques similares pueden generar conocimientos generalizables en diferentes áreas de la investigación sobre proteínas.
Los investigadores también podrían mejorar los modelos actuales incorporando conjuntos de datos más diversos o refinando los procesos de entrenamiento. Esto podría llevar a predicciones aún mejores y a una generación más eficiente de proteínas con rasgos deseados.
A medida que seguimos empujando los límites de lo que el aprendizaje automático puede lograr en las ciencias biológicas, nuevas innovaciones y métodos surgirán, enriqueciendo aún más nuestra comprensión del comportamiento de las proteínas y expandiendo las posibilidades dentro de la biotecnología y la medicina.
Título: Aligning protein generative models with experimental fitness via Direct Preference Optimization
Resumen: Generative models trained on unlabeled protein datasets have demonstrated a remarkable ability to predict some biological functions without any task-specific training data. However, this capability does not extend to all relevant functions and, in many cases, the unsupervised model still underperforms task-specific, supervised baselines. We hypothesize that this is due to a fundamental "alignment gap" in which the rules learned during unsupervised training are not guaranteed to be related to the function of interest. Here, we demonstrate how to provide protein generative models with useful task-specific information without losing the rich, general knowledge learned during pretraining. Using an optimization task called Direct Preference Optimization (DPO), we align a structure-conditioned language model to generate stable protein sequences by encouraging the model to prefer stabilizing over destabilizing variants given a protein backbone structure. Our resulting model, ProteinDPO, is the first structure-conditioned language model preference-optimized to experimental data. ProteinDPO achieves competitive stability prediction and consistently outperforms both unsupervised and finetuned versions of the model. Notably, the aligned model also performs well in domains beyond its training data to enable absolute stability prediction of large proteins and binding affinity prediction of multi-chain complexes, while also enabling single-step stabilization of diverse backbones. These results indicate that ProteinDPO has learned generalizable information from its biophysical alignment data.
Autores: Brian Hie, T. Widatalla, R. Rafailov
Última actualización: 2024-05-21 00:00:00
Idioma: English
Fuente URL: https://www.biorxiv.org/content/10.1101/2024.05.20.595026
Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.05.20.595026.full.pdf
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.