Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Biología Cuantitativa# Métodos cuantitativos# Física Química

Evaluando el Aprendizaje Profundo en Métodos de Docking de Fármacos

Evaluando la efectividad del deep learning en la precisión y plausibilidad del acoplamiento molecular.

― 9 minilectura


Evaluando Métodos deEvaluando Métodos deAcoplamiento deMedicamentosacoplamiento de fármacos.enfrentan desafíos en la precisión delLos métodos de aprendizaje profundo
Tabla de contenidos

El acoplamiento es una parte clave en el descubrimiento de nuevos medicamentos. Involucra averiguar qué tan bien una pequeña molécula, llamada ligando, puede unirse a una proteína. Los científicos utilizan información de experimentos o modelos computacionales de la proteína y el ligando para predecir su interacción. El objetivo es ver si el ligando puede encajar bien en la proteína, lo que ayuda a los investigadores a elegir los mejores candidatos para medicamentos.

Las predicciones del acoplamiento se pueden usar en cribado virtual, donde se prueban un montón de moléculas potenciales de medicamentos para ver cuáles podrían funcionar como tratamientos efectivos. Los químicos medicinales también usan estas predicciones para entender cómo una pequeña molécula se une a una proteína. Esto les ayuda a decidir si la molécula tiene el potencial de convertirse en un medicamento.

Los métodos de acoplamiento se basan en la idea de que la unión ocurre debido a las interacciones entre las estructuras de la proteína y el ligando. Sin embargo, este proceso puede ser complicado, así que los métodos deben equilibrar velocidad y precisión.

El Papel del Aprendizaje Profundo en el Acoplamiento

La tecnología de aprendizaje profundo (DL) está cambiando la forma en que se hace el acoplamiento. Muestra potencial para hacer que los procesos de acoplamiento sean más rápidos y precisos. Se han propuesto varios métodos de acoplamiento basados en DL, cada uno con formas únicas de predecir cómo los Ligandos se unirán a las proteínas.

Los métodos de acoplamiento tradicionales incluyen características específicas en sus cálculos para asegurarse de que tengan sentido químicamente y sean físicamente plausibles. Por ejemplo, estos métodos limitan cuánto puede moverse el ligando solo a las partes que pueden rotar. También aplican penalizaciones si la proteína y el ligando se superponen de una manera que no es posible.

Sin embargo, algunos de los métodos de acoplamiento basados en DL actuales podrían pasar por alto estas comprobaciones importantes. Esto puede llevar a generar poses de unión poco realistas, aunque muestren buena precisión en términos de valores de desviación cuadrática media (RMSD). El RMSD es una forma común de medir cuán cerca está un modo de unión predicho del real.

Para evaluar verdaderamente el rendimiento de los métodos de acoplamiento, necesitamos pruebas independientes para evaluar qué tan químicamente y físicamente plausibles son las poses predichas. Esto ayudará a identificar lo que falta en los métodos de acoplamiento basados en DL actuales y promoverá el desarrollo de mejores predicciones.

Importancia de la Plausibilidad Física

Comprobar la plausibilidad física de las predicciones de acoplamiento es similar a validar datos de estructuras en el Banco de Datos de Proteínas (PDB). La validación de estructuras verifica si las longitudes y ángulos de los enlaces del ligando coinciden con estructuras químicas conocidas. También busca choques estéricos, que son situaciones donde los átomos están demasiado cerca.

Las comprobaciones inicialmente diseñadas para validar ligandos ayudan a los usuarios a seleccionar estructuras que probablemente sean correctas. Mientras tanto, los métodos de acoplamiento son juzgados según qué tan bien pueden recrear estructuras cristalinas, lo que significa que sus salidas también deberían pasar estas mismas comprobaciones de plausibilidad.

Algunos flujos de trabajo para generar conformaciones del ligando ya incluyen cheques físicos. Por ejemplo, las comprobaciones de geometría miden cuánto se desvían las longitudes de enlaces y ángulos predichos de los valores óptimos conocidos. Comprobaciones químicas adicionales pueden identificar errores como patrones de enlace incorrectos o grupos funcionales faltantes.

El objetivo aquí es asegurarse de que las conformaciones de unión predichas sean tanto químicamente como físicamente válidas.

Estado Actual de los Métodos de Acoplamiento

La mayoría de las comparaciones entre métodos de acoplamiento se centran en gran medida en el RMSD del modo de unión, y esta tendencia se refleja en la introducción de nuevos métodos. Los cinco métodos de acoplamiento basados en DL examinados muestran afirmaciones de un rendimiento mejorado sobre los métodos estándar, pero estas afirmaciones dependen principalmente de valores de RMSD sin verificar la plausibilidad física.

Para abordar estas brechas, presentamos la suite de pruebas PoseBusters. Esta suite está diseñada para verificar las conformaciones implausibles en las poses de ligandos predichas. Usamos PoseBusters para evaluar las salidas de cinco métodos de acoplamiento basados en DL junto con dos métodos de acoplamiento clásicos.

Los resultados revelan que cuando solo se observa el RMSD, algunos métodos basados en DL pueden parecer tener un buen rendimiento. Sin embargo, al considerar el realismo físico de sus predicciones, los métodos clásicos a menudo superan a los enfoques de DL.

Resumen de los Métodos de Acoplamiento Probados

Los cinco métodos basados en DL que examinamos incluyen:

  1. DeepDock: Este método aprende un potencial estadístico basado en las distancias entre átomos de ligando y puntos en la superficie de la proteína.
  2. DiffDock: Utiliza técnicas de grafos para realizar acoplamiento a ciegas, sin necesidad de un sitio de unión predefinido.
  3. EquiBind: Similar a DiffDock pero se centra en utilizar redes neuronales de grafos específicamente para el acoplamiento.
  4. TankBind: Este método emplea un enfoque único que incorpora trigonometría para acoplarse en los bolsillos de unión predichos.
  5. Uni-Mol: Usa transformadores diseñados para manejar las formas y orientaciones de las moléculas durante el acoplamiento.

Los dos métodos clásicos incluidos en el estudio son AutoDock Vina y Gold, que han establecido una sólida reputación en el campo.

Cada uno de los métodos seleccionados tuvo datos de entrenamiento específicos de varios subconjuntos del conjunto de datos PDBBind. Este conjunto de datos contiene información sobre complejos de proteínas-ligandos y se utiliza para entrenar estos modelos de acoplamiento.

Suite de Pruebas PoseBusters

La suite de pruebas PoseBusters consta de tres secciones principales:

  1. Validez Química: Este primer grupo verifica si el ligando predicho se adhiere a estándares y propiedades químicas reconocidos.
  2. Propiedades Intramoleculares: La segunda sección prueba factores geométricos, como longitudes de enlaces y ángulos, para asegurarse de que estén dentro de límites aceptables.
  3. Interacciones Intermoleculares: El grupo final examina cómo el ligando interactúa con la proteína y cualquier cofactor, verificando choques y superposiciones.

Las poses predichas que pasan todas las pruebas en PoseBusters se etiquetan como 'PB-válidas'. Para evaluar las predicciones, la suite requiere archivos de entrada que contengan los ligandos re-acoplados, los ligandos reales y la estructura de la proteína.

Evaluación de Métodos de Acoplamiento

Usando la suite de pruebas PoseBusters, evaluamos las predicciones generadas tanto por los métodos de acoplamiento basados en DL como por los clásicos. Al re-acoplar ligandos en sus respectivas proteínas, pudimos evaluar qué tan bien se desempeñó cada método bajo las mismas condiciones.

Resultados para el Conjunto Diverso de Astex

El Conjunto Diverso de Astex contiene una variedad de complejos de proteínas-ligandos seleccionados a mano utilizados como referencia para evaluar métodos de acoplamiento. Los resultados muestran que cuando solo se considera el RMSD, uno de los métodos basados en DL, DiffDock, tiene el mejor rendimiento. Sin embargo, cuando también se tiene en cuenta la plausibilidad física, los métodos tradicionales como Gold y AutoDock Vina tienen el mejor desempeño.

En este contexto, es importante destacar que, aunque DiffDock podría generar muchas predicciones aparentemente precisas basadas en RMSD, muchas de estas predicciones no eran físicamente razonables.

Resultados para el Conjunto de Referencia PoseBusters

El conjunto de referencia PoseBusters consiste en complejos de proteínas-ligandos más desafiantes que los métodos de DL no han encontrado durante el entrenamiento. En este conjunto de pruebas, tanto Gold como AutoDock Vina continúan teniendo un buen desempeño, mientras que métodos de DL como DiffDock no logran alcanzar, mostrando su lucha con datos nuevos.

Incluso después de realizar una minimización de energía posterior al acoplamiento, que ajusta las poses predichas para que se adapten mejor, los resultados sugieren que los métodos clásicos aún superan a los métodos de DL en rendimiento y plausibilidad.

Limitaciones de los Métodos de Aprendizaje Profundo

Los hallazgos de ambos conjuntos indican que los métodos basados en DL enfrentan actualmente desafíos de generalización. A menudo funcionan bien con datos similares a sus conjuntos de entrenamiento, pero luchan con complejos no vistos. Esto sugiere un posible sobreajuste a estructuras de proteínas específicas presentadas durante el entrenamiento.

Además, aunque la minimización de energía podría mejorar algunas predicciones de métodos de DL, no alcanzan aún los niveles de precisión de métodos clásicos como Gold y AutoDock Vina. Esto enfatiza que aspectos clave de la química y la física representados en los modelos clásicos de acoplamiento no son capturados completamente por las técnicas de DL actuales.

Conclusión

En resumen, aunque los métodos de acoplamiento basados en DL muestran potencial, nuestro análisis a través de la suite de pruebas PoseBusters destaca áreas significativas para mejorar, particularmente en mantener la plausibilidad física y la generalización a datos novedosos. A medida que estos métodos se desarrollen, incorporar comprobaciones para la consistencia química y el realismo físico será esencial para avanzar en el campo del descubrimiento de fármacos.

La suite de pruebas PoseBusters proporciona una herramienta valiosa para los desarrolladores, ayudando a identificar debilidades en los modelos actuales y guiando el desarrollo de mejores métodos de acoplamiento. Este trabajo en curso tiene como objetivo fomentar el progreso hacia predicciones más confiables en la búsqueda de tratamientos efectivos.

Fuente original

Título: PoseBusters: AI-based docking methods fail to generate physically valid poses or generalise to novel sequences

Resumen: The last few years have seen the development of numerous deep learning-based protein-ligand docking methods. They offer huge promise in terms of speed and accuracy. However, despite claims of state-of-the-art performance in terms of crystallographic root-mean-square deviation (RMSD), upon closer inspection, it has become apparent that they often produce physically implausible molecular structures. It is therefore not sufficient to evaluate these methods solely by RMSD to a native binding mode. It is vital, particularly for deep learning-based methods, that they are also evaluated on steric and energetic criteria. We present PoseBusters, a Python package that performs a series of standard quality checks using the well-established cheminformatics toolkit RDKit. Only methods that both pass these checks and predict native-like binding modes should be classed as having "state-of-the-art" performance. We use PoseBusters to compare five deep learning-based docking methods (DeepDock, DiffDock, EquiBind, TankBind, and Uni-Mol) and two well-established standard docking methods (AutoDock Vina and CCDC Gold) with and without an additional post-prediction energy minimisation step using a molecular mechanics force field. We show that both in terms of physical plausibility and the ability to generalise to examples that are distinct from the training data, no deep learning-based method yet outperforms classical docking tools. In addition, we find that molecular mechanics force fields contain docking-relevant physics missing from deep-learning methods. PoseBusters allows practitioners to assess docking and molecular generation methods and may inspire new inductive biases still required to improve deep learning-based methods, which will help drive the development of more accurate and more realistic predictions.

Autores: Martin Buttenschoen, Garrett M. Morris, Charlotte M. Deane

Última actualización: 2023-11-28 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2308.05777

Fuente PDF: https://arxiv.org/pdf/2308.05777

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares