Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Biología# Bioinformática

Modelos de Aprendizaje Automático en Clasificación de Medicamentos

Usando machine learning para clasificar drogas efectivamente y mejorar los resultados del tratamiento.

― 7 minilectura


ML en Clasificación deML en Clasificación deMedicamentosautomático.usando técnicas de aprendizajeAvanzando en la clasificación de drogas
Tabla de contenidos

Las enfermedades complejas como el cáncer pueden afectar muchos caminos en el cuerpo, lo que lleva a los médicos a recetar una mezcla de medicamentos para ayudar a tratar los síntomas. Sin embargo, usar múltiples medicamentos a veces puede causar problemas, ya que un medicamento puede cambiar cómo se absorbe, se distribuye, se descompone o se elimina otro del cuerpo. Estos cambios pueden llevar a efectos secundarios negativos cuando los medicamentos interactúan de manera perjudicial.

Para reducir estos riesgos, podemos clasificar los medicamentos según sus acciones. Por ejemplo, un medicamento podría ser un agonista, que activa un objetivo, o un antagonista, que bloquea la acción del objetivo. Comprender mejor cómo funcionan los medicamentos también puede ayudar a reutilizar medicamentos existentes para tratar diferentes enfermedades.

Muchas bases de datos contienen enormes bibliotecas de compuestos farmacéuticos. Estas bibliotecas se pueden buscar para encontrar medicamentos que actúan en objetivos específicos. Con las herramientas adecuadas, los investigadores pueden analizar estos medicamentos más fácilmente.

Modelos de Aprendizaje Automático

En los últimos años, el aprendizaje automático (ML) se ha vuelto popular para predecir qué tan bien puede funcionar un medicamento con un objetivo. Las herramientas de ML pueden predecir la fuerza con la que un medicamento se une a su objetivo y cómo se ajustará ese medicamento en ese objetivo. Otras tareas incluyen filtrar rápidamente una biblioteca de medicamentos según ciertas propiedades e incluso predecir las formas 3D de proteínas basándose únicamente en sus aminoácidos.

Este estudio se centra en desarrollar modelos de ML para predecir cómo actúan los medicamentos sobre objetivos específicos. Consideramos Agonistas completos, que activan totalmente su objetivo, y varios tipos de Antagonistas, que bloquean o reducen la acción de otros medicamentos al unirse al mismo sitio.

Los objetivos elegidos para este estudio son cuatro tipos de receptores hormonales: andrógeno, estrógeno, glucocorticoides y progesterona. Se utilizaron varios métodos de ML, como árboles de decisión, Bayes ingenuo, redes neuronales, bosques aleatorios y máquinas de soporte vectorial. Entrenamos estos modelos para ver cuál funciona mejor.

Recolección de Datos

Primero, para recopilar datos, revisamos investigaciones publicadas para encontrar información sobre agonistas y antagonistas para cada uno de los cuatro receptores. También recopilamos datos de señuelo, que son compuestos inactivos que no interactúan con los receptores. Los datos de agonistas y antagonistas eran limitados, a menudo menos de 100 para cada receptor, mientras que había más de 14,000 entradas de señuelo.

El pequeño número de medicamentos activos podría causar problemas, ya que los datos de Entrenamiento podrían no representar completamente los medicamentos del mundo real. Para solucionar este problema, ampliamos el conjunto de datos a través de un proceso llamado aumento de datos. Esto implicó crear muchas variaciones de los agonistas y antagonistas existentes sin cambiar sus Características esenciales.

Proceso de Aumento de Datos

En el aumento de datos, los medicamentos se ajustaron según fuera necesario-corrigiendo cualquier estado cargado, por ejemplo. Cada medicamento fue luego descompuesto en piezas superpuestas, y sus formas se alteraron usando búsquedas aleatorias. Después, estas piezas se ensamblaron nuevamente para crear muchas formas diferentes del mismo medicamento.

Luego, se calcularon los niveles de energía de estas formas para asegurarse de que no tuvieran interacciones malas entre átomos. Finalmente, se guardó la información sobre estas nuevas formas para un análisis posterior.

Características Usadas para ML

Las características son rasgos importantes que ayudan a identificar el tipo de medicamento-esto podría incluir cosas como el peso molecular o el número de grupos específicos de átomos. Para nuestro estudio, generamos un total de 435 características que proporcionaron varias descripciones de cada medicamento, como el número total de átomos de carbono, nitrógeno y azufre, junto con otras propiedades químicas.

Entrenamiento de los Modelos de ML

El entrenamiento de los modelos se realizó utilizando un método llamado validación cruzada k-fold, que es una forma de asegurar que los modelos se prueben a fondo. En este caso, utilizamos 10 pliegues, lo que significa que los datos se dividieron en 10 partes, y cada parte se utilizó tanto para el entrenamiento como para la prueba.

Antes de entrenar, se llevó a cabo un proceso de selección de características para conservar solo las características más relevantes, reduciendo cualquier ruido y ayudando al modelo a aprender mejor. Comprobamos sistemáticamente el valor de cada característica para ver cuáles contribuían más al rendimiento.

Una vez completado el entrenamiento, se calculó el rendimiento promedio de los modelos para ver qué tan bien clasificaban los medicamentos como agonistas, antagonistas o señuelos. La precisión de los modelos se midió para asegurarse de que funcionaran mejor que simplemente adivinar según el tipo de medicamento más común en el conjunto de datos.

Rendimiento de los Modelos

Cada modelo se evaluó según qué tan bien predecía la clasificación del medicamento para los cuatro receptores. Para el receptor de andrógeno, todos los modelos funcionaron de manera bastante similar al clasificar señuelos, pero hubo diferencias en cuánto clasificaron agonistas y antagonistas. Un modelo, la red neuronal, tuvo un desempeño particularmente bueno identificando agonistas.

Para el receptor de estrógeno, la mayoría de los modelos tuvieron dificultades para clasificar agonistas con precisión. El modelo de árbol de decisión tuvo un mal rendimiento en términos de precisión pero hizo un trabajo decente con señuelos. El modelo de Bayes ingenuo tuvo un buen desempeño al clasificar antagonistas.

Al mirar el receptor de glucocorticoides, algunos modelos mostraron un recuerdo perfecto para agonistas, mientras que otros lucharon considerablemente con antagonistas. El rendimiento entre los modelos varió, pero algunos lo hicieron bien identificando señuelos.

Finalmente, para el receptor de progesterona, la mayoría de los modelos funcionaron consistentemente bien, especialmente al clasificar agonistas y antagonistas.

Comparación de la Eficiencia de los Modelos

La eficiencia de los modelos también se tuvo en cuenta, ya que el tiempo de entrenamiento es esencial en configuraciones prácticas. Modelos como Bayes ingenuo y árboles de decisión fueron más rápidos, mientras que otros, como la red neuronal, tomaron mucho más tiempo.

En general, la red neuronal mostró el mejor rendimiento seguida de los modelos de bosque aleatorio y Bayes ingenuo. La máquina de soporte vectorial más lenta tuvo el rendimiento más bajo en general.

Desafíos en la Clasificación

Un desafío mencionado en el estudio fue la mala clasificación de antagonistas en comparación con agonistas y señuelos. El número de entradas de antagonistas fue un problema significativo, ya que menos ejemplos hicieron más difícil para los modelos aprender de manera efectiva. Las diferencias sutiles entre agonistas y antagonistas añadieron al desafío.

Otro factor que afectó el rendimiento fue que el modelo de bosque aleatorio no siempre mejoró el modelo de árbol de decisión. Esto podría deberse a problemas en cómo se usaron los datos para crear cada modelo.

Conclusión y Direcciones Futuras

En conclusión, este estudio demostró que los cinco métodos de ML pudieron clasificar medicamentos como agonistas, antagonistas o señuelos de manera efectiva. Todos los modelos superaron un método de adivinanza simple y demostraron ser eficientes para la tarea en cuestión. Sin embargo, aún hay margen de mejora, especialmente en clasificar antagonistas de manera más efectiva.

Los siguientes pasos involucran recopilar más datos sobre antagonistas y explorar características adicionales para identificar mejor las diferencias. El cambio hacia el ML permite a los investigadores utilizar datos existentes para desarrollar modelos que requieren menos potencia computacional en comparación con los métodos tradicionales. Las técnicas utilizadas en este estudio también se pueden aplicar a otros objetivos en el descubrimiento de medicamentos y esfuerzos de reutilización, ayudando a encontrar tratamientos para diversas enfermedades.

Fuente original

Título: Application of Supervised Machine Learning Models for Drug-Action Prediction Towards Nuclear Type I Receptors

Resumen: 1.Interactions between drugs can lead to adverse side effects for patients taking combination therapies to treat complex diseases such as cancer. Knowledge of drug-action towards a receptor would allow these drug-drug interactions to be predicted, and in this study, we trained a total of 5 different machine learning models to classify whether a given drug was an agonist (activator), antagonist (blocker), or a decoy (non-binder) to each of the androgen, estrogen, glucocorticoid, and progesterone receptors. The classification performance and efficiency, measured in training time, of the decision tree, naive Bayes, neural network, random forest, and support vector machine models for each receptor were then compared. The results showed that the decision tree and naive Bayes models were best suited for drug-action prediction across all receptors while only requiring minutes of training time at most. Future work will focus on increasing the prediction accuracy of antagonist drugs, integrating experimental data during training, and using other targets outside of nuclear type I receptors.

Autores: Rajeev Jaundoo, J. A. Tuszynski, T. J. A. Craddock

Última actualización: 2024-05-06 00:00:00

Idioma: English

Fuente URL: https://www.biorxiv.org/content/10.1101/2024.05.03.592421

Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.05.03.592421.full.pdf

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares