Modelli di Machine Learning nella classificazione dei farmaci
Usare l'apprendimento automatico per classificare i farmaci in modo efficace per ottenere risultati di trattamento migliori.
― 7 leggere min
Indice
Malattie complesse come il cancro possono influenzare molte vie nel corpo, portando i dottori a prescrivere un mix di farmaci per aiutare a trattare i sintomi. Però, usare più farmaci può a volte causare problemi, dato che un farmaco potrebbe cambiare come un altro viene assorbito, diffuso, metabolizzato o eliminato dal corpo. Questi cambiamenti possono portare a brutti effetti collaterali quando i farmaci interagiscono negativamente.
Per ridurre questi rischi, possiamo classificare i farmaci in base alle loro azioni. Per esempio, un farmaco potrebbe essere un agonista, che attiva un bersaglio, o un antagonista, che blocca l'azione del bersaglio. Comprendere meglio come funzionano i farmaci può aiutare anche a ripristinare farmaci esistenti per trattare malattie diverse.
Molti database contengono vasti archivi di composti farmacologici. Queste biblioteche possono essere cercate per trovare farmaci che agiscono su bersagli specifici. Con gli strumenti giusti, i ricercatori possono analizzare questi farmaci più facilmente.
Modelli di Apprendimento Automatico
Negli ultimi anni, l'apprendimento automatico (ML) è diventato popolare per prevedere quanto bene un farmaco potrebbe funzionare con un bersaglio. Gli strumenti di ML possono prevedere la forza con cui un farmaco si lega al suo bersaglio e come il farmaco si adatterà a quel bersaglio. Altri compiti includono lo screening rapido di una libreria di farmaci in base a certe proprietà e persino la previsione delle forme 3D delle proteine basandosi solo sui loro aminoacidi.
Questo studio si concentra sullo sviluppo di modelli ML per prevedere come i farmaci agiscono su bersagli specifici. Abbiamo considerato Agonisti completi, che attivano completamente il loro bersaglio, e vari tipi di Antagonisti, che bloccano o riducono l'azione di altri farmaci legandosi allo stesso sito.
I bersagli scelti per questo studio sono quattro tipi di recettori ormonali: androgeni, estrogeni, glucocorticoidi e progesterone. Sono stati utilizzati diversi metodi di ML, come alberi decisionali, naive Bayes, reti neurali, foreste casuali e macchine a vettori di supporto. Abbiamo addestrato questi modelli per vedere quale si comportava meglio.
Raccolta Dati
Per prima cosa, per raccogliere dati, abbiamo guardato alla ricerca pubblicata per trovare informazioni su agonisti e antagonisti per ciascuno dei quattro recettori. Abbiamo anche raccolto dati di decoy, che sono composti inattivi che non interagiscono con i recettori. I dati per agonisti e antagonisti erano limitati, spesso sotto 100 per ogni recettore, mentre c'erano più di 14.000 voci di decoy.
Il numero ridotto di farmaci attivi potrebbe causare problemi, poiché i dati di addestramento potrebbero non rappresentare completamente i veri farmaci. Per risolvere questo problema, abbiamo espanso il set di dati tramite un processo chiamato data augmentation. Questo ha comportato la creazione di molte variazioni degli agonisti e antagonisti esistenti senza cambiare le loro Caratteristiche essenziali.
Processo di Data Augmentation
Nella data augmentation, i farmaci sono stati prima regolati come necessario-correggendo stati caricati, per esempio. Ogni farmaco è stato poi scomposto in pezzi sovrapposti, e le loro forme sono state modificate usando ricerche casuali. Successivamente, questi pezzi sono stati assemblati insieme per creare molte forme diverse dello stesso farmaco.
Poi, i livelli di energia di queste forme sono stati calcolati per assicurarsi che non avessero interazioni negative tra gli atomi. Infine, le informazioni su queste nuove forme sono state salvate per ulteriori analisi.
Caratteristiche Usate per il ML
Le caratteristiche sono importanti caratteristiche che aiutano a identificare il tipo di farmaco-queste potrebbero includere cose come il peso molecolare o il numero di specifici gruppi di atomi. Per il nostro studio, abbiamo generato un totale di 435 caratteristiche che fornivano varie descrizioni di ogni farmaco, come il numero totale di atomi di carbonio, azoto e zolfo, insieme ad altre proprietà chimiche.
Addestramento dei Modelli ML
L'addestramento dei modelli è stato fatto usando un metodo chiamato k-fold cross-validation, che è un modo per assicurarsi che i modelli vengano testati a fondo. In questo caso, abbiamo usato 10 fold, il che significa che i dati sono stati divisi in 10 parti, e ogni parte è stata usata sia per l'addestramento che per il testing.
Prima dell'addestramento, è stato condotto un processo di selezione delle caratteristiche per mantenere solo le caratteristiche più rilevanti, riducendo qualsiasi rumore e aiutando il modello a imparare meglio. Abbiamo controllato sistematicamente il valore di ciascuna caratteristica per vedere quali contribuivano di più alla performance.
Una volta completato l'addestramento, è stata calcolata la performance media dei modelli per vedere quanto bene classificavano i farmaci come agonisti, antagonisti o decoy. L'accuratezza dei modelli è stata misurata per assicurarsi che si comportassero meglio del semplice indovinare basandosi sul tipo di farmaco più comune nel set di dati.
Performance dei Modelli
Ogni modello è stato valutato in base a quanto bene prevedeva la classificazione dei farmaci per i quattro recettori. Per il recettore degli androgeni, tutti i modelli si sono comportati in modo abbastanza simile nella classificazione dei decoy, ma ci sono state differenze su quanto bene classificavano agonisti e antagonisti. Un modello, la rete neurale, ha fatto particolarmente bene nell'identificare gli agonisti.
Per il recettore degli estrogeni, la maggior parte dei modelli ha faticato a classificare gli agonisti in modo accurato. Il modello ad albero decisionale ha performato male in termini di precisione ma ha fatto un buon lavoro con i decoy. Il modello naive Bayes ha avuto buone performance nella classificazione degli antagonisti.
Guardando il recettore dei glucocorticoidi, alcuni modelli hanno mostrato un richiamo perfetto per gli agonisti, mentre altri hanno faticato significativamente con gli antagonisti. La performance tra i modelli variava, ma alcuni hanno fatto bene nell'identificare i decoy.
Infine, per il recettore del progesterone, la maggior parte dei modelli ha performato costantemente bene, specialmente nella classificazione di agonisti e antagonisti.
Confronto dell'Efficienza dei Modelli
L'efficienza dei modelli è stata considerata anche, poiché il tempo di addestramento è essenziale in contesti pratici. Modelli come naive Bayes e alberi decisionali erano più veloci, mentre altri, come la rete neurale, richiedevano molto più tempo.
In generale, la rete neurale ha mostrato la migliore performance seguita dai modelli foresta casuale e naive Bayes. La macchina a vettori di supporto, più lenta, ha avuto le performance più basse in generale.
Sfide nella Classificazione
Una sfida nota nello studio è stata la scarsa classificazione degli antagonisti rispetto agli agonisti e ai decoy. Il numero di voci di antagonisti è stato un problema significativo, poiché meno esempi hanno reso più difficile per i modelli imparare efficacemente. Le sottili differenze tra agonisti e antagonisti hanno aggiunto alla sfida.
Un altro fattore che ha influenzato la performance è stato che il modello foresta casuale non ha sempre migliorato il modello ad albero decisionale. Questo potrebbe essere dovuto a problemi nel modo in cui i dati sono stati utilizzati per creare ciascun modello.
Conclusione e Direzioni Future
In conclusione, questo studio ha dimostrato che i cinque metodi di ML sono stati in grado di classificare i farmaci come agonisti, antagonisti o decoy in modo efficace. Tutti i modelli hanno superato un semplice metodo di indovinare e si sono dimostrati efficienti per il compito in questione. Tuttavia, c'è ancora margine di miglioramento, in particolare nella classificazione degli antagonisti in modo più efficace.
I prossimi passi prevedono di raccogliere più dati sugli antagonisti e di esplorare caratteristiche aggiuntive per identificare meglio le differenze. Il passaggio verso il ML consente ai ricercatori di utilizzare dati esistenti per sviluppare modelli che richiedono meno potenza computazionale rispetto ai metodi tradizionali. Le tecniche utilizzate in questo studio possono essere applicate anche ad altri bersagli nella scoperta e ripristino dei farmaci, aiutando a trovare trattamenti per varie malattie.
Titolo: Application of Supervised Machine Learning Models for Drug-Action Prediction Towards Nuclear Type I Receptors
Estratto: 1.Interactions between drugs can lead to adverse side effects for patients taking combination therapies to treat complex diseases such as cancer. Knowledge of drug-action towards a receptor would allow these drug-drug interactions to be predicted, and in this study, we trained a total of 5 different machine learning models to classify whether a given drug was an agonist (activator), antagonist (blocker), or a decoy (non-binder) to each of the androgen, estrogen, glucocorticoid, and progesterone receptors. The classification performance and efficiency, measured in training time, of the decision tree, naive Bayes, neural network, random forest, and support vector machine models for each receptor were then compared. The results showed that the decision tree and naive Bayes models were best suited for drug-action prediction across all receptors while only requiring minutes of training time at most. Future work will focus on increasing the prediction accuracy of antagonist drugs, integrating experimental data during training, and using other targets outside of nuclear type I receptors.
Autori: Rajeev Jaundoo, J. A. Tuszynski, T. J. A. Craddock
Ultimo aggiornamento: 2024-05-06 00:00:00
Lingua: English
URL di origine: https://www.biorxiv.org/content/10.1101/2024.05.03.592421
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.05.03.592421.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.