Simple Science

Scienza all'avanguardia spiegata semplicemente

# Biologia quantitativa# Apprendimento automatico# Biomolecole

Progressi nella scoperta di farmaci grazie all'apprendimento automatico

I metodi di machine learning migliorano l'efficienza nell'identificare nuovi candidati farmaceutici da grandi librerie di composti.

― 6 leggere min


Apprendimento automaticoApprendimento automaticonella scoperta di farmacifarmaceutici.nell'identificazione dei candidatiNuovi metodi migliorano l'efficienza
Indice

Nella scoperta di farmaci, trovare nuovi medicinali inizia con lo screening di un gran numero di composti chimici. Questo processo prevede di testare molti potenziali farmaci per vedere quali potrebbero funzionare in modo efficace. Un metodo chiave per lo screening di questi composti si chiama screening virtuale. Questo aiuta i ricercatori a identificare quali composti potrebbero legarsi bene a una proteina target associata a una malattia, come il cancro o l’Alzheimer. Lo screening virtuale può far risparmiare molto tempo e risorse rispetto agli esperimenti di laboratorio tradizionali.

La Sfida delle Grandi Librerie di Composti

Con l’aumento dei composti disponibili, è cresciuta anche la sfida di scremarli. Negli ultimi anni, i database di composti sono passati da milioni a miliardi di opzioni. Con una scala così grande, diventa poco pratico testare ogni composto individualmente usando metodi standard, che possono essere lenti e richiedere molta potenza di calcolo.

Ad esempio, un noto database di composti è passato da 120 milioni nel 2015 a oltre 1 miliardo entro il 2020. Questo aumento significa che i ricercatori devono trovare modi più efficienti per identificare i candidati farmaci promettenti all’interno di queste vastissime librerie.

Nuovi Approcci: Apprendimento Attivo e Apprendimento Automatico

Per affrontare questa sfida, i ricercatori si stanno rivolgendo a metodi avanzati come l'apprendimento attivo e l'apprendimento automatico. Queste tecniche permettono loro di ridurre in modo intelligente il numero di composti da valutare, trovando comunque i candidati più promettenti.

L'apprendimento attivo è un processo in cui un modello impara dai dati che ha già visto e usa quella conoscenza per decidere quali nuovi punti dati (o composti) valutare successivamente. Questo aiuta a concentrare le risorse sui composti più probabili di avere successo senza dover testare ogni opzione in modo esaustivo.

I modelli di apprendimento automatico, come le reti neurali grafiche e i modelli basati su trasformatori, hanno mostrato promesse nel prevedere quali composti potrebbero essere efficaci. Questi modelli possono analizzare il piccolo insieme di composti che sono già stati testati e usare quell'informazione per guidare la selezione di ulteriori composti da testare.

Pre-addestramento dei Modelli per Previsioni Migliori

Un passo importante nell'utilizzo dell'apprendimento automatico per la scoperta di farmaci è il pre-addestramento dei modelli. Il pre-addestramento coinvolge l'insegnamento ai modelli su grandi dataset che li aiutano a imparare modelli e relazioni rilevanti per prevedere le proprietà di nuovi composti.

Ad esempio, i modelli a trasformatore possono essere pre-addestrati utilizzando una grande collezione di strutture chimiche rappresentate in un formato chiamato SMILES. Questa preparazione consente ai modelli di sviluppare una migliore comprensione delle proprietà chimiche, che può portare a previsioni più accurate durante il processo di screening.

Testare Nuovi Metodi

I ricercatori hanno testato diversi modelli di apprendimento automatico per la loro efficacia nell'identificare potenziali candidati farmaci da librerie molto grandi. In uno studio, sono stati valutati due diversi tipi di modelli pre-addestrati: un modello basato su trasformatori chiamato MoLFormer e una rete neurale grafica chiamata MolCLR.

Questi modelli sono stati utilizzati all'interno di un framework chiamato MolPAL, che include anche metodi per selezionare quali composti valutare in base alle previsioni fatte dai modelli. Utilizzando questo framework, i ricercatori sono stati in grado di esaminare quanto bene questi modelli si siano comportati nell'identificare candidati farmaci di successo sia all'interno di librerie più piccole che più grandi di composti.

Risultati dei Test

I risultati dei test di questi modelli sono stati incoraggianti. Per collezioni più piccole di composti, MoLFormer ha costantemente superato un modello chiamato D-MPNN, che era precedentemente considerato una delle migliori opzioni.

Oltre a queste librerie più piccole, i modelli sono stati testati anche in un database più grande contenente 99,5 milioni di composti. Di nuovo, MoLFormer e MolCLR hanno dimostrato la loro capacità di recuperare una percentuale più alta dei migliori composti rispetto a D-MPNN.

È interessante notare che l'utilizzo di metodi di apprendimento attivo ha consentito ai ricercatori di effettuare uno screening efficiente solo di una piccola frazione dei composti totali nella libreria, identificando comunque un gran numero dei migliori candidati. I ricercatori hanno scoperto che utilizzare un batch più piccolo di composti per la selezione ha migliorato i tassi complessivi di recupero dei candidati di successo.

Funzioni di Acquisizione: Greedy vs. UCB

Come parte del framework di apprendimento attivo, i ricercatori hanno utilizzato diverse strategie o "funzioni di acquisizione" per determinare quali composti testare successivamente. Due strategie sono state comunemente valutate: la strategia greedy e la strategia upper confidence boundary (UCB).

La strategia greedy seleziona il prossimo batch in base ai punteggi previsti più alti, mentre la strategia UCB tiene conto sia dei punteggi previsti che dell'incertezza associata a quelle previsioni. Anche se la strategia greedy ha funzionato bene in molti casi, i ricercatori hanno scoperto che la strategia UCB poteva talvolta portare a risultati migliori, in particolare per garantire diversità tra i composti selezionati.

I ricercatori hanno anche notato che regolare certi parametri, come quelli relativi all'incertezza, poteva ulteriormente migliorare l'efficacia dei modelli in termini di recupero di candidati diversi e ad alto punteggio.

Applicabilità al Design di Farmaci Basato su Ligandi

Oltre alla scoperta di farmaci basata su strutture, dove l'attenzione è su come i composti si adattino alle proteine target, i metodi studiati sono anche applicabili al design di farmaci basato su ligandi. Questo approccio si basa sull'identificazione di composti simili a noti farmaci di successo, suggerendo che anche quei composti potrebbero essere efficaci.

Uno strumento usato nel design basato su ligandi è ROCS, che misura la somiglianza tra le forme di diversi composti. I ricercatori hanno esteso la metodologia per valutare quanto bene i modelli pre-addestrati potessero identificare composti simili in una grande libreria.

I risultati hanno mostrato che MoLFormer ha superato altri modelli in termini di recupero dei composti più promettenti in base alla somiglianza delle forme. I vantaggi dell'utilizzo della strategia UCB sono stati anche evidenti in questo contesto, portando a tassi di recupero più elevati e maggiore stabilità nelle prestazioni tra i test.

Conclusione

I progressi nell'apprendimento automatico e nell'apprendimento attivo stanno aprendo la strada a processi di scoperta di farmaci più efficienti. Utilizzando modelli pre-addestrati come MoLFormer e MolCLR, i ricercatori possono migliorare notevolmente la loro capacità di identificare potenziali candidati farmaci da vasti archivi di composti.

I risultati iniziali indicano che questi modelli non solo forniscono previsioni migliori, ma migliorano anche l'efficienza complessiva degli sforzi di scoperta di farmaci, rendendo possibile navigare tra miliardi di composti per trovare i candidati più promettenti.

Man mano che la scoperta di farmaci continua a evolversi, l'integrazione delle tecniche di apprendimento automatico diventerà probabilmente uno strumento essenziale per i ricercatori che mirano a sviluppare nuovi medicinali in modo più rapido ed efficace.

Fonte originale

Titolo: Large-scale Pretraining Improves Sample Efficiency of Active Learning based Molecule Virtual Screening

Estratto: Virtual screening of large compound libraries to identify potential hit candidates is one of the earliest steps in drug discovery. As the size of commercially available compound collections grows exponentially to the scale of billions, brute-force virtual screening using traditional tools such as docking becomes infeasible in terms of time and computational resources. Active learning and Bayesian optimization has recently been proven as effective methods of narrowing down the search space. An essential component in those methods is a surrogate machine learning model that is trained with a small subset of the library to predict the desired properties of compounds. Accurate model can achieve high sample efficiency by finding the most promising compounds with only a fraction of the whole library being virtually screened. In this study, we examined the performance of pretrained transformer-based language model and graph neural network in Bayesian optimization active learning framework. The best pretrained models identifies 58.97% of the top-50000 by docking score after screening only 0.6% of an ultra-large library containing 99.5 million compounds, improving 8% over previous state-of-the-art baseline. Through extensive benchmarks, we show that the superior performance of pretrained models persists in both structure-based and ligand-based drug discovery. Such model can serve as a boost to the accuracy and sample efficiency of active learning based molecule virtual screening.

Autori: Zhonglin Cao, Simone Sciabola, Ye Wang

Ultimo aggiornamento: 2023-09-20 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2309.11687

Fonte PDF: https://arxiv.org/pdf/2309.11687

Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili