Simple Science

Scienza all'avanguardia spiegata semplicemente

# Biologia quantitativa# Metodi quantitativi# Fisica chimica

Valutazione del Deep Learning nei metodi di docking farmaceutico

Valutare l'efficacia del deep learning nella precisione e plausibilità del docking molecolare.

― 7 leggere min


Valutare i metodi diValutare i metodi didocking per i farmacifarmaci.sfide nella precisione del docking deiI metodi di deep learning affrontano
Indice

Il docking è una parte fondamentale della scoperta di nuovi farmaci. Consiste nel capire quanto bene una piccola molecola, chiamata ligando, possa attaccarsi a una proteina. Gli scienziati usano informazioni derivate da esperimenti o modelli al computer della proteina e del ligando per prevedere la loro interazione. L'obiettivo è vedere se il ligando può adattarsi bene alla proteina, il che aiuta i ricercatori a scegliere i migliori candidati per i farmaci.

Le previsioni derivate dal docking possono essere utilizzate nello screening virtuale, dove un gran numero di potenziali molecole di farmaci viene testato per capire quali possano funzionare come trattamenti efficaci. I chimici medicinali usano anche queste previsioni per comprendere come una piccola molecola si leghi a una proteina. Questo li aiuta a decidere se la molecola ha il potenziale per essere sviluppata in un farmaco.

I metodi di docking si basano sull'idea che il legame avvenga a causa delle interazioni tra le strutture della proteina e del ligando. Tuttavia, questo processo può essere complicato, quindi i metodi devono trovare un equilibrio tra velocità e accuratezza.

Il Ruolo del Deep Learning nel Docking

La tecnologia di deep learning (DL) sta cambiando il modo in cui si fa il docking. Mostra promesse per rendere i processi di docking più veloci e precisi. Sono stati proposti vari metodi di docking basati su DL, ognuno con modi unici di prevedere come i ligandi si legheranno alle proteine.

I metodi di docking tradizionali includono caratteristiche specifiche nei loro calcoli per garantire che abbiano senso chimico e siano fisicamente plausibili. Ad esempio, questi metodi limitano quanto può muoversi il ligando solo alle parti che possono ruotare. Applicano anche penalità se la proteina e il ligando si sovrappongono in un modo non possibile.

Tuttavia, alcuni dei metodi di docking attuali basati su DL potrebbero trascurare questi controlli importanti. Questo può portare a generare posizioni di legame irrealistiche, anche se mostrano una buona accuratezza in termini di valori di deviazione standard quadratica (RMSD). L'RMSD è un modo comune per misurare quanto una modalità di legame prevista sia vicina a quella reale.

Per valutare realmente le prestazioni dei metodi di docking, abbiamo bisogno di test indipendenti per valutare quanto siano chimicamente e fisicamente plausibili le posizioni previste. Questo aiuterà a identificare cosa manca nei metodi di docking attuali basati su DL e promuoverà lo sviluppo di previsioni migliori.

Importanza della Plausibilità Fisica

Controllare la plausibilità fisica delle previsioni di docking è simile a convalidare i dati strutturali nel Protein Data Bank (PDB). La validazione della struttura verifica se le lunghezze dei legami e gli angoli del ligando corrispondono a strutture chimiche conosciute. Cerca anche scontri sterici, che sono situazioni in cui gli atomi sono troppo vicini.

I controlli progettati inizialmente per convalidare i ligandi aiutano gli utenti a selezionare strutture che probabilmente sono corrette. Nel frattempo, i metodi di docking vengono giudicati in base a quanto bene possono ricreare strutture cristalline, il che significa che i loro output dovrebbero superare anche questi stessi controlli di plausibilità.

Alcuni flussi di lavoro per generare conformazioni di ligandi già includono controlli fisici. Ad esempio, i controlli di geometria misurano quanto le lunghezze dei legami previsti e gli angoli si discostano dai valori ottimali conosciuti. Controlli chimici aggiuntivi possono identificare errori come schemi di legame errati o gruppi funzionali mancanti.

L'obiettivo qui è garantire che le conformazioni di legame previste siano sia chimicamente che fisicamente valide.

Stato Attuale dei Metodi di Docking

La maggior parte dei confronti tra metodi di docking si concentra fortemente sull'RMSD della modalità di legame, e questa tendenza si riflette anche nell'introduzione di nuovi metodi. I cinque metodi di docking basati su DL esaminati mostrano affermazioni di prestazioni migliorate rispetto ai metodi standard, ma queste affermazioni si basano principalmente su valori di RMSD senza controllare la plausibilità fisica.

Per affrontare queste lacune, presentiamo il test suite PoseBusters. Questo suite è progettato per controllare le conformazioni implausibili nelle posizioni previste dei ligandi. Abbiamo usato PoseBusters per valutare gli output di cinque metodi di docking basati su DL insieme a due metodi di docking classici.

I risultati rivelano che, guardando solo all'RMSD, alcuni metodi basati su DL possono sembrare performanti. Tuttavia, considerando il realismo fisico delle loro previsioni, i metodi classici spesso superano gli approcci DL.

Panoramica dei Metodi di Docking Testati

I cinque metodi basati su DL che abbiamo esaminato includono:

  1. DeepDock: Questo metodo impara un potenziale statistico basato sulle distanze tra gli atomi del ligando e i punti sulla superficie della proteina.
  2. DiffDock: Usa tecniche grafiche per eseguire docking cieco, senza necessità di un sito di legame predefinito.
  3. EquiBind: Simile a DiffDock ma si concentra sull'utilizzo di reti neurali grafiche specificamente per il docking.
  4. TankBind: Questo metodo impiega un approccio unico che incorpora la trigonometria per il docking in tasche di legame previste.
  5. Uni-Mol: Utilizza trasformatori progettati per gestire le forme e le orientazioni delle molecole durante il docking.

Due metodi classici inclusi nello studio sono AutoDock Vina e Gold, che hanno una solida reputazione nel campo.

Ognuno dei metodi selezionati aveva dati di addestramento specifici provenienti da vari sottoinsiemi del dataset PDBBind. Questo dataset contiene informazioni su complessi proteina-ligando ed è usato per addestrare questi modelli di docking.

PoseBusters Test Suite

Il test suite PoseBusters consiste in tre sezioni principali:

  1. Validità Chimica: Questo primo gruppo controlla se il ligando previsto rispetta standard e proprietà chimiche riconosciute.
  2. Proprietà Intramolecolari: La seconda sezione testa fattori geomentrico, come lunghezze e angoli dei legami, per assicurarsi che siano entro limiti accettabili.
  3. Interazioni Intermolecolari: L'ultimo gruppo esamina come il ligando interagisce con la proteina e eventuali cofattori, controllando per scontri e sovrapposizioni.

Le posizioni previste che superano tutti i test in PoseBusters sono contrassegnate come 'PB-valid'. Per valutare le previsioni, la suite richiede file di input contenenti i ligandi ridockati, i veri ligandi, e la struttura della proteina.

Valutazione dei Metodi di Docking

Utilizzando il test suite PoseBusters, abbiamo valutato le previsioni generate sia dai metodi di docking basati su DL che da quelli classici. Ridockando i ligandi nelle loro rispettive proteine, siamo stati in grado di valutare quanto bene ogni metodo abbia performato nelle stesse condizioni.

Risultati per l'Astex Diverse Set

Il set Astex Diverse contiene una varietà di complessi proteina-ligando selezionati a mano usati come benchmark per valutare i metodi di docking. I risultati mostrano che, considerando solo l'RMSD, uno dei metodi basati su DL, DiffDock, si comporta meglio. Tuttavia, quando si tiene conto della plausibilità fisica, i metodi tradizionali come Gold e AutoDock Vina si comportano meglio.

In questo contesto, è importante sottolineare che, mentre DiffDock potrebbe generare molte previsioni apparentemente accurate basate su RMSD, molte di queste previsioni non erano fisicamente ragionevoli.

Risultati per il Set di Benchmark PoseBusters

Il set di benchmark PoseBusters consiste in complessi proteina-ligando più difficili che i metodi DL non hanno incontrato durante l'addestramento. In questo set di test, sia Gold che AutoDock Vina continuano a performare bene, mentre metodi DL come DiffDock faticano, evidenziando le loro difficoltà con dati nuovi.

Anche dopo aver effettuato una minimizzazione dell'energia post-docking, che aggiusta le posizioni previste per adattarsi meglio, i risultati suggeriscono che i metodi classici superano ancora i metodi DL in prestazioni e plausibilità.

Limitazioni dei Metodi di Deep Learning

I risultati di entrambi i set indicano che i metodi basati su DL attualmente affrontano sfide con la generalizzazione. Spesso performano bene su dati simili ai loro set di addestramento, ma faticano con complessi sconosciuti. Questo suggerisce un potenziale overfitting a strutture proteiche specifiche presentate durante l'addestramento.

Inoltre, sebbene la minimizzazione dell'energia possa migliorare alcune previsioni dei metodi DL, non raggiungono ancora i livelli di accuratezza dei metodi classici come Gold e AutoDock Vina. Questo sottolinea che aspetti chiave di chimica e fisica rappresentati nei modelli di docking classici non sono completamente catturati dalle tecniche DL attuali.

Conclusione

In sintesi, mentre i metodi di docking basati su DL mostrano promesse, la nostra analisi attraverso il test suite PoseBusters evidenzia aree significative di miglioramento, in particolare nel mantenere la plausibilità fisica e la generalizzazione a dati nuovi. Man mano che questi metodi si sviluppano, incorporare controlli per la coerenza chimica e il realismo fisico sarà essenziale per far progredire il campo della scoperta di farmaci.

Il test suite PoseBusters fornisce uno strumento prezioso per gli sviluppatori, aiutando a identificare le debolezze nei modelli attuali e orientando lo sviluppo di metodi di docking migliori. Questo lavoro in corso mira a promuovere progressi verso previsioni più affidabili nella ricerca di trattamenti efficaci.

Fonte originale

Titolo: PoseBusters: AI-based docking methods fail to generate physically valid poses or generalise to novel sequences

Estratto: The last few years have seen the development of numerous deep learning-based protein-ligand docking methods. They offer huge promise in terms of speed and accuracy. However, despite claims of state-of-the-art performance in terms of crystallographic root-mean-square deviation (RMSD), upon closer inspection, it has become apparent that they often produce physically implausible molecular structures. It is therefore not sufficient to evaluate these methods solely by RMSD to a native binding mode. It is vital, particularly for deep learning-based methods, that they are also evaluated on steric and energetic criteria. We present PoseBusters, a Python package that performs a series of standard quality checks using the well-established cheminformatics toolkit RDKit. Only methods that both pass these checks and predict native-like binding modes should be classed as having "state-of-the-art" performance. We use PoseBusters to compare five deep learning-based docking methods (DeepDock, DiffDock, EquiBind, TankBind, and Uni-Mol) and two well-established standard docking methods (AutoDock Vina and CCDC Gold) with and without an additional post-prediction energy minimisation step using a molecular mechanics force field. We show that both in terms of physical plausibility and the ability to generalise to examples that are distinct from the training data, no deep learning-based method yet outperforms classical docking tools. In addition, we find that molecular mechanics force fields contain docking-relevant physics missing from deep-learning methods. PoseBusters allows practitioners to assess docking and molecular generation methods and may inspire new inductive biases still required to improve deep learning-based methods, which will help drive the development of more accurate and more realistic predictions.

Autori: Martin Buttenschoen, Garrett M. Morris, Charlotte M. Deane

Ultimo aggiornamento: 2023-11-28 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2308.05777

Fonte PDF: https://arxiv.org/pdf/2308.05777

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili