Simple Science

Scienza all'avanguardia spiegata semplicemente

# La biologia# Biofisica

Avanzamenti nella previsione delle proteine usando il machine learning

Nuovi modelli prevedono la stabilità delle proteine e generano sequenze in modo efficace.

― 7 leggere min


Scoperta nella predizioneScoperta nella predizionedelle proteineproteiche superiori.di stabilità e genera sequenzeIl nuovo modello migliora le previsioni
Indice

Le proteine sono molecole fondamentali per tutti gli organismi viventi e svolgono un sacco di funzioni diverse. La loro capacità di lavorare bene dipende in gran parte dalla loro forma, o struttura. Quando una proteina si ripiega nella sua forma specifica, può fare bene il suo lavoro, mentre una proteina mal ripiegata potrebbe non funzionare affatto. Quindi, capire come prevedere la struttura di una proteina e la sua Stabilità è fondamentale in campi come la medicina e la biotecnologia.

Negli ultimi anni, il machine learning si è affermato come uno strumento potente nella biologia. Permette agli scienziati di prevedere come si comporteranno le proteine basandosi su grandi dataset che contengono informazioni su varie sequenze e strutture proteiche. Un avanzamento notevole in questo campo arriva da modelli che apprendono senza supervisione diretta, il che significa che possono trovare schemi nei dati senza una guida esplicita.

Il Ruolo dei Grandi Dataset

I dataset come UniProt e il Protein Data Bank (PDB) sono grandi collezioni di dati proteici che aiutano ad addestrare i modelli di machine learning. Contengono un sacco di informazioni sulle proteine conosciute, incluse le loro sequenze e strutture. I modelli di machine learning addestrati su questi dataset possono identificare relazioni e schemi che potrebbero non essere evidenti a prima vista.

Alcuni modelli, noti come modelli di linguaggio informati dalla struttura, possono generare sequenze di proteine che hanno buone possibilità di ripiegarsi in strutture specifiche. Questi modelli hanno mostrato risultati promettenti, aiutando i ricercatori a migliorare le proprietà delle proteine come l'Affinità di legame - la forza dell'interazione tra due molecole - e la stabilità. Questo è sorprendente perché questi modelli non apprendono esplicitamente queste proprietà durante il loro addestramento.

Sfide nella Predizione delle Proteine

Anche se questi modelli sono potenti, hanno delle limitazioni. Un problema è che a volte faticano a prevedere con precisione la stabilità delle proteine. La stabilità si riferisce a quanto bene una proteina mantiene la sua forma in varie condizioni. I modelli addestrati su strutture naturali delle proteine possono mostrare alcune capacità di prevedere la stabilità, ma in generale performano peggio rispetto a modelli specificamente progettati per quel compito.

Questa discrepanza nasce perché i processi evolutivi selezionano le proteine in base alla stabilità tra altri fattori. Quindi, un modello addestrato solo su dati generali delle proteine potrebbe perdere alcuni dettagli critici riguardo alla stabilità.

Migliorare le Prestazioni del Modello

Per migliorare le prestazioni dei modelli di machine learning, i ricercatori stanno cercando modi per fornire informazioni più specifiche per il compito pur beneficiando della vasta conoscenza acquisita durante l'addestramento non supervisionato. Un approccio è usare un metodo chiamato supervised finetuning (SFT). In SFT, il modello viene ulteriormente addestrato su un set curato di esempi che hanno una specifica proprietà di interesse, come la stabilità.

Sebbene SFT possa migliorare le prestazioni di un modello in compiti specifici, porta con sé il rischio di overfitting. Questo significa che il modello potrebbe diventare troppo specializzato sugli esempi che vede durante il finetuning, perdendo la conoscenza generale acquisita dal suo addestramento iniziale.

Un altro metodo che si sta esplorando è chiamato Direct Preference Optimization (DPO). Questo metodo consente ai modelli di apprendere da esempi che condividono somiglianze superficiali ma differiscono in modi importanti legati al compito in questione. Questo è particolarmente rilevante in biologia, dato che anche piccoli cambiamenti nella sequenza di una proteina possono influenzare significativamente la sua stabilità e struttura.

DPO e la Sua Applicazione

DPO sfrutta esempi a coppie per addestrare il modello in modo efficace. Presentando al modello informazioni su quali proteine sono più stabili di altre, i ricercatori possono guidarlo verso previsioni di stabilità più accurate. Questo metodo consente al modello di utilizzare l'intero paesaggio di fitness, migliorando la sua capacità di fare previsioni sulla stabilità.

Grazie a DPO, i ricercatori possono creare dataset migliorati e sviluppare modelli migliori per compiti di stabilità delle proteine. Possono istruire i modelli a discernere sottili differenze nella stabilità basate su specifici cambiamenti negli amminoacidi, portando a previsioni più accurate.

Utilizzare DPO per Addestrare i Modelli

In uno studio recente, DPO è stato utilizzato per migliorare un modello preaddestrato chiamato ESM-IF1. Questo modello si basa su informazioni su strutture e sequenze proteiche. I ricercatori miravano a creare una nuova versione, chiamata ProteinDPO, che incorporasse informazioni sulla stabilità utilizzando dati sperimentali da un dataset completo di varianti proteiche.

I risultati sono stati notevoli. ProteinDPO ha superato sia il modello originale ESM-IF1 sia una versione che ha subito un normale finetuning supervisionato. Questo nuovo modello ha performato bene non solo nella previsione dei cambiamenti di stabilità dovuti a singole mutazioni ma ha anche mostrato prestazioni competitive in altri compiti correlati, come la valutazione della stabilità di proteine più grandi e complessi anticorpali.

Valutazione delle Prestazioni di ProteinDPO

Sono stati condotti vari test per valutare le prestazioni di ProteinDPO. Questo includeva il benchmarking rispetto ad altri modelli, come ThermoMPNN, noto per la sua accuratezza nelle previsioni di stabilità. Le previsioni di ProteinDPO sono state valutate in base alla loro correlazione con i cambiamenti di stabilità misurati sperimentalmente attraverso vari dataset.

Rispetto ai modelli addestrati specificamente sulla stabilità, ProteinDPO ha mostrato una capacità predittiva migliorata. Ha dimostrato forti performance nell'identificare come singole mutazioni influenzano la stabilità, evidenziando la sua capacità di generalizzare le conoscenze apprese durante l'addestramento.

Applicazioni Più Ampie di ProteinDPO

Oltre alle sue impressionanti capacità di previsione della stabilità, l'efficacia di ProteinDPO si estende ad altri compiti importanti nella ricerca sulle proteine. Ad esempio, ha mostrato risultati promettenti nella previsione delle affinità di legame, fondamentali per comprendere le interazioni tra proteine e altre molecole.

Questo è significativo perché previsioni accurate delle affinità di legame possono aiutare i ricercatori a progettare farmaci e proteine terapeutiche migliori. ProteinDPO è stato in grado di fornire indicazioni sulla forza di legame di vari complessi proteici, dimostrando così la sua versatilità come strumento predittivo.

Generare Nuove Sequenze di Proteine

Oltre a valutare le proteine esistenti, ProteinDPO può anche generare nuove sequenze di proteine che probabilmente saranno più stabili rispetto ai loro omologhi nativi. Questa è un'applicazione entusiasmante, poiché consente ai ricercatori di esplorare la progettazione di proteine con proprietà migliorate. Dato la complessità delle interazioni proteiche, generare sequenze che mantengano la stabilità pur differendo dall'originale può essere una sfida.

Sfruttando DPO, i ricercatori sono stati in grado di generare sequenze per varie strutture proteiche, valutando la loro stabilità prevista utilizzando tecniche computazionali. Le sequenze generate hanno mostrato caratteristiche promettenti, suggerendo che questo metodo potrebbe portare alla progettazione di proteine più efficaci per vari applicazioni.

Conclusione

I progressi nel machine learning, in particolare attraverso modelli come ProteinDPO, rappresentano un passo avanti significativo nella nostra capacità di prevedere e progettare proteine. Grazie all'uso di grandi dataset e metodi di addestramento innovativi come DPO, i ricercatori possono creare modelli che non solo valutano la stabilità in modo più accurato, ma generano anche nuove sequenze proteiche.

Queste innovazioni hanno un grande potenziale per campi come la progettazione di farmaci e la biologia sintetica, dove capire e manipolare la stabilità e la funzione delle proteine è cruciale. Man mano che questo campo continua a evolversi, le possibilità di utilizzare il machine learning per affrontare complessi quesiti biologici cresceranno, aprendo la strada a soluzioni più efficaci e mirate in varie applicazioni.

Direzioni Future

L'esplorazione di DPO e la sua integrazione in modelli generativi come ProteinDPO aprono affascinanti strade per ulteriori ricerche. Studi futuri potrebbero approfondire l'allineamento dei modelli con dataset che riflettono altre proprietà oltre alla stabilità. L'obiettivo è vedere se approcci simili possono fornire intuizioni generalizzabili in diverse aree della ricerca sulle proteine.

I ricercatori potrebbero anche migliorare i modelli attuali incorporando dataset più diversi o affinando i processi di addestramento. Questo potrebbe portare a previsioni ancora migliori e a una generazione più efficiente di proteine con caratteristiche desiderate.

Mentre continuiamo a spingere i confini di ciò che il machine learning può raggiungere nelle scienze biologiche, emergeranno nuove innovazioni e metodi, arricchendo ulteriormente la nostra comprensione del comportamento delle proteine e ampliando le possibilità nella biotecnologia e nella medicina.

Fonte originale

Titolo: Aligning protein generative models with experimental fitness via Direct Preference Optimization

Estratto: Generative models trained on unlabeled protein datasets have demonstrated a remarkable ability to predict some biological functions without any task-specific training data. However, this capability does not extend to all relevant functions and, in many cases, the unsupervised model still underperforms task-specific, supervised baselines. We hypothesize that this is due to a fundamental "alignment gap" in which the rules learned during unsupervised training are not guaranteed to be related to the function of interest. Here, we demonstrate how to provide protein generative models with useful task-specific information without losing the rich, general knowledge learned during pretraining. Using an optimization task called Direct Preference Optimization (DPO), we align a structure-conditioned language model to generate stable protein sequences by encouraging the model to prefer stabilizing over destabilizing variants given a protein backbone structure. Our resulting model, ProteinDPO, is the first structure-conditioned language model preference-optimized to experimental data. ProteinDPO achieves competitive stability prediction and consistently outperforms both unsupervised and finetuned versions of the model. Notably, the aligned model also performs well in domains beyond its training data to enable absolute stability prediction of large proteins and binding affinity prediction of multi-chain complexes, while also enabling single-step stabilization of diverse backbones. These results indicate that ProteinDPO has learned generalizable information from its biophysical alignment data.

Autori: Brian Hie, T. Widatalla, R. Rafailov

Ultimo aggiornamento: 2024-05-21 00:00:00

Lingua: English

URL di origine: https://www.biorxiv.org/content/10.1101/2024.05.20.595026

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.05.20.595026.full.pdf

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Articoli simili