Avanzamenti nella previsione della struttura delle proteine usando modelli linguistici
Nuovi metodi migliorano la previsione della struttura delle proteine a partire dalle sequenze di amminoacidi.
― 6 leggere min
Indice
Le proteine sono molecole essenziali in biologia che svolgono una vasta gamma di funzioni. La forma o struttura di una proteina è fondamentale per la sua funzione. Pertanto, prevedere la struttura di una proteina dalla sua sequenza di amminoacidi è un'area di ricerca importante. Negli ultimi anni, sono stati sviluppati metodi avanzati per migliorare l'accuratezza di queste previsioni.
Un progresso notevole è AlphaFold2, che ha dimostrato risultati impressionanti nella previsione della struttura delle proteine basandosi solo sulle loro sequenze. Questo metodo si basa sull'uso di allineamenti di sequenze multiple che confrontano una data sequenza proteica con altre che sono evolutivamente correlate. Analizzando questi allineamenti, AlphaFold2 può dedurre come gli amminoacidi interagiscono tra loro in una proteina piegata.
Tuttavia, ci sono delle sfide con questo approccio. Per esempio, non tutte le proteine hanno molte sequenze correlate disponibili per il confronto. Inoltre, le proteine che si piegano in soluzione non dipendono necessariamente dalla loro storia evolutiva. Questo ha spinto i ricercatori a sviluppare metodi che possano prevedere la struttura delle proteine usando solo una singola sequenza senza fare affidamento su allineamenti multipli.
Nuovi metodi come OmegaFold, RGN2 e ESMFold sono stati creati per affrontare questo problema. Questi metodi si differenziano da AlphaFold2 in quanto non si basano su dati evolutivi. Invece, utilizzano modelli di linguaggio progettati per comprendere le sequenze proteiche in modo simile a come i modelli di linguaggio comprendono la lingua umana. Questo solleva una domanda importante: questi modelli di linguaggio hanno afferrato i principi del ripiegamento delle proteine basandosi solo su sequenze singole?
Per rispondere a questa domanda, i ricercatori hanno esaminato come funziona ESMFold e hanno proposto diverse ipotesi sul suo funzionamento. Un'ipotesi era che ESMFold avesse appreso la fisica del ripiegamento delle proteine. Tuttavia, le prove hanno mostrato che le sue prestazioni sono strettamente legate al numero di sequenze simili nei suoi dati di addestramento, suggerendo che potrebbe non comprendere veramente il ripiegamento.
Hanno anche notato errori costanti nel modo in cui ESMFold prevedeva le strutture per le isoforme proteiche, che sono variazioni di proteine che possono verificarsi a causa dello splicing alternativo. I ricercatori hanno identificato che ESMFold sembrava utilizzare informazioni da sequenze correlate, portando a previsioni errate. Basandosi sulle loro scoperte, hanno proposto due idee alternative: ESMFold potrebbe abbinare pieghe proteiche complete a nuove sequenze o potrebbe aver memorizzato schemi specifici dai dati di addestramento.
Per testare queste idee, i ricercatori hanno condotto esperimenti per determinare se il modello avesse appreso dipendenze basate su motivi di sequenza. I loro risultati hanno indicato che ESMFold sembra fare riferimento a coppie di frammenti quando effettua previsioni.
Sfide con le isoforme proteiche
Le isoforme proteiche sono variazioni che sorgono quando segmenti di una proteina vengono splicati in modo diverso. Queste variazioni possono essere difficili per i metodi di previsione della struttura perché spesso mantengono un alto grado di somiglianza con i loro omologhi a lunghezza intera ma possono avere forme e funzioni diverse. I ricercatori volevano capire quanto bene i metodi di previsione della struttura attuali, tra cui AlphaFold2, OmegaFold e ESMFold, potessero gestire queste isoforme.
Creando un dataset di isoforme, i ricercatori hanno testato quanto bene i tre metodi di previsione riuscissero a modellare accuratamente le strutture. Un caso ha coinvolto un'isoforma della mioglobina umana, già discussa in letteratura. Le strutture previste da AlphaFold2, OmegaFold e ESMFold mostravano basse differenze rispetto alla struttura nota della mioglobina ma rivelavano alcuni problemi. In particolare, hanno scoperto che parti della proteina che avrebbero dovuto essere sepolte nel nucleo della struttura erano invece esposte, indicando una notevole falla nelle previsioni del modello.
Schemi simili sono emersi per altre isoforme, dove le previsioni spesso indicavano aree di residui idrofobici esposti che non dovrebbero essere visibili in una struttura proteica stabile. Questa tendenza suggeriva che sia i metodi basati su MSA che quelli basati su modelli di linguaggio potessero avere difficoltà a prevedere le forme corrette per sequenze modificate, contraddicendo l'ipotesi che questi modelli comprendano davvero i principi del ripiegamento.
Valutazione dei modelli di linguaggio
Con i problemi riscontrati nelle previsioni delle isoforme, i ricercatori hanno esplorato ulteriormente come ESMFold stesse facendo le sue previsioni. Si sono concentrati su quanto bene ESMFold potesse estrarre informazioni coevolutive senza alcuna guida esterna. Hanno sviluppato un metodo per valutare come il modello linguistico potesse apprendere relazioni tra amminoacidi e determinare previsioni di contatto.
I ricercatori hanno scoperto che la capacità di ESMFold di prevedere quali amminoacidi interagirebbero era sorprendentemente efficace. Analizzando come le mutazioni nella sequenza influenzassero le previsioni del modello, sono riusciti a comprendere meglio le statistiche coevolutive su cui il modello poteva fare affidamento. Questo approccio metodologico ha permesso loro di confrontare le previsioni del modello linguistico con metodi statistici tradizionali utilizzati per analizzare le sequenze proteiche.
La loro analisi ha rivelato che ESMFold poteva generare previsioni di contatto affidabili che erano solo leggermente meno accurate rispetto alle previsioni fatte da metodi più tradizionali. Questo risultato suggerisce che i modelli di linguaggio possono essere strumenti potenti nel campo della previsione della struttura proteica nonostante le loro differenze.
Recupero dei contatti e contesto della sequenza
Per approfondire come ESMFold prevedesse i contatti tra diverse parti di una proteina, i ricercatori hanno sperimentato con il mascheramento di alcune parti della proteina e osservando come il modello si comportasse. Hanno scoperto che il modello era particolarmente bravo a recuperare contatti quando dismascheravano regioni adiacenti al contatto, suggerendo che si basasse molto sul contesto locale della sequenza piuttosto che sull'intera struttura della proteina.
L'efficacia di questo metodo ha messo in evidenza che ESMFold sembra utilizzare un intervallo specifico di residui circostanti per prevedere con precisione le interazioni. In molti casi, dismascherare solo un piccolo numero di residui circostanti ha permesso al modello di recuperare efficacemente la previsione di contatto, sottolineando l'idea che i modelli locali possano essere più critici della struttura complessiva.
Tendenze simili sono state osservate esaminando interazioni tra elementi strutturali più distanti. Il modello ha mantenuto la sua accuratezza attingendo a un contesto di residui flanching, supportando ulteriormente l'idea che il modello si orienta verso motivi piuttosto che pieghe complete.
Conclusione
I progressi fatti nella previsione della struttura proteica attraverso i modelli di linguaggio rappresentano un traguardo significativo nel campo. Anche se modelli come ESMFold mostrano un potenziale promettente, potrebbero non catturare completamente la complessità della fisica del ripiegamento proteico. Invece, sembrano funzionare sfruttando schemi e statistiche appresi da un'abbondanza di dati evolutivi e strutturali disponibili nei loro set di addestramento.
Con il proseguire della ricerca, è fondamentale interpretare questi risultati con attenzione. I modelli di linguaggio potrebbero non essere infallibili o comprendere completamente le dinamiche del ripiegamento, ma offrono un percorso entusiasmante verso previsioni di strutture proteiche accurate basate su sequenze singole. Gli studi futuri probabilmente offriranno ulteriori spunti su come questi modelli operano e come possono essere perfezionati per una maggiore affidabilità nella ricerca biologica. Comprendere i loro punti di forza e debolezza aiuterà a guidare lo sviluppo di strumenti migliori per la previsione della struttura proteica negli anni a venire.
Titolo: Protein language models learn evolutionary statistics of interacting sequence motifs
Estratto: Protein language models (pLMs) have emerged as potent tools for predicting and designing protein structure and function, and the degree to which these models fundamentally understand the inherent biophysics of protein structure stands as an open question. Motivated by a discovery that pLM-based structure predictors erroneously predict nonphysical structures for protein isoforms, we investigated the nature of sequence context needed for contact predictions in the pLM ESM-2. We demonstrate by use of a "categorical Jacobian" calculation that ESM-2 stores statistics of coevolving residues, analogously to simpler modelling approaches like Markov Random Fields and Multivariate Gaussian models. We further investigated how ESM-2 "stores" information needed to predict contacts by comparing sequence masking strategies, and found that providing local windows of sequence information allowed ESM-2 to best recover predicted contacts. This suggests that pLMs predict contacts by storing motifs of pairwise contacts. Our investigation highlights the limitations of current pLMs and underscores the importance of understanding the underlying mechanisms of these models. Significance StatementProtein language models (pLMs) have exhibited remarkable capabilities in protein structure prediction and design. However, the extent to which they comprehend the intrinsic biophysics of protein structures remains uncertain. We present a suite of analyses that dissect how the flagship pLM ESM-2 predicts structure. Motivated by a consistent error of protein isoforms predicted as structured fragments, we developed a completely unsupervised method to uniformly evaluate any protein language model that allows for us to compare coevolutionary statistics to older linear models. We further identified t hat E SM-2 a ppears to have a precise context size that is needed to predict inter-residue contacts. Our study highlights the current limitations of pLMs and contributes to a deeper understanding of their underlying mechanisms, paving the way for more reliable protein structure predictions.
Autori: Sergey Ovchinnikov, Z. Zhang, H. K. Wayment-Steele, G. Brixi, H. Wang, M. Dal Peraro, D. Kern
Ultimo aggiornamento: 2024-01-31 00:00:00
Lingua: English
URL di origine: https://www.biorxiv.org/content/10.1101/2024.01.30.577970
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.01.30.577970.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.