Progressi nella previsione dei siti allosterici usando l'AI
Nuovi metodi di machine learning migliorano le previsioni dei siti allosterici nelle proteine.
― 5 leggere min
Indice
L'allosteria è un modo in cui le proteine regolano la loro attività. Succede quando una molecola, chiamata ligando, si lega a un punto della proteina che non è il suo sito principale d'azione. La maggior parte dei farmaci funziona attaccandosi direttamente al sito principale di un proteina. Tuttavia, gli scienziati credono che tutte le proteine mostrino qualche forma di allosteria. Se una certa proteina non ha ancora mostrato questo comportamento, potrebbe essere a causa della mancanza di condizioni specifiche come le molecole giuste o certi cambiamenti nella struttura della proteina.
I farmaci che utilizzano l'allosteria sono spesso meglio tollerati dai pazienti rispetto a quelli che si attaccano al sito principale d'azione. Al contrario, i siti principali tendono a rimanere gli stessi tra proteine simili, il che significa che un farmaco potrebbe influenzare diverse proteine correlate. I farmaci allosterici, d'altra parte, si attaccano a diverse aree sulla superficie della proteina, che sono meno coerenti tra le proteine correlate. Questo apre la strada alla creazione di trattamenti efficaci per proteine difficili da colpire direttamente.
Usare il Machine Learning per Prevedere i Siti Allosterici
Le recenti innovazioni riguardano l'uso di metodi di machine learning per prevedere i siti allosterici sulle proteine. Sono stati sviluppati strumenti specifici per identificare tasche nelle strutture proteiche dove potrebbero avvenire queste interazioni. Alcuni metodi popolari per questo includono PASSer e i suoi aggiornamenti, che identificano queste aree esaminando le strutture delle proteine.
Tuttavia, i metodi precedenti non hanno sfruttato appieno modelli avanzati che apprendono da grandi quantità di dati proteici. Per migliorare le previsioni, i ricercatori hanno messo a punto un tipo specifico di modello linguistico chiamato ProtBERT su un ampio dataset focalizzato sulle proteine allosteriche. Questo modello è stato addestrato per svolgere due compiti contemporaneamente: prevedere i residui allosterici e determinare la struttura della proteina. L'idea dietro a questo approccio duale è che imparare sulla struttura della proteina potrebbe aiutare il modello a identificare meglio i siti allosterici.
Il Processo e i Dati Utilizzati
L'AlloSteric Database è una fonte di informazioni regolarmente aggiornata su proteine che mostrano comportamenti allosterici. Nel preparare i dati per l'addestramento del modello, i ricercatori hanno pulito il dataset e filtrato le proteine con meno del 30% di somiglianza. In totale, si sono concentrati su 207 proteine uniche, dividendo in set di addestramento e di test.
Ogni proteina distinta ha tipicamente circa 20 tasche dove potrebbe avvenire l'allosteria. Tuttavia, c'erano molti meno campioni positivi, con solo circa l'8% delle tasche identificate come allosteriche. Questo squilibrio ha reso particolarmente difficile prevedere i siti allosterici.
L'approccio ha coinvolto l'alimentazione delle strutture delle proteine e delle loro sequenze in uno strumento chiamato FPocket, che identifica le tasche. Accanto a questo, il modello ProtBERT è stato messo a punto per estrarre caratteristiche rilevanti dalle sequenze proteiche. Le caratteristiche di FPocket e ProtBERT sono state poi combinate per addestrare modelli più complessi come XGBoost e sistemi di Machine Learning Automatizzati (AutoML).
Addestrare i Modelli
XGBoost e AutoML sono stati addestrati utilizzando combinazioni di caratteristiche dei due metodi menzionati. Questo ha comportato la classificazione se una tasca nella proteina fosse allosterica o meno. XGBoost è un modello basato su alberi decisionali noto per la sua efficienza, e AutoML automatizza il processo di selezione e addestramento del modello, rendendo più facile trovare il modello con le migliori prestazioni.
Nella valutazione delle prestazioni del modello, l'attenzione è stata posta sul punteggio F1, che considera sia la precisione che il richiamo, rendendolo una scelta migliore per dataset sbilanciati come questo. È stato osservato un notevole miglioramento nei modelli che utilizzavano le caratteristiche ottimizzate di ProtBERT rispetto a quelli che utilizzavano solo caratteristiche di base.
Risultati e Analisi
Dopo l'addestramento, il modello ha dimostrato una forte capacità di classificare le tasche allosteriche. Il modello ProtBERT ottimizzato ha visto un aumento delle prestazioni rispetto alla sua forma originale. Il modello con le migliori prestazioni ha ottenuto un impressionante punteggio F1. Questo suggerisce che la combinazione di caratteristiche strutturali e caratteristiche del modello linguistico ha migliorato efficacemente le previsioni.
I risultati sono stati ulteriormente validati tramite uno studio di caso su una proteina specifica nota per avere siti allosterici. Il modello ha previsto correttamente la tasca allosterica principale con alta fiducia, dimostrando che il modello può identificare in modo affidabile i siti rilevanti nelle proteine.
Visualizzare i Meccanismi di Attenzione del Modello
Per capire come il modello fa le sue previsioni, i ricercatori hanno visualizzato i meccanismi di attenzione del modello ProtBERT. Questa visualizzazione aiuta a mostrare quali parti della proteina il modello considera mentre fa previsioni. Nei livelli più profondi del modello, l'attenzione tende a essere diretta verso i residui cruciali per le interazioni allostiche.
Questa analisi ha rivelato che il modello non guarda solo alla distanza tra vari residui, ma considera anche i loro ruoli specifici nel processo allosterico. È stato osservato che il modello dà più peso ai residui conservati, che giocano un ruolo significativo nell'interazione con altre molecole che influenzano la funzionalità della proteina.
L'Importanza e il Futuro della Ricerca sull'Allosteria
Lo studio evidenzia l'importanza di comprendere l'allosteria nelle proteine, poiché può aprire la strada allo sviluppo di farmaci migliori con meno effetti collaterali. Utilizzando tecniche di machine learning sofisticate, i ricercatori possono identificare questi siti allosterici in modo più efficiente rispetto ai metodi precedenti.
La ricerca futura potrebbe concentrarsi su ulteriori miglioramenti di questi modelli. L'uso di modelli linguistici più avanzati e dataset più ampi potrebbe aumentare la precisione delle previsioni, portando infine a trattamenti più efficaci per varie malattie legate a malfunzionamenti proteici.
Conclusione
In sintesi, l'allosteria è un aspetto critico della funzione proteica che ha importanti implicazioni nella progettazione di farmaci. Attraverso l'uso di tecniche innovative di machine learning e grandi dataset proteici, i ricercatori stanno facendo progressi nell'identificare siti allosterici, fornendo informazioni preziose per lo sviluppo farmaceutico. Raffinando questi approcci, il campo può trarre vantaggio da capacità predittive migliorate, aprendo la strada a nuove strategie terapeutiche e migliori risultati per i pazienti.
Titolo: DeepAllo: Allosteric Site Prediction using Protein Language Model (pLM) with Multitask Learning
Estratto: Allostery, the process by which binding at one site perturbs a distant site, is being rendered as a key focus in the field of drug development with its substantial impact on protein function. The identification of allosteric sites is a challenging task and several techniques have been developed, including Machine Learning (ML) to predict allosteric sites that utilize both static and pocket features. Our work, DeepAllo, is the first study that combines fine-tuned protein language model (pLM) with FPocket features and shows an increase in prediction performance of allosteric sites over previous studies. The pLM model was fine-tuned on Allosteric Dataset (ASD) in Multitask Learning (MTL) setting and was further used as a feature extractor to train XGBoost and AutoML models. The best model predicts allosteric pockets with 89.66% F1 score and 90.5% of allosteric pockets in the top 3 positions, outperforming previous results. A case study has been performed on proteins with known allosteric sites, which shows the proof of our approach. Moreover, an effort was made to explain the pLM by visualizing its attention mechanism among allosteric and non-allosteric residues.
Autori: Attila Gursoy, M. Khokhar, O. Keskin
Ultimo aggiornamento: 2024-10-13 00:00:00
Lingua: English
URL di origine: https://www.biorxiv.org/content/10.1101/2024.10.09.617427
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.10.09.617427.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.