Le previsioni sulla struttura delle proteine di AlphaFold2: intuizioni e sorprese
Uno sguardo alle previsioni di AlphaFold2 e ai possibili fraintendimenti nelle strutture proteiche.
Olivia S. Pratt, Luc G. Elliott, Margaux Haon, Shahram Mesdaghi, Rebecca M. Price, Adam J. Simpkin, Daniel J. Rigden
― 6 leggere min
Indice
Capire come funzionano le proteine è fondamentale per capire come vivono gli organismi e come si manifestano le malattie collegate alle proteine. Gli scienziati spesso studiano le strutture proteiche usando metodi come la cristallografia delle proteine e la microscopia elettronica criogenica (cryoEM). Purtroppo, questi metodi possono richiedere più tempo di quanto ci voglia ad aspettare una consegna di pizza, a volte durano mesi o addirittura anni prima di ottenere risultati. Per questo motivo, i ricercatori sono alla ricerca di modi più veloci per prevedere le strutture proteiche usando i computer.
AlphaFold2
ArrivaNel 2020, c'è stata una grande novità con l'introduzione di AlphaFold2 (AF2), un modello basato sul deep learning lanciato da Google DeepMind. Questo è stato un grande passo avanti nella previsione delle strutture proteiche senza dover dipendere da strutture già note come modelli. È stato come trovare una scorciatoia per risolvere un puzzle difficile! Poco dopo, è stato creato il Database delle Strutture Proteiche AlphaFold (AFDB), che vantava più modelli di quanti ne si potessero immaginare: oltre 214 milioni, per essere precisi.
Come Funziona AlphaFold2
AlphaFold2 si basa su un insieme ampio e diversificato di sequenze proteiche chiamate allineamenti multipli di sequenze (MSA). Analizzando queste sequenze, può determinare quali coppie di amminoacidi sono cambiate insieme nel tempo. Questo aiuta AF2 a prevedere come si piegherà la proteina nello spazio tridimensionale. Oltre a prevedere la struttura, AF2 fornisce due punteggi di qualità. Il primo, chiamato pLDDT, mostra quanto è sicuro il modello riguardo alla struttura locale, mentre il secondo, PAE, dà un'idea di quanto sia affidabile la struttura generale. Per lo più, più è sicura la previsione, meno probabile sarà che tu abbia bisogno di un drink forte dopo aver guardato i risultati.
Studio delle Proteine Ripetitive
AF2 è stato particolarmente utile per studiare le proteine con sequenze ripetitive, conosciute come ripetizioni tandem. Queste proteine sono diverse e possono ripetere un singolo amminoacido o arrivare fino a centinaia di ripetizioni. Sorprendentemente, circa il 14% delle proteine sono composte da queste ripetizioni, ma ancora non sono ben comprese.
Nel 2014, è stato creato un database chiamato RepeatsDB per aiutare a categorizzare e annotare queste strutture ripetitive. Riconosce cinque diverse classi di proteine ripetitive, ognuna con caratteristiche uniche. Alcune classi hanno ripetizioni brevi legate a malattie, mentre altre consistono in strutture fibrose o forme complesse piegate.
Recentemente, i ricercatori hanno esaminato più da vicino le proteine beta-solenoidi, che rientrano in una di queste classi. Queste proteine hanno un modello ripetitivo di beta-strands che si attorcigliano in una forma lunga. Anche se suonano come il miglior twist su una proteina, sono ancora poco comprese.
Il Curioso Caso di Mucin 22
Una scoperta interessante coinvolge una proteina umana chiamata mucina 22. Quando la sequenza ripetitiva di questa proteina è mescolata, AF2 prevede comunque una struttura beta-solenoide molto sicura. Tuttavia, il modello sembra strano, con accumuli interni di residui di acido glutammico che non dovrebbero verificarsi nelle proteine reali. Questo ha sollevato una grande domanda: AF2 potrebbe essere troppo ansioso nel prevedere beta-solenoidi, anche in casi in cui non dovrebbero esistere affatto?
Costruire e Testare Modelli
I ricercatori hanno preso sequenze casuali di 20 amminoacidi e le hanno ripetute per creare modelli, quindi le hanno esaminate tramite AF2. Hanno scoperto che molti dei modelli risultanti erano beta-solenoidi sicuri, anche quando le sequenze erano casuali. I ricercatori hanno classificato questi modelli per vedere se rappresentassero davvero beta-solenoidi.
Hanno trovato che molti di questi modelli erano sicuri ma contenevano caratteristiche strane - come residui carichi negativamente impilati in modi che non avevano senso. Di solito, tali strutture sono nascoste dentro le proteine, non in bella mostra alla luce del sole.
Validare i Modelli
Per assicurarsi che le loro scoperte avessero senso, hanno utilizzato uno strumento software chiamato Verify3D. Questo strumento valuta se le strutture proteiche previste sono fattibili in base ai loro disegni. Mentre alcuni modelli hanno ottenuto punteggi buoni, altri hanno fatto flop, mostrando che la fiducia di AF2 potrebbe essere mal riposta.
In diversi casi, i modelli hanno prodotto previsioni sicure ma contenevano conflitti interni che li rendevano improbabili. Era come un amico entusiasta che cerca di convincerti che un'idea è fantastica, mentre tu vedi chiaramente i difetti.
La Differenza con Altri Modelli
AF2 non era l'unica opzione; modelli più recenti come ESMFold e RoseTTAFold-All-Atom (RFAA) sono stati usati per confrontare i risultati. Sorprendentemente, questi modelli alternativi spesso discordavano dalle previsioni di AF2. Mentre AF2 forniva valutazioni di alta fiducia, ESMFold e RFAA segnalavano frequentemente quei modelli come sospetti.
Sembrava che AF2 avesse un punto cieco unico riguardo le strutture beta-solenoidi, il che portava a interpretare molte sequenze come previsioni sicure che potrebbero non riflettere la realtà.
Non Solo un Evento Casuale
All'inizio, i ricercatori pensavano che le sequenze casuali potessero condividere somiglianze con proteine naturali conosciute, portando AF2 a malinterpretarle. Tuttavia, dopo un ampio controllo contro i database, hanno scoperto che solo un numero ridotto di sequenze produceva colpi significativi. La maggior parte delle sequenze era semplicemente unica.
Dinamiche Molecolari e Instabilità
Per testare la stabilità dei modelli, gli scienziati hanno eseguito simulazioni chiamate dinamiche molecolari su alcuni modelli selezionati. Hanno confrontato modelli ad alta fiducia con accumuli interni carichi con una struttura beta-solenoide naturale.
Cosa è successo? La proteina reale manteneva la sua forma senza problemi, mentre i modelli AF2 si contorcevano, giravano e si comportavano in modo bizzarro come un adolescente ribelle.
Il Quadro Generale
Attraverso tutti questi confronti e test, una cosa è diventata chiara: AlphaFold2 potrebbe ingannare gli scienziati che studiano certe proteine ripetitive. Molte delle previsioni generate erano eccessivamente sicure e irrealistiche. Anche se AF2 è rivoluzionario sotto molti aspetti, i ricercatori devono essere cauti quando si fidano dei suoi risultati, soprattutto per quanto riguarda quelle strutture.
C'è ancora molto da imparare e i ricercatori sono ansiosi di esplorare se questo bias influisca su sequenze più difettose. Hanno intenzione di creare più miscele di tipi di sequenza e vedere se la tendenza di AF2 si mantiene vera anche in quei casi.
Conclusione
AlphaFold2 può essere uno strumento notevole, ma non è privo delle sue stranezze. È come trovare un gadget elegante che fa caffè, ma a volte lo prepara troppo forte per essere piacevole. I risultati di questa ricerca ci ricordano che, mentre la tecnologia può assisterci, dobbiamo valutare criticamente i suoi output e rimanere consapevoli dei suoi limiti.
Man mano che gli scienziati continueranno a imparare da questi modelli, saranno meglio attrezzati per svelare i misteri delle strutture proteiche e, in definitiva, per ottenere una comprensione più chiara dei mattoni della vita. Con più esperimenti e studi all'orizzonte, siamo tutti in attesa di un trattamento mentre il mondo delle strutture proteiche si svela davanti a noi.
Titolo: AlphaFold 2, but not AlphaFold 3, predicts confident but unrealistic beta-solenoid structures for repeat proteins
Estratto: AlphaFold 2 has revolutionised protein structure prediction but, like any new tool, its performance on specific classes of targets, especially those potentially under- represented in its training data, merits attention. Prompted by a highly confident prediction for a biologically meaningless, scrambled repeat sequence, we assessed AF2 performance on sequences comprised perfect repeats of random sequences of different lengths. AF2 frequently folds such sequences into {beta}-solenoids which, while ascribed high confidence, contain unusual and implausible features such as internally stacked and uncompensated charged residues. A number of sequences confidently predicted as {beta}-solenoids are predicted by other advanced methods as intrinsically disordered. The instability of some predictions is demonstrated by Molecular Dynamics. Importantly, other Deep Learning-based structure prediction tools predict different structures or {beta}-solenoids with much lower confidence suggesting that AF2 alone has an unreasonable tendency to predict confident but unrealistic {beta}-solenoids for perfect repeat sequences. The potential implications for structure prediction of natural (near-)perfect sequence repeat proteins are also explored.
Autori: Olivia S. Pratt, Luc G. Elliott, Margaux Haon, Shahram Mesdaghi, Rebecca M. Price, Adam J. Simpkin, Daniel J. Rigden
Ultimo aggiornamento: 2024-10-30 00:00:00
Lingua: English
URL di origine: https://www.biorxiv.org/content/10.1101/2024.10.30.621056
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.10.30.621056.full.pdf
Licenza: https://creativecommons.org/licenses/by-nc/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.