Simple Science

Scienza all'avanguardia spiegata semplicemente

# La biologia# Bioinformatica

Progressi nel Sostituzione Molecolare per Strutture Proteiche

Lo studio esplora l'impatto di AlphaFold 2 sulla determinazione della struttura proteica tramite Sostituzione Molecolare.

― 7 leggere min


Struttura proteicaStruttura proteicarisolta con l'IAproblemi di fase.delle proteine e le soluzioni aiAlphaFold 2 trasforma la modellazione
Indice

La Sostituzione Molecolare (MR) è un metodo usato per aiutare a determinare la struttura di grandi molecole, come le proteine, risolvendo un problema complesso conosciuto come il problema di fase. Questo problema nasce perché è difficile ottenere informazioni complete su come sono disposti gli atomi in una molecola solo dai dati raccolti durante la cristallografia a raggi X. La MR è diventata la tecnica principale per affrontare questa questione nel mondo della determinazione della struttura macromolecolare.

Per usare la MR, gli scienziati cominciano cercando un modello di ricerca simile alla nuova struttura proteica che stanno studiando. Questo modello di ricerca viene poi inserito nella nuova struttura, permettendo ai ricercatori di calcolare le fasi iniziali, che portano alla creazione di Mappe di densità elettronica. Queste mappe fungono da guida per identificare la posizione degli atomi nella proteina, consentendo ulteriori affinamenti e analisi.

Tradizionalmente, il modello di ricerca veniva spesso derivato da un’altra proteina strettamente correlata. Tuttavia, i progressi nella bioinformatica strutturale hanno introdotto nuove tecniche per migliorare questi modelli. Questo include l'uso di piccole parti di proteine identificate prevedendo la loro struttura secondaria, oltre ad impiegare vari approcci per scoprire sottostrutture utili in proteine più lontanamente correlate.

Recentemente, i metodi di deep learning, in particolare AlphaFold 2, hanno cambiato drasticamente il panorama della MR. Questi metodi forniscono previsioni altamente accurate delle strutture proteiche, rendendo molto più facile risolvere il problema di fase per molti obiettivi che in precedenza erano considerati difficili. Spesso, un modello non modificato di AlphaFold 2 può servire come modello di ricerca adeguato, anche se i ricercatori hanno riconosciuto l'importanza di affinare questi modelli rimuovendo sezioni meno sicure, soprattutto nelle proteine multi-dominio.

In questo studio, l’obiettivo è scoprire quanto bene i modelli di ricerca provenienti da AlphaFold 2 e altri metodi possano risolvere strutture recentemente depositate che sono state determinate usando la diffrazione anomala a lunghezza d'onda singola (SAD). Analizzando un insieme più ampio di casi, lo studio mira a identificare le caratteristiche che rendono alcune strutture più facili o più difficili da risolvere con la MR.

Selezione degli Obiettivi

Per questa ricerca, gli obiettivi selezionati erano strutture proteiche che utilizzavano SAD e che erano state depositate in un arco di tempo specifico. Sono stati analizzati un totale di 408 casi, con alcuni esclusi a causa della presenza di aminoacidi modificati o innaturali. Questo insieme di casi offre spunti sui tipi di strutture che possono essere risolte utilizzando i metodi attuali.

Modellazione e Caratterizzazione delle Sequenze Obiettivo

Le sequenze proteiche obiettivo sono state modellate utilizzando sia AlphaFold 2 che la sua variante, ColabFold. Anche se entrambi i metodi si basano su tecnologie simili, differiscono nel modo in cui generano gli Allineamenti Multipli di Sequenza (MSA), che sono cruciali per una modellazione efficace. AlphaFold 2 utilizza diversi database consolidati per MSA, mentre ColabFold impiega un metodo più veloce che consente un'elaborazione più efficiente.

La profondità degli MSA è misurata da un valore chiamato Neff, che rappresenta il numero efficace di sequenze. Ogni obiettivo è stato classificato in base alla sua struttura secondaria prevista, aiutando i ricercatori a capire se la proteina era composta principalmente da eliche alfa, fogli beta, o un mix di entrambi.

Elaborazione delle Previsioni Strutturali in Modelli di Ricerca

Le previsioni di AlphaFold 2 sono accompagnate da stime di affidabilità per ogni residuo. Queste stime sono espresse su una scala dove valori più alti indicano previsioni più affidabili. I modelli sono stati testati sia non alterati che dopo aver rimosso le aree con livelli di affidabilità più bassi.

Per alcune proteine multi-dominio, dove le previsioni non hanno dato risultati soddisfacenti, è stato usato un metodo chiamato Slice'N'Dice per suddividere i modelli in unità strutturali separate. Questo approccio, combinato con vari algoritmi, aiuta ad affinare i modelli di ricerca e migliorare le possibilità di una determinazione strutturale di successo.

Modelli di Ricerca Basati sulla Struttura Secondaria

Oltre ai metodi come AlphaFold 2, i ricercatori hanno usato altre tecniche per obiettivi specifici ricchi di eliche alfa. Questi includevano strumenti progettati per gestire eliche ideali o insiemi di strutture elicoidali, dimostrando la versatilità di diversi approcci di modellazione.

Sostituzione Molecolare e Raffinamento

Il processo di soluzione della struttura è iniziato con test automatizzati in cui le previsioni di AlphaFold 2 e ColabFold sono state inserite in un pipeline per la MR. Questo pipeline ha preparato i modelli di ricerca e li ha eseguiti attraverso un algoritmo di MR. Il successo della soluzione è stato valutato utilizzando coefficienti di correlazione che misurano quanto bene i modelli posizionati corrispondessero alla struttura reale.

Nei casi in cui i metodi automatizzati hanno deluso, è stato necessario un intervento manuale. Questo ha comportato l'uso di un progetto basato su cloud per un'esplorazione e un affinamento più interattivi dei modelli di ricerca.

Risultati delle Soluzioni Strutturali

I test iniziali usando i modelli di AlphaFold 2 hanno dato un’alta percentuale di successo, con molte strutture risolte direttamente. I modelli coprivano una gamma di livelli di accuratezza, e una percentuale significativa dei casi ha soddisfatto i criteri per un posizionamento di successo e un successivo affinamento.

L'analisi ha anche rivelato che ColabFold aveva un set di successi leggermente diverso rispetto ad AlphaFold 2. Alcuni casi richiedevano l'inclusione di informazioni sui template per migliorare l'accuratezza del modello. Inoltre, alternative come ESMFold hanno mostrato promesse in casi in cui i modelli AlphaFold hanno faticato, evidenziando il potenziale di vari strumenti di modellazione.

Importanza della Suddivisione dei Domini

Le proteine multi-dominio possono presentare sfide, poiché le informazioni sulle loro strutture potrebbero non essere così chiare. Lo studio ha scoperto che suddividere proteine più grandi in domini più piccoli portava spesso a risultati migliori nella determinazione della struttura. Sono stati testati diversi algoritmi per la suddivisione, e in alcune situazioni, un approccio ha funzionato meglio di altri.

Approcci Alternativi

I ricercatori hanno anche esplorato altre opzioni software per casi in cui i metodi tradizionali hanno fallito. L'uso di ESMFold ha fornito previsioni utili che hanno aiutato a risolvere alcune strutture problematiche. Inoltre, creare modelli di complessi proteici è stato vantaggioso per alcune strutture ad alta complessità, mostrando il vantaggio di avere un modello di ricerca più completo.

Proteine Coiled-Coil e Sfide Strutturali

Alcune strutture proteiche, in particolare quelle ricche di regioni coiled-coil, sono risultate più difficili da modellare con successo. Queste regioni spesso presentano caratteristiche uniche che sfidano gli attuali strumenti di previsione. I casi in cui le tecniche tradizionali di MR hanno avuto difficoltà evidenziano la continua necessità di approcci specializzati in queste situazioni.

Rimanenti Sfide nella Determinazione della Struttura

Nonostante i progressi nella modellazione predittiva, alcune proteine rimangono resistenti alle soluzioni MR. Questo è spesso dovuto a MSA di bassa qualità, che non forniscono le necessarie informazioni evolutive per una modellazione accurata. Inoltre, le proteine con un elevato contenuto elicoidale o quelle contenenti ioni metallici possono presentare sfide uniche che complicano gli sforzi di determinazione della struttura.

Direzioni Future e Conclusioni

L'emergere di strumenti come AlphaFold ha migliorato sostanzialmente la capacità di risolvere il problema di fase nella cristallografia a raggi X. Anche se la maggior parte delle strutture può ora essere faseata utilizzando questi metodi moderni, ci sono ancora casi in cui i metodi sperimentali di fase tradizionali possono essere ancora necessari.

Lo studio suggerisce che comprendere le caratteristiche specifiche degli obiettivi difficili può aiutare a dare priorità ai casi per approcci sperimentali. Un’esplorazione continua di nuove tecniche e algoritmi di modellazione sarà cruciale per far avanzare ulteriormente il campo e affrontare le limitazioni ancora presenti nella determinazione della struttura proteica.

Fonte originale

Titolo: In the AlphaFold era, when is experimental phasing of protein crystals still required?

Estratto: The availability of highly accurate protein structure predictions from AlphaFold 2 (AF2) and similar tools has hugely expanded the applicability of Molecular Replacement (MR) for crystal structure solution. Many structures solve routinely using raw models, structures processed to remove unreliable parts or models split into distinct structural units. There is therefore an open question around how many and which cases still require experimental phasing methods such as single-wavelength anomalous diffraction (SAD). Here we address the question using a large set of PDB deposits that were solved by SAD. A large majority (87%) solve using unedited or minimally edited AF2 predictions. A further 17 (4%) yield straightforwardly to MR after splitting of the AF2 prediction using SliceNDice, although different splitting methods succeed on slightly different sets of cases. We also find that further unique targets can be solved by alternative modelling approaches such as ESMFold (four cases), alternative MR approaches such as ARCIMBOLDO and AMPLE (two cases each), and multimeric model building with AlphaFold-Multimer or UniFold (three cases). Ultimately, only 12 cases, or 3% of the SAD-phased set did not yield to any form of MR tested here, offering valuable hints as to the number and characteristics of cases where experimental phasing remains essential for macromolecular structure solution.

Autori: Daniel J Rigden, R. Keegan, A. J. Simpkin

Ultimo aggiornamento: 2024-07-22 00:00:00

Lingua: English

URL di origine: https://www.biorxiv.org/content/10.1101/2024.07.19.604295

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.07.19.604295.full.pdf

Licenza: https://creativecommons.org/licenses/by-nc/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili