Simple Science

Scienza all'avanguardia spiegata semplicemente

# La biologia# Bioinformatica

Avanzamenti nella previsione delle regioni intrinsecamente disordinate delle proteine

Nuovi metodi migliorano la previsione delle regioni proteiche che non hanno una struttura stabile.

― 6 leggere min


Nuovo metodo perNuovo metodo perprevedere gli IDR.disordinate.previsioni per le regioni di proteinePredIDR migliora l'accuratezza delle
Indice

Le proteine sono molecole fondamentali negli organismi viventi, svolgendo un sacco di funzioni. Queste funzioni dipendono spesso dalla forma della proteina, che di solito è una struttura tridimensionale fissa. Però, alcune parti delle proteine, chiamate regioni intrinsecamente disordinate (IDR), non hanno una forma stabile. Invece, possono cambiare forma e funzionare senza piegarsi completamente in una struttura specifica. Studi recenti hanno dimostrato che queste IDR sono abbastanza comuni, costituendo più del 30% delle proteine negli organismi a cellule complesse (eucarioti). Le IDR giocano ruoli importanti in molti processi biologici.

Metodi per Studiare le IDR

Per conoscere le IDR, gli scienziati usano varie tecniche di laboratorio, come la cristallografia a raggi X, la spettroscopia di risonanza magnetica nucleare (NMR) e la dicromia circolare. Tuttavia, studiare queste regioni può essere difficile a causa della loro natura flessibile. Dato che solo un numero limitato di IDR è stato studiato in dettaglio, i ricercatori hanno sviluppato molti metodi basati su computer per prevedere dove si trovano le IDR nelle sequenze proteiche. Questi strumenti di previsione si sono dimostrati utili sia per capire proteine specifiche che per analizzare grandi insiemi di proteine.

Valutazioni della Comunità sugli Strumenti di Previsione delle IDR

Le prestazioni di diversi strumenti di previsione delle IDR sono state valutate attraverso competizioni guidate dalla comunità. Una di queste competizioni è la Valutazione Critica della Previsione della Struttura Proteica (CASP), e una più recente chiamata Valutazione Critica del Disordine Intrinseco delle Proteine (CAID). Negli anni, il numero di strumenti di previsione delle IDR è aumentato significativamente, indicando un crescente interesse in questo campo. I partecipanti inviano il loro software di previsione per confrontare i loro metodi contro target proteici comuni, che hanno annotazioni IDR già conosciute.

In CAID, non solo viene valutata la capacità di prevedere le IDR, ma anche la previsione dei siti di legame all'interno di queste regioni. I partecipanti usano un metodo che assegna punteggi a ciascun aminoacido in una proteina, mostrando la probabilità che faccia parte di una regione intrinsecamente disordinata o di un sito di legame. Le ultime edizioni di CAID hanno mostrato un aumento sostanziale nel numero di metodi di previsione valutati, dimostrando il crescente interesse per questa sfida.

Progressi nella Previsione delle IDR

È stato sviluppato un nuovo server web chiamato CAID Prediction Portal per eseguire tutti i metodi delle competizioni CAID. Questa piattaforma offre risultati standardizzati e consente agli utenti di confrontare comodamente i diversi metodi. Le ultime valutazioni hanno mostrato che le prestazioni tra i vari metodi di previsione delle IDR possono variare a seconda di diversi benchmark, evidenziando la necessità di miglioramenti continui nel software di previsione.

Recentemente, è stato creato un nuovo metodo di deep learning chiamato PredIDR per prevedere con precisione le IDR nelle proteine, mirato specificamente a quelle regioni mancanti dai dati di cristallografia a raggi X. Questo metodo riflette le caratteristiche delle IDR note e mira a fornire una previsione più affidabile.

Analisi delle IDR dal Protein Data Bank

Per analizzare le IDR, i ricercatori hanno estratto sequenze proteiche ad alta risoluzione dal Protein Data Bank (PDB). Selezionando solo quelle proteine con un'identità di sequenza inferiore al 25% e lunghe più di 51 residui, si sono concentrati su un insieme diversificato di proteine. Un residuo disordinato è definito come uno privo di coordinate tridimensionali negli esperimenti a raggi X. L'analisi ha incluso solo segmenti di almeno quattro residui disordinati consecutivi.

Utilizzando le sequenze proteiche selezionate, è stato creato un set di validazione. Questo set includeva 597 catene con un totale di oltre 151.000 residui, di cui circa l'8% erano identificati come disordinati. Sono stati creati anche set di dati aggiuntivi per ulteriori validazioni, contenenti varie lunghezze di IDR per simulare condizioni reali.

Costruzione del Set di addestramento

Poiché il compito di previsione è un problema di classificazione binaria, i ricercatori hanno dovuto preparare un set di addestramento sbilanciato. Il set di addestramento è stato formato combinando sequenze IDR e sequenze strutturali ordinate, garantendo una distribuzione equilibrata di residui disordinati e ordinati. Hanno quindi creato esempi negativi artificiali per assicurarsi che il numero di campioni positivi e negativi fosse uguale.

Caratteristiche di Input per la Previsione

Per prevedere se un residuo è disordinato o ordinato, i ricercatori hanno rappresentato ciascun residuo proteico usando tre caratteristiche principali: profilo evolutivo, struttura secondaria e accessibilità al solvente. Queste caratteristiche hanno fornito informazioni preziose e sono state ottenute tramite strumenti di previsione consolidati.

Architettura della Rete Neurale

Il compito di previsione è stato eseguito utilizzando una rete neurale convoluzionale 2D (CNN). Questa architettura consiste in più strati, tra cui strati di input, strati convoluzionali e strati completamente connessi. Il modello elabora i dati di input in piccoli segmenti, permettendogli di catturare schemi e migliorare le previsioni in modo efficace.

Addestramento del Modello di Rete Neurale

Il modello è stato addestrato usando mini-lotti di dati, e il processo di addestramento mirava a ridurre gli errori di previsione regolando i parametri del modello. È stato usato un algoritmo speciale chiamato Adam per aggiornare questi parametri, concentrandosi sulla minimizzazione degli errori nelle previsioni.

Miglioramento delle Previsioni con Tecniche di Insieme e di Smussatura

Per migliorare l'accuratezza delle previsioni, è stato utilizzato un metodo di insieme. Questo approccio prevedeva l'addestramento di più modelli e la combinazione delle loro previsioni per ottenere un risultato migliore. Inoltre, è stata applicata una tecnica di smussatura media delle previsioni su una finestra mobile concentrata su un residuo specifico, raffinando così l'output.

Metriche di Valutazione

Per valutare le prestazioni dei modelli di previsione, sono state utilizzate due misure basate sulla probabilità note come AUC_ROC e AUC_PR. Queste metriche aiutano a capire quanto bene il modello assegna punteggi di confidenza a ciascun residuo riguardo al suo stato di disordine.

Risultati e Discussione

PredIDR ha dimostrato previsioni efficaci per le regioni intrinsecamente disordinate nelle proteine, specialmente per i residui mancanti dai dati a raggi X. Le prestazioni del metodo sono migliorate con la combinazione di varie caratteristiche e attraverso l'uso di tecniche di insieme e di smussatura. I migliori risultati sono stati ottenuti usando una dimensione della finestra specifica per la smussatura, che variava a seconda del set di dati.

PredIDR è stato testato rispetto a metodi di previsione esistenti in competizioni, dove ha superato molti altri approcci. Questo indica il suo potenziale come strumento affidabile per identificare le IDR nelle proteine.

Confronto con Altri Metodi

PredIDR è stato valutato rispetto ad altri metodi di previsione delle IDR in competizioni. Ha mostrato un notevole miglioramento rispetto a diversi altri strumenti, evidenziando la sua efficacia nel rilevare regioni intrinsecamente disordinate. Il metodo ha funzionato particolarmente bene in set di dati con una percentuale più alta di residui disordinati.

Direzioni Future

Andando avanti, l'obiettivo è migliorare ulteriormente i metodi di previsione includendo dati da annotazioni non a raggi X insieme ai dati esistenti. Questi miglioramenti potrebbero portare a previsioni ancora più accurate delle IDR e delle loro funzioni.

Conclusione

Lo sviluppo di PredIDR segna un importante avanzamento nella previsione delle regioni intrinsecamente disordinate nelle proteine. Combinando varie caratteristiche e impiegando tecniche di machine learning sofisticate, questo metodo fornisce uno strumento potente per i ricercatori che studiano la struttura e la funzione delle proteine. Con la continua crescita del campo, tali metodi predittivi giocheranno un ruolo cruciale nel migliorare la nostra comprensione della natura dinamica delle proteine e delle loro interazioni nei sistemi biologici.

Fonte originale

Titolo: PredIDR: Accurate prediction of protein intrinsic disorder regions using deep convolutional neural network

Estratto: The involvement of protein intrinsic disorder in essential biological processes, it is well known in structural biology. However, experimental methods for detecting intrinsic structural disorder and directly measuring highly dynamic behavior of protein structure are limited. To address this issue, several computational methods to predict intrinsic disorder from protein sequences were developed and their performance is evaluated by the Critical Assessment of protein Intrinsic Disorder (CAID). In this paper, we describe a new computational method, PredIDR, which provides accurate prediction of intrinsically disordered regions in proteins, mimicking experimental X-ray missing residues. Indeed, missing residues in Protein Data Bank (PDB) were used as positive examples to train a deep convolutional neural network which produces two types of output for short and long regions. PredIDR took part in the second round of CAID and was as accurate as the top state-of-the-art IDR prediction methods. PredIDR can be freely used through the CAID Prediction Portal available at https://caid.idpcentral.org/portal or downloaded as a Singularity container from https://biocomputingup.it/shared/caid-predictors/.

Autori: Damiano Piovesan, K.-S. Han, S.-J. Yun, C.-S. Kim, C.-P. Ri, A. Del Conte

Ultimo aggiornamento: 2024-07-24 00:00:00

Lingua: English

URL di origine: https://www.biorxiv.org/content/10.1101/2024.07.24.604908

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.07.24.604908.full.pdf

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Articoli simili