Avanzamenti nella sequenza di peptide con deep learning
Gli scienziati migliorano le tecniche di analisi dei peptidi usando gli spunti del deep learning.
― 7 leggere min
Indice
- Il Ruolo della Tripsina nell'Analisi dei Peptidi
- Sfide nella Sequenza dei Peptidi
- Deep Learning nella Spettrometria di Massa
- Affrontare le Limitazioni dei Modelli di Deep Learning
- Il Modello di Sequenziamento De Novo Casanova
- Testare il Modello Aggiornato
- Osservazioni sulle Prestazioni del Modello
- Il Ruolo degli Effetti Batch
- Allenare un Modello più Universale
- Conclusione
- Fonte originale
La proteomica è lo studio delle proteine in un campione biologico. Analizzando le proteine, gli scienziati possono capire come funzionano e i loro ruoli nella salute e nella malattia. Uno strumento importante usato nella proteomica è la Spettrometria di massa (MS), una tecnica che aiuta a identificare e misurare le molecole in un campione.
Un metodo comune nella spettrometria di massa è la spettrometria di massa tandem (MS/MS). In questa tecnica, le proteine vengono prima scomposte in pezzi più piccoli chiamati Peptidi. Di solito si usa un enzima chiamato Tripsina. La tripsina è popolare perché taglia le proteine in punti specifici, producendo risultati costanti e utili per l'analisi.
Il Ruolo della Tripsina nell'Analisi dei Peptidi
La tripsina funziona mirando a certi amminoacidi nelle proteine, in particolare lisina (K) e arginina (R). Quando la tripsina taglia una proteina, i peptidi risultanti di solito finiscono con questi amminoacidi basici, rendendoli più facili da identificare nella spettrometria di massa. Questo porta a dati di alta qualità, essenziali per un'analisi accurata.
Tuttavia, mentre la tripsina è ampiamente usata, anche enzimi alternativi o una miscela di diversi enzimi possono essere utili. Usare più enzimi può frammentare le proteine in pezzi sovrapposti, il che potrebbe aiutare a rilevare più peptidi e fornire una visione più ampia delle proteine presenti in un campione.
Sfide nella Sequenza dei Peptidi
Quando analizzano i peptidi, gli scienziati spesso usano database per confrontare e abbinare i peptidi sequenziati a proteine conosciute. Questo è di solito semplice quando l'enzima usato per la digestione è la tripsina standard. I database possono simulare la digestione con tripsina per generare possibili sequenze di peptidi.
Tuttavia, questo metodo può perdere peptidi prodotti da altri enzimi o attraverso processi diversi. Nei casi in cui gli scienziati vogliono identificare la sequenza dei peptidi direttamente dai loro spettri di massa, diventa più complicato. Recenti avanzamenti nel Deep Learning, un tipo di intelligenza artificiale, sono stati impiegati per affrontare questo problema.
Deep Learning nella Spettrometria di Massa
I modelli di deep learning possono apprendere dai dati esistenti per prevedere le sequenze di peptidi in modo più accurato. Questi modelli possono capire come si comportano diversi enzimi e, in teoria, dovrebbero funzionare bene anche se incontrano peptidi da digestioni non triptiche. Nonostante questo potenziale, la maggior parte di questi modelli è stata principalmente addestrata usando dati da peptidi digeriti con tripsina.
Questo significa che quando vengono utilizzati su dati da altri enzimi, i modelli potrebbero non funzionare altrettanto bene. Ad esempio, se un modello di deep learning vede un peptide che potrebbe derivare sia da "PEPTIDEK" (digestione con tripsina) che da "PEPTIDKE" (non tripsina), potrebbe favorire ingiustamente il primo perché si adatta alle regole associate alla digestione con tripsina.
Affrontare le Limitazioni dei Modelli di Deep Learning
Per migliorare le prestazioni dei modelli di deep learning su dati non triptici, i ricercatori hanno provato approcci diversi. Un metodo è addestrare un singolo modello su dati provenienti da vari enzimi. Questo potrebbe aiutare il modello a generalizzare attraverso diversi tipi di digestione. Un'altra strategia prevede di addestrare più modelli, ognuno specificamente progettato per dati di un enzima. Sebbene questo possa essere efficace, solleva questioni come la necessità di grandi quantità di dati per ogni enzima e il potenziale per i modelli di non adattarsi bene a nuove combinazioni di enzimi.
Una soluzione proposta è includere informazioni sull'enzima di digestione direttamente nel modello. Questo significa che quando il modello fa previsioni, considera anche quale enzima è stata utilizzata per produrre i peptidi. Facendo ciò, il modello potrebbe regolare le sue previsioni in base a schemi di digestione specifici associati a diversi enzimi.
Il Modello di Sequenziamento De Novo Casanova
Casanova è un modello di deep learning progettato per il sequenziamento dei peptidi dai dati di spettrometria di massa. Il modello originale si concentra sulle informazioni di massa e carica insieme alla sequenza dei picchi in uno spettro. Per migliorare Casanova, i ricercatori hanno creato una versione chiamata Casanovaenz, che includeva un passaggio aggiuntivo che tiene conto dell'enzima di digestione utilizzato.
In questo modello aggiornato, ogni enzima è rappresentata da un vettore ad alta dimensione. Quando il modello elabora i dati di spettrometria di massa, combina queste informazioni sull'enzima con gli altri dati che usa per fare previsioni sulle sequenze di peptidi.
Testare il Modello Aggiornato
I ricercatori si aspettavano che aggiungere informazioni sugli enzimi avrebbe aiutato a migliorare l'accuratezza del modello, soprattutto per le digestioni non triptiche. Hanno addestrato Casanovaenz utilizzando una vasta gamma di dati provenienti da numerosi enzimi e poi hanno valutato le sue prestazioni rispetto a una versione standard di Casanova senza informazioni sugli enzimi.
Sorprendentemente, i risultati non hanno mostrato un miglioramento significativo. Il nuovo modello ha fornito solo un leggero aumento di accuratezza, indicando che semplicemente sapere quale enzima fosse stato utilizzato non era così vantaggioso come previsto.
Osservazioni sulle Prestazioni del Modello
Ulteriori indagini hanno rivelato che entrambi i modelli presentavano un bias verso certi amminoacidi terminali, probabilmente a causa della struttura dei dati di addestramento. Ad esempio, quando i ricercatori manipolavano le informazioni sugli enzimi nei dati di test, era evidente che i modelli potevano adattare rapidamente le loro previsioni sulla base delle informazioni sugli enzimi alterate.
Questo suggerisce che, mentre i modelli possono apprendere certi schemi associati a come si comportano diversi enzimi, includere semplicemente l'identità dell'enzima come input non migliora drasticamente le prestazioni.
Il Ruolo degli Effetti Batch
Un altro fattore che ha influenzato le prestazioni dei modelli è stato identificato come effetti batch. Gli effetti batch si verificano quando le differenze nei dati sorgono da variazioni nel modo in cui vengono condotti gli esperimenti, piuttosto che dai campioni biologici stessi. Per affrontare questo, i ricercatori hanno implementato una strategia per garantire che i dati provenienti da diversi esperimenti (o batch) non si mescolassero durante l'addestramento e il test.
Coordinando attentamente come gli spettri venivano suddivisi tra i batch, hanno scoperto che quando gli effetti batch venivano minimizzati, i benefici attesi dall'inclusione delle informazioni sugli enzimi non si materializzavano.
Allenare un Modello più Universale
Alla luce di questi risultati, i ricercatori hanno deciso di prendere un approccio diverso. Invece di modificare ulteriormente il modello esistente, hanno optato per creare una nuova versione di Casanova addestrata su dati provenienti da vari enzimi. Questo nuovo modello ha combinato dati di addestramento sia da digestioni triptiche che non triptiche, mantenendo alte prestazioni in generale.
Quando hanno testato questo modello, ha mostrato miglioramenti significativi nella gestione dei dati non triptici senza compromettere le prestazioni sui dataset triptici. Questo risultato ha evidenziato che un modello ben bilanciato, addestrato su un set di dati diversificato, potrebbe essere più efficace che cercare semplicemente di incorporare informazioni sugli enzimi in un modello esistente.
Conclusione
Lo studio sottolinea l'importanza di considerare come sono strutturati i dati e l'impatto di diversi fattori sulle prestazioni del modello nella proteomica. Sebbene gli sforzi per includere informazioni sugli enzimi nei modelli di deep learning abbiano i loro meriti, è diventato chiaro che un approccio più olistico, addestrando i modelli su set di dati diversificati, potrebbe fornire i migliori risultati.
La ricerca futura potrebbe esplorare tipi aggiuntivi di informazioni oltre all'identità dell'enzima, come dettagli sulla preparazione del campione o impostazioni strumentali. Questo potrebbe portare a modelli ancora più accurati e robusti per il sequenziamento dei peptidi, aiutando in definitiva gli scienziati a comprendere sistemi biologici complessi.
Titolo: Accounting for digestion enzyme bias in Casanovo
Estratto: A key parameter of any proteomics mass spectrometry experiment is the identity of the enzyme that is used to digest proteins in the sample into peptides. The Casanovo de novo sequencing model was trained using data that was generated with trypsin digestion; consequently, the model prefers to predict peptides that end with the amino acids "K" or "R." This bias is desirable when the Casanovo is used to analyze data that was also generated using trypsin but can be problematic if the data was generated using some other digestion enzyme. In this work, we modify Casanovo to take as input the identify of the digestion enzyme, alongside each observed spectrum. We then train Casanovo with data generated using several different restriction enzymes, and we demonstrate that the resulting model successfully learns to capture enzyme-specific behavior. However, we find, surprisingly, that this new model does not yield a significant improvement in sequencing accuracy relative to a model trained without the enzyme information but using the same training set. This observation may have important implications for future attempts to make use of experimental metadata in de novo sequencing models.
Autori: William Stafford Noble, C. Melendez, J. Sanders, M. Yilmaz, W. Bittremieux, W. Fondrie, S. Oh
Ultimo aggiornamento: 2024-05-21 00:00:00
Lingua: English
URL di origine: https://www.biorxiv.org/content/10.1101/2024.05.16.594602
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.05.16.594602.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.