Cascadia: Portare avanti il sequenziamento dei peptidi dai dati DIA
Un nuovo modello migliora l'analisi delle proteine utilizzando dati di spettrometria di massa.
― 7 leggere min
Indice
- Tecniche di Spettrometria di Massa
- Strumenti per il Sequenziamento delle Proteine
- Introduzione di Cascadia: Un Nuovo Modello per il Sequenziamento dei Peptidi
- Il Flusso di Lavoro di Cascadia
- Valutazione delle Prestazioni di Cascadia
- Applicazione di Cascadia nella Scoperta di Varianti Codificanti
- Scoperta di Nuove Sequenze di Anticorpi
- Conclusione
- Fonte originale
- Link di riferimento
Le proteine sono componenti vitali degli organismi viventi e giocano ruoli chiave nella struttura, funzione e regolazione dei tessuti e organi del corpo. Capire le proteine significa studiare la loro struttura e funzione, e un metodo importante per farlo è la Spettrometria di massa. La spettrometria di massa aiuta gli scienziati ad analizzare la composizione delle proteine, scomponendole in pezzi più piccoli chiamati Peptidi, che vengono poi studiati per le loro sequenze.
Una delle sfide nell'analisi delle proteine tramite spettrometria di massa è capire l'ordine degli amminoacidi in un peptide basandosi sui dati raccolti durante gli esperimenti. Questo compito si chiama sequenziamento de novo, che significa determinare la sequenza di amminoacidi di un peptide senza avere conoscenze precedenti su quel peptide. È un processo complesso, soprattutto quando si lavora con grandi set di dati provenienti da tecniche moderne di spettrometria di massa.
Tecniche di Spettrometria di Massa
Tradizionalmente, la spettrometria di massa per l'analisi delle proteine usava un metodo chiamato acquisizione dipendente dai dati (DDA). In questo approccio, lo spettrometro di massa raccoglie dati su un peptide alla volta. Ogni volta che rileva un peptide, produce uno spettro di frammentazione, che è una rappresentazione visiva del profilo di massa del peptide. Gli scienziati possono collegare direttamente questo spettro a una singola sequenza di peptide, rendendo relativamente facile determinare la sequenza.
Tuttavia, è emerso un nuovo approccio chiamato Acquisizione indipendente dai dati (DIA). In DIA, lo spettrometro di massa raccoglie dati su molti peptidi simultaneamente, il che significa che i loro segnali possono mischiarsi. Questo porta a un set di dati più complesso perché le informazioni su un singolo peptide sono distribuite su più spettri. Questo rende molto più difficile determinare la sequenza del peptide poiché non è chiaro quali parti dei dati appartengano a quale peptide.
Strumenti per il Sequenziamento delle Proteine
Sono stati sviluppati diversi strumenti per affrontare le sfide del sequenziamento de novo, soprattutto nel contesto dei dati DIA. Alcuni di questi utilizzano modelli di apprendimento automatico, specificamente un tipo chiamato trasformatori. I trasformatori sono progettati per gestire sequenze di dati, rendendoli adatti per i compiti di sequenziamento delle proteine. Affrontano il problema del sequenziamento come se fosse una traduzione di una rappresentazione dello spettro di massa in una sequenza di amminoacidi.
Un metodo comune è creare pseudo-spettri dai dati DIA che assomigliano agli spettri generati in DDA. Tuttavia, questo metodo ha delle limitazioni. Non tutti i peptidi producono un segnale chiaro in DDA, il che significa che molti peptidi a bassa abbondanza possono essere trascurati. Inoltre, l'aspetto degli spettri DIA può differire significativamente da quelli prodotti da DDA, il che può rendere difficile per i modelli esistenti, addestrati sui dati DDA, funzionare bene sui set di dati DIA.
Un altro metodo utilizza un modello di deep learning specifico, DeepNovo-DIA, progettato per lavorare con i dati DIA. Questo modello include vari componenti per elaborare i dati in un modo che cattura le relazioni tra diversi spettri e le sequenze di amminoacidi.
Introduzione di Cascadia: Un Nuovo Modello per il Sequenziamento dei Peptidi
È stato sviluppato un nuovo modello chiamato Cascadia per affrontare alcune delle limitazioni dei metodi esistenti. Cascadia punta a migliorare il sequenziamento de novo dai dati DIA estraendo sistematicamente piccole unità di dati conosciute come "spettri aumentati". Questi spettri aumentati incorporano informazioni da spettri adiacenti per fornire un quadro più completo dei segnali relativi a un peptide specifico.
Cascadia utilizza un'architettura basata su trasformatori, permettendole di elaborare efficacemente gli spettri aumentati e prevedere le sequenze di peptidi. Il modello è addestrato utilizzando una vasta raccolta di dati DIA annotati, e i risultati mostrano che supera significativamente i metodi esistenti.
Il Flusso di Lavoro di Cascadia
Cascadia funziona prima raccogliendo uno spettro osservato e creando una rappresentazione latente di ogni picco in quello spettro. Un livello di decodifica del trasformatore utilizza quindi questa rappresentazione per prevedere la sequenza di amminoacidi del peptide. Il modello deve affrontare due principali sfide:
In un esperimento DIA, il segnale per un singolo peptide è distribuito su diversi spettri. Per risolvere questo, Cascadia prende più spettri che sono temporaneamente vicini tra loro, permettendo al modello di raccogliere quante più informazioni rilevanti possibili.
Non esiste una massa precursore unica nota per prevedere la sequenza del peptide. Invece, Cascadia cattura i dati da tutti gli spettri disponibili e li elabora collettivamente. Questa flessibilità consente al modello di estrarre informazioni sui peptidi senza fare affidamento solo su un segnale precursore conosciuto.
In pratica, questo significa che Cascadia può utilizzare direttamente il segnale grezzo MS/MS e non dipende da passaggi iniziali di estrazione delle caratteristiche. Questo è un notevole passo avanti, poiché consente al modello di esaminare tutte le caratteristiche rilevanti dai dati di input.
Valutazione delle Prestazioni di Cascadia
Per misurare quanto bene Cascadia funzioni, i ricercatori valutano il numero di sequenze di peptide distinte che il modello identifica e abbina a un database di riferimento. Questo processo è diverso dai metodi tradizionali, che spesso si basano su spettri che un motore di ricerca può identificare. Utilizzando un approccio a livello di peptide, la valutazione riflette il numero reale di peptidi rilevati in una corsa di spettrometria di massa.
Cascadia ha dimostrato di scoprire molti più peptidi rispetto ai metodi esistenti, dimostrando una forte prestazione su vari set di dati. Ad esempio, a una soglia di alta precisione, Cascadia può prevedere accuratamente molti peptidi distinti su cui DeepNovo-DIA ha difficoltà. Questo miglioramento è particolarmente notevole per i peptidi a bassa abbondanza che potrebbero non produrre un segnale forte nei metodi tradizionali.
Applicazione di Cascadia nella Scoperta di Varianti Codificanti
Le capacità di Cascadia si estendono oltre l'identificazione dei peptidi. È stato utilizzato anche in studi per scoprire varianti codificanti, che sono cambiamenti nella sequenza di amminoacidi delle proteine che possono avere implicazioni importanti per malattie e funzioni biologiche.
In esperimenti che utilizzano dati DIA da campioni di pelle umana, Cascadia è riuscita a identificare varianti confermate attraverso altri metodi di sequenziamento. Questa evidenza supporta l'affidabilità del modello Cascadia nel fornire previsioni accurate sui peptidi.
Scoperta di Nuove Sequenze di Anticorpi
Cascadia è stata applicata anche per analizzare campioni di plasma umano per scoprire peptidi nuovi, in particolare da anticorpi. Gli anticorpi sono proteine altamente variabili che giocano ruoli cruciali nella risposta immunitaria. L'analisi ha rivelato molte potenziali sequenze di anticorpi che non corrispondono a database di riferimento esistenti, suggerendo che Cascadia potrebbe aiutare a identificare nuove varianti di anticorpi non ancora documentate.
Confrontando queste previsioni con un database di riferimento, i ricercatori hanno confermato che una parte significativa dei peptidi anticorpali previsti si allinea bene con sequenze conosciute, convalidando ulteriormente l'efficacia di Cascadia nella rilevazione dei peptidi.
Conclusione
In conclusione, Cascadia rappresenta un notevole passo avanti nel campo della proteomica, in particolare nell'analisi dei dati di spettrometria di massa. La sua capacità di elaborare i dati in modo più efficace rispetto ai modelli precedenti consente una gamma più ampia di scoperte di peptidi, inclusi quelli a bassa abbondanza e le sequenze nuove.
Cascadia offre ai ricercatori uno strumento potente per esplorare le strutture e le funzioni delle proteine, potenzialmente portando a nuove intuizioni in vari campi come immunologia, scienze forensi e studi ambientali. Man mano che la tecnologia della spettrometria di massa continua a progredire, metodi come Cascadia saranno cruciali per tenere il passo con la crescente complessità dei dati biologici.
I futuri sviluppi probabilmente si concentreranno sul perfezionamento di Cascadia per applicazioni specifiche, migliorando ulteriormente la sua sensibilità e incorporando caratteristiche aggiuntive dei dati che potrebbero migliorare le prestazioni.
Titolo: A transformer model for de novo sequencing of data-independent acquisition mass spectrometry data
Estratto: A core computational challenge in the analysis of mass spectrometry data is the de novo sequencing problem, in which the generating amino acid sequence is inferred directly from an observed fragmentation spectrum without the use of a sequence database. Recently, deep learning models have made significant advances in de novo sequencing by learning from massive datasets of high-confidence labeled mass spectra. However, these methods are primarily designed for data-dependent acquisition (DDA) experiments. Over the past decade, the field of mass spectrometry has been moving toward using data-independent acquisition (DIA) protocols for the analysis of complex proteomic samples due to their superior specificity and reproducibility. Hence, we present a new de novo sequencing model called Cascadia, which uses a transformer architecture to handle the more complex data generated by DIA protocols. In comparisons with existing approaches for de novo sequencing of DIA data, Cascadia achieves state-of-the-art performance across a range of instruments and experimental protocols. Additionally, we demonstrate Cascadias ability to accurately discover de novo coding variants and peptides from the variable region of antibodies.
Autori: William Stafford Noble, J. Sanders, B. Wen, P. Rudnick, R. Johnson, C. C. Wu, S. Oh, M. J. MacCoss
Ultimo aggiornamento: 2024-06-04 00:00:00
Lingua: English
URL di origine: https://www.biorxiv.org/content/10.1101/2024.06.03.597251
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.06.03.597251.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.