Nuovi metodi per identificare i metaboliti nella metabolomica
Due tecniche innovative migliorano l'identificazione dei metaboliti e la stima del tasso di falsi positivi.
― 5 leggere min
Indice
La Metabolomica è un campo della scienza che studia le piccole molecole, chiamate metaboliti, presenti nei campioni biologici. Questi metaboliti possono dare spunti su vari processi biologici e condizioni di salute. Una tecnica comune usata nella metabolomica è la Spettrometria di massa, che consente ai ricercatori di misurare e identificare queste piccole molecole in base alla loro massa.
La Sfida di Identificare i Metaboliti
Quando i ricercatori raccolgono dati dalla spettrometria di massa, ottengono un gran numero di spettri complessi. Ogni spettro rappresenta composti diversi, ma identificare cosa sia ogni composto può essere difficile a causa della mancanza di database completi. Inoltre, alcuni composti identificati potrebbero essere in realtà errati, noti come Falsi Positivi. Per affrontare questo problema, è fondamentale usare metodi efficaci per trovare e confermare i composti.
Metodi di Ricerca nei Database
I ricercatori utilizzano vari metodi per cercare nei database potenziali metaboliti in base agli spettri raccolti. Un metodo è abbinare la massa dei composti osservati con le masse conosciute dei metaboliti presenti nei database. Un altro approccio consiste nel confrontare gli spettri raccolti con spettri esistenti in database come MassBank per trovare somiglianze.
Recentemente, i progressi negli strumenti software hanno migliorato l'accuratezza di queste ricerche. Questi strumenti forniscono un elenco classificato di potenziali corrispondenze per ogni spettro. La prima corrispondenza è spesso chiamata "hit". Tuttavia, poiché ci possono essere errori nell'identificazione, i ricercatori devono impostare delle soglie per ridurre il tasso di falsi positivi.
Stima dei Falsi Positivi
Nel campo della proteomica (lo studio delle proteine), i ricercatori hanno stabilito metodi per stimare il tasso di falsi positivi, noto come tasso di scoperta falsa (FDR). Questo processo di solito implica il confronto dei dati reali con un database di controllo, che contiene sequenze invertite o alterate.
La sfida nella metabolomica, però, sta nell'assenza di un elenco completo di metaboliti umani. Questo significa che è difficile creare un database di controllo affidabile. I ricercatori hanno proposto vari metodi per superare questo problema, inclusi l'uso di modelli teorici per creare controlli basati su strutture e schemi di frammentazione noti.
Nuovi Approcci per la Stima del FDR
Questo studio introduce due nuovi metodi per stimare il FDR nella metabolomica: il metodo pseudo-target-decoy e il metodo del secondo rango.
Metodo Pseudo-Target-Decoy
Nel metodo pseudo-target-decoy, i ricercatori usano lo stesso database sia per le modalità di ioni positivi che negativi nella spettrometria di massa. Ad esempio, prendono spettri dai dati degli ioni positivi e li modificano leggermente per creare un insieme di spettri “decoy” per i dati degli ioni negativi. Questo approccio consente ai ricercatori di stimare il tasso di falsi positivi senza la necessità di un database di decoy separato.
Per testare questo metodo, i ricercatori hanno utilizzato un dataset da MassBank, dove hanno identificato diversi composti e i relativi spettri. Hanno confrontato le caratteristiche dei dataset di ioni positivi e negativi per confermare che avessero proprietà simili. Questo ha portato alla conclusione che il metodo pseudo-target-decoy potesse stimare efficacemente il FDR.
Metodo del Secondo Rango
Il metodo del secondo rango si basa sui punteggi dei primi due hit nell'elenco classificato. L'idea è che la distribuzione del punteggio del secondo hit dovrebbe assomigliare alla distribuzione dei falsi positivi. Trattando il secondo hit come un controllo, i ricercatori possono stimare il FDR basandosi su questi punteggi.
I ricercatori hanno condotto esperimenti usando il metodo del secondo rango e hanno confrontato i suoi risultati con quelli del metodo pseudo-target-decoy. In generale, hanno trovato che il metodo del secondo rango tendeva a produrre stime più conservative del FDR.
Test dei Metodi
Entrambi i metodi sono stati testati su un dataset di metaboliti umani. I ricercatori hanno raccolto informazioni da repository pubblici per analizzare l'efficacia della loro ricerca di composti usando i due metodi. Hanno prodotto spettri mediati dai dataset e li hanno utilizzati per identificare potenziali metaboliti.
Nella loro analisi, hanno scoperto diversi hit che non erano elencati nel database del metaboloma umano. Ad esempio, hanno identificato composti come N-lauroilethanolamide, un mediatore lipidico, e β-casomorphin 4, un peptide derivato dalle proteine del latte. Questo dimostra che le metodologie utilizzate possono aiutare a identificare metaboliti che potrebbero non essere presenti nei database standard, ampliando così la nostra conoscenza dei metaboliti umani.
Vantaggi e Limitazioni dei Metodi
I metodi pseudo-target-decoy e del secondo rango hanno diversi vantaggi. Sono semplici da implementare e non richiedono modifiche estese ai software esistenti. Tuttavia, entrambi i metodi hanno limitazioni. Si basano su alcune assunzioni, il che significa che le stime possono essere imprecise in alcuni casi, specialmente a livelli di FDR molto bassi.
I ricercatori hanno sottolineato che, sebbene questi metodi offrano stime preziose, è necessaria ulteriore ricerca per migliorare l'accuratezza delle stime del FDR. I lavori futuri probabilmente coinvolgeranno lo sviluppo di nuove strategie e il perfezionamento dei metodi esistenti per creare controlli migliori per i falsi positivi.
Conclusione
In sintesi, questo studio introduce due nuovi metodi per stimare il tasso di scoperta falsa nella ricerca metabolomica usando i dati della spettrometria di massa. Sia il metodo pseudo-target-decoy che quello del secondo rango hanno mostrato potenziale nell'identificare metaboliti e stimare l'accuratezza di queste identificazioni. Man mano che la metabolomica continua a crescere ed evolversi, migliorare l'affidabilità dei metodi di identificazione dei composti sarà cruciale per comprendere i processi biologici e le potenziali implicazioni per la salute.
La ricerca evidenzia il continuo bisogno di soluzioni innovative nella metabolomica e suggerisce che, con ulteriori perfezionamenti, questi metodi potrebbero svolgere un ruolo chiave nel migliorare il campo nel suo insieme. Procedendo con un'accurata identificazione dei composti, i ricercatori possono scoprire nuovi metaboliti che potrebbero avere impatti significativi sulla medicina e sulla salute.
Titolo: Data processing of product ion spectra: Methods to control false discovery rate in compound search results for non-targeted metabolomics
Estratto: In non-targeted metabolomics utilizing high-resolution mass spectrometry, several database search methods have been used to comprehensively annotate the acquired product ion spectra. Recent advancements in various in silico prediction techniques have facilitated compound searches by scoring the degree of coincidence between a query product ion spectrum and a compound in a compound database. Certain search results may be false positives, thus necessitating a method for controlling the false discovery rate (FDR). This study proposed two simple methods for controlling the FDR in compound search results. In the pseudo-target decoy method, the FDR can be estimated without creating a separate decoy database by treating such as the positive ion mode spectra as targets and converting the negative ion mode spectra as decoys. Further, the second-rank method uses the score distribution of the second-ranked hits from the compound search as an approximation of the false-positive distribution of the top-ranked hits. The performance of these methods was evaluated by annotating the product ion spectra from MassBank using the SIRIUS 5 CSI:Finger ID scoring method. The results indicated that the second-rank method was closer to the true FDR of 0.05. When applied to the four human metabolomics datasets, the second-rank method provided more conservative FDR estimations than the pseudo-target-decoy method. These methods enabled the identification of metabolites not present in human metabolome databases. Overall, this study demonstrates the utility of these simple methods for FDR control in non-targeted metabolomics, facilitating more reliable compound identification and the potential discovery of novel metabolites.
Autori: Fumio Matsuda
Ultimo aggiornamento: 2024-06-17 00:00:00
Lingua: English
URL di origine: https://www.biorxiv.org/content/10.1101/2024.06.16.599235
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.06.16.599235.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.