Simple Science

Scienza all'avanguardia spiegata semplicemente

# La biologia# Bioinformatica

Avanzare nella previsione della resistenza agli antibiotici con MALDI-TOF MS

Un nuovo dataset migliora l'accuratezza delle previsioni per la resistenza agli antibiotici nei lab clinici.

Oliver Bader, Y. Park, M. Weig, C. Noll, A.-C. Hauschild

― 7 leggere min


Prevedere la ResistenzaPrevedere la Resistenzaagli Antibiotici con iDatiagli antibiotici.previsioni sulla risposta dei batteriUn nuovo set di dati migliora le
Indice

Identificare tipi di batteri e funghi in laboratorio può richiedere molto tempo e fatica. È particolarmente difficile distinguere specie che sembrano o si comportano in modo molto simile. Negli ultimi dieci anni, molti laboratori hanno iniziato a utilizzare un metodo chiamato spettrometria di massa MALDI-TOF per questa identificazione. Questo metodo è ora considerato molto affidabile e ha quasi sostituito i metodi di test più vecchi. Di conseguenza, una grande quantità di dati di spettrometria di massa viene raccolta in tutto il mondo.

Importanza della MALDI-TOF MS

Ricerche dimostrano che i dati dalla MALDI-TOF MS contengono molte informazioni nascoste, o biomarcatori, che possono aiutare a identificare batteri e funghi in modo più approfondito, anche a livello di sottospecie. Questi marcatori nascosti possono anche essere collegati a certe caratteristiche dei batteri o funghi, come se possono resistere a determinati farmaci. Sapere come un particolare batterio o fungo reagisce ai farmaci è cruciale per assicurarsi che i pazienti ricevano il trattamento giusto. Attualmente, i medici usano questo tipo di informazioni sulle specie per scegliere gli antibiotici giusti a seconda che i batteri siano Gram-negativi o Gram-positivi. Tuttavia, test più dettagliati che indicano quanto bene un particolare batterio può resistere ai farmaci richiedono più tempo perché comportano la crescita di batteri con diversi antibiotici, il che può ritardare il trattamento di diversi giorni.

Trovare informazioni sulla resistenza

La MALDI-TOF MS può aiutare a identificare proteine specifiche legate alla resistenza antibiotica nota. Ad esempio, può distinguere alcuni ceppi di batteri che portano specifici geni di resistenza. Gli studi hanno dimostrato che questo metodo può anche trovare marcatori legati alla Resistenza agli antibiotici in Staphylococcus aureus e altri batteri. Questo alza la possibilità che i dati della MALDI-TOF MS possano essere molto utili per comprendere e prevedere la resistenza agli antibiotici.

Recentemente, i ricercatori hanno iniziato a usare l'apprendimento automatico (ML) per analizzare i dati della MALDI-TOF MS al fine di prevedere la resistenza ai farmaci. Questa tecnologia ha il potenziale di migliorare quanto velocemente possono essere prese le decisioni di trattamento, il che è molto importante negli ospedali. Tuttavia, ci sono ancora sfide da affrontare, come dati che potrebbero non rappresentare tutti i tipi di batteri in modo uniforme.

Problemi di dati nei laboratori clinici

Il modo in cui i campioni clinici vengono preparati e testati può portare a una rappresentazione disuguale di alcuni batteri e dei loro schemi di resistenza. Ad esempio, diversi laboratori possono utilizzare tecniche e attrezzature diverse, il che può influire su quali batteri crescono bene. Alcuni ospedali possono concentrarsi principalmente sui patogeni più comuni trovati nei loro pazienti, trascurando batteri rari. La variazione tra laboratori e regioni diverse può rendere difficile sviluppare modelli di apprendimento automatico affidabili.

Per creare buoni modelli di apprendimento automatico in grado di prevedere la resistenza agli antibiotici in modo accurato, è importante considerare questi problemi con i dati clinici. I modelli potrebbero favorire batteri più comuni, quindi un dataset squilibrato può portare a risultati distorti. Raggiungere semplicemente un punteggio di accuratezza elevato potrebbe non significare un buon rendimento su tutti i tipi di batteri. Pertanto, è necessario prestare attenzione a garantire che ogni tipo sia rappresentato in modo equo per assicurarsi che i modelli funzionino bene per tutti i batteri.

Dataset MS-UMG

Nel nostro lavoro, abbiamo raccolto un nuovo dataset che include dati di spettrometria di massa da campioni clinici prelevati dal Centro Medico Universitario di Göttingen. Questo dataset include informazioni provenienti da oltre 77.000 spettri di massa raccolti nel 2020 e 2021. I dati coprono un'ampia gamma di specie batteriche e fungine, con informazioni corrispondenti su come quegli organismi rispondono a vari antibiotici.

Per valutare quanto bene i modelli di apprendimento automatico possono prevedere la resistenza agli antibiotici utilizzando questo nuovo dataset, abbiamo confrontato diversi modelli, inclusa la regressione logistica e modelli basati su alberi. Ci siamo concentrati su tre batteri importanti: Escherichia Coli, Klebsiella Pneumoniae e Staphylococcus aureus. L'obiettivo era vedere come si comportavano i modelli nel prevedere la resistenza ai farmaci per questi batteri.

Analisi delle performance

I nostri modelli hanno mostrato buone prestazioni nel prevedere la resistenza per E. coli e K. pneumoniae. Tuttavia, quando si trattava di S. aureus, i modelli hanno avuto difficoltà con alcune misure antibiotiche. Questo potrebbe essere dovuto al fatto che i dati di addestramento non hanno distinto chiaramente i vari meccanismi di resistenza in gioco. Con S. aureus, la resistenza può avvenire per vari motivi, come cambiamenti nella capacità del batterio di assorbire il farmaco o alterazioni nel bersaglio del farmaco.

Per valutare quante informazioni portassero i dati di spettrometria di massa, abbiamo analizzato diverse gamme di massa. Abbiamo diviso i dati di spettrometria di massa in parti più piccole per vedere quali gamme fornivano le informazioni più utili per prevedere la resistenza. I risultati hanno mostrato che i dati delle gamme di massa più basse portavano a previsioni migliori rispetto a quelli delle gamme superiori, suggerendo che le informazioni più rilevanti per prevedere la resistenza sono concentrate in queste aree di massa più basse.

Impatto dei metodi di coltura

Abbiamo anche esaminato come i metodi utilizzati per coltivare i batteri influenzassero le previsioni dei modelli di apprendimento automatico. I dati di spettrometria di massa provenivano da due tipi principali di tecniche di coltura: agar normale e un processo di screening speciale. Il metodo di screening era più focalizzato nel trovare ceppi resistenti agli antibiotici. Abbiamo scoperto che quando i modelli erano addestrati utilizzando dati dal metodo di screening, ottenevano prestazioni migliori nella previsione della resistenza. Questo suggerisce che la natura distorta dei dati di screening ha potenziato le capacità predittive del modello.

Confronto tra dataset

Nei nostri confronti con altri dataset esistenti, abbiamo scoperto che le prestazioni sono diminuite quando abbiamo rimosso i dati di screening dai nostri modelli. Questo indica che il processo di screening ha migliorato significativamente la capacità dei modelli di fare previsioni accurate sulla resistenza agli antibiotici. Tuttavia, quando ci siamo concentrati sui dati di agar normale, abbiamo notato un miglioramento nella generalizzazione tra i dataset, suggerendo che un approccio più equilibrato usando agar normale potrebbe aiutare il modello a catturare caratteristiche più generali.

Importanza delle caratteristiche e bias nei dati

Per capire meglio come i bias nei dati abbiano influenzato le nostre previsioni, abbiamo esaminato l'importanza di diverse caratteristiche utilizzando un metodo chiamato analisi di Shapley. Questa analisi ci ha aiutato a identificare quali punti dati erano più influenti nelle previsioni del modello. Si è scoperto che i modelli identificati nei campioni di screening avevano un grande impatto sulle prestazioni del modello. Questo indica che il modello si stava concentrando su dati fortemente distorti verso la resistenza agli antibiotici, il che potrebbe non essere utile per previsioni generali.

Le caratteristiche importanti variavano a seconda che utilizzassimo dati di agar normale o di screening per l'addestramento. Questo suggerisce che l'addestramento su diversi tipi di dati può portare a intuizioni e previsioni differenti. Identificare quali caratteristiche specifiche sono influenti aiuta a migliorare i modelli in futuro.

Conclusione

In questo lavoro, abbiamo introdotto un ampio dataset MALDI-TOF MS che potrebbe permettere ulteriori ricerche su metodi migliori per prevedere la resistenza agli antibiotici. I nostri risultati suggeriscono che l'apprendimento automatico potrebbe svolgere un ruolo significativo nel processo decisionale clinico riguardo all'uso degli antibiotici. Tuttavia, le sfide come lo squilibrio dei dati devono essere affrontate per sviluppare modelli in grado di prevedere accuratamente la resistenza tra vari ceppi di batteri. L'obiettivo finale è migliorare i risultati per i pazienti ottimizzando la terapia antibiotica sulla base di informazioni precise sulla resistenza batterica.

Fonte originale

Titolo: Effect of Data Heterogeneity in Clinical MALDI-TOF Mass Spectra Profiles on Direct Antimicrobial Resistance Prediction through Machine Learning

Estratto: The matrix-assisted laser desorption-ionization time-of-flight mass spectrometry has become a powerful tool for accurate species identification in routine diagnostic microbiology. Recently, the application of machine learning models with MALDI-TOF mass spectra data indicated that rapid prediction of antimicrobial resistance patterns might facilitate even timelier and improved antimicrobial treatment. Although MALDI-TOF mass spectra data have proven valuable for clinical decision support, the issue of class imbalance in routine clinical data is often overlooked. This imbalance arises from factors such as local epidemiology, selective pressure from antibiotics, culture conditions, the methodology of phenotypic antimicrobial susceptibility testing, and sample preparation processes. Here, we provide a large mass spectra dataset, MS-UMG, for antimicrobial resistance prediction model training. With previously available public datasets, our dataset is evaluated and validated for usage in AMR prediction. We further explore the mass spectra data and identify informative regions on the spectra profile for AMR prediction. Moreover, we investigate the composition of this clinical dataset and present the implications of data heterogeneity on machine learning model performance. In conclusion, our findings highlight that accurate comprehension of clinical routine data and consideration of diverse hospital protocols are critical for effective clinical decision support systems with machine learning models. Key PointsO_LIIntroduced a large-scale clinical mass spectrometry dataset to the scientific community for research on antimicrobial resistance. C_LIO_LIConducted a comparison and evaluation of this dataset with other existing large-scale MS datasets, highlighting its value for developing and validating predictive models in clinical settings. C_LIO_LIDemonstrated the robustness of machine learning models for antimicrobial resistance prediction using large-scale clinical mass spectra profiles. C_LIO_LIAnalyzed the impact of data heterogeneity on the training and performance of machine learning models, emphasizing the need to account for variability in clinical routine data to enhance model reliability and generalizability. C_LI

Autori: Oliver Bader, Y. Park, M. Weig, C. Noll, A.-C. Hauschild

Ultimo aggiornamento: 2024-10-20 00:00:00

Lingua: English

URL di origine: https://www.biorxiv.org/content/10.1101/2024.10.18.617592

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.10.18.617592.full.pdf

Licenza: https://creativecommons.org/licenses/by-nc/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili