Affrontare il rumore nei registri sanitari elettronici per il machine learning
Il nostro studio usa tecniche di visione artificiale per migliorare l'accuratezza delle etichette nei dati EHR.
― 10 leggere min
Indice
Negli ultimi anni, la sanità ha visto un grande aumento dei dati digitali. Un tipo principale di dato sono le cartelle cliniche elettroniche (EHR). Le EHR contengono dettagli importanti sui pazienti, come la loro storia medica, diagnosi, farmaci e risultati dei test. Questo passaggio ai registri digitali ha migliorato la sicurezza dei pazienti e reso la sanità più efficiente. L'aumento dei dati offre anche nuove opportunità per il machine learning (ML) nel settore sanitario. Utilizzando questi dati, il ML può aiutare a creare piani di trattamento migliori e prevedere gli esiti sanitari, portando a una migliore assistenza ai pazienti.
Tuttavia, mentre le EHR forniscono una risorsa preziosa per il ML, presentano anche delle sfide. Problemi come errori di immissione dei dati, informazioni mancanti, incongruenze, errori di sistema e risultati dei test errati possono introdurre rumore e errori nei dati. Gli studi hanno mostrato che molti pazienti hanno segnalato errori nelle loro EHR, con alcuni di questi errori considerati gravi. Gli errori nei registri sanitari possono influenzare negativamente l'assistenza ai pazienti e la ricerca. Pertanto, garantire che i dati delle EHR siano accurati e completi rimane una sfida significativa.
Nonostante questa consapevolezza sugli errori potenziali, molti modelli di ML esistenti assumono che i dati siano puliti e accurati. Questa assunzione non è valida per i dati del mondo reale, che possono essere rumorosi e difettosi. La ricerca ha dimostrato che i modelli di ML, in particolare i modelli di deep learning (DL), possono facilmente adattarsi in modo eccessivo a questi dati rumorosi. L'overfitting significa che il modello impara il rumore nei dati di addestramento piuttosto che i veri schemi. Questo porta a prestazioni scadenti quando vengono presentati nuovi dati non visti, il che è problematico per l'assistenza ai pazienti.
Per affrontare queste sfide, ci concentriamo sul miglioramento dei metodi di ML per gestire i dati rumorosi, specificamente nel contesto delle EHR. Il nostro studio sottolinea i casi in cui le etichette attaccate ai dati sono problematiche, ispirandoci ad approcci nella computer vision (CV) che hanno mostrato promesse nel gestire Etichette Rumorose. È importante notare che i dati delle EHR sono molto diversi dai dati delle immagini. Mentre le immagini si basano sui valori dei pixel, le EHR contengono una varietà di informazioni, comprese le cartelle dei pazienti, codici e diversi dettagli clinici.
Facendo semplici modifiche per adattare le tecniche CV ai dati delle EHR, abbiamo scoperto che questi metodi possono ridurre significativamente i rischi associati alle etichette rumorose. La nostra ricerca esamina anche la possibilità di combinare più approcci per migliorare ulteriormente le prestazioni dei modelli di ML sui dati delle EHR.
Lavori Correlati
Diverse strategie sono state utilizzate in vari settori per affrontare le sfide poste dalle etichette rumorose per i compiti di ML. Questi metodi possono essere generalmente categorizzati in due tipi principali: 1) correzione delle etichette e 2) regolarizzazione.
La correzione delle etichette mira a trovare e correggere i punti dati etichettati in modo errato. Una tecnica comune è la pulizia dei dati, che implica la rimozione di dati ovviamente errati. Questo può essere fatto manualmente o attraverso algoritmi che identificano gli outlier. Tuttavia, il lavoro manuale richiede tempo e può essere costoso, e rimuovere campioni può portare a perdere informazioni utili. Altri metodi basati su algoritmi, come il self-training e il co-training, aggiornano le etichette in base alle previsioni del modello.
Tuttavia, questi approcci si basano sull'avere alcune etichette iniziali pulite, che spesso non è il caso nelle impostazioni cliniche reali. Di conseguenza, ci siamo concentrati sui metodi di regolarizzazione, che regolano il modo in cui i modelli apprendono per aiutare a tenere conto del rumore. Questi includono l'uso di funzioni di perdita robuste, smoothing delle etichette e tecniche che promuovono la coerenza nelle previsioni.
Le funzioni di perdita robuste mirano a ridurre l'influenza degli outlier e delle etichette rumorose. Anche se possono aiutare, possono anche comportare la perdita di informazioni preziose, in particolare nei dati sanitari dove gli outlier possono essere importanti. Lo smoothing delle etichette, d'altra parte, aggiunge un po' di incertezza alle etichette obiettivo durante l'addestramento. Questa tecnica ha dimostrato di aiutare i modelli a generalizzare meglio senza diventare troppo sicuri nelle loro previsioni.
Un'altra tecnica rilevante è il Mix-up, che crea nuovi esempi mescolando diversi punti dati. Questo approccio può aiutare a prevenire che i modelli imparino a fare affidamento solo sulle relazioni tra le caratteristiche e le loro etichette. Ci sono anche metodi che impongono coerenza tra le previsioni per punti dati simili, il che aiuta i modelli a imparare schemi robusti anche in presenza di etichette rumorose.
Sebbene ci siano opzioni per gestire le etichette rumorose, pochissimi studi di ricerca si sono concentrati specificamente sui dati delle EHR. Alcuni lavori recenti hanno affrontato il rumore delle etichette nella sanità, ma spesso con la necessità di avere dataset puliti e rumorosi separati. Il nostro approccio non dipende dal sapere quali punti dati sono etichettati correttamente; dimostriamo che tecniche come la Regolarizzazione di Coerenza dei Vicini (NCR), il Mix-up e lo smoothing delle etichette possono essere applicate efficacemente alle EHR con modifiche minime.
Dati e Metodi
Il nostro studio utilizza dati reali provenienti da uno studio di caso COVID-19. L'obiettivo è classificare i pazienti come COVID positivi o negativi in base alle loro EHR. A quel tempo, il test era obbligatorio, il che significava che c'era un sacco di dati disponibili per l'analisi. Tuttavia, l'affidabilità dei risultati dei test variava, specialmente all'inizio della pandemia, creando incertezza sullo stato virale reale dei pazienti. Questo ha reso il nostro studio di caso ideale per testare lo sviluppo del modello in mezzo a etichette rumorose.
Abbiamo utilizzato i dataset CURIAL, che contengono dati EHR anonimizzati di pazienti che visitano i pronto soccorso in vari ospedali. Con l'approvazione del NHS del Regno Unito per l'uso di modelli AI per rilevare il COVID-19, questi dataset forniscono una solida base per l'analisi.
In studi precedenti, i modelli di ML addestrati su caratteristiche EHR hanno dimostrato diagnosi più rapide per il COVID-19 rispetto ai test tradizionali. Abbiamo cercato di costruire modelli simili utilizzando test di laboratorio di routine e segni vitali raccolti durante le visite di emergenza. I dati includevano varie caratteristiche, che abbiamo standardizzato prima dell'analisi.
Per gestire la presenza di valori mancanti, abbiamo utilizzato un metodo noto come imputazione della mediana della popolazione. Abbiamo affrontato il rumore delle etichette nei nostri dataset cambiando casualmente alcune etichette di diagnosi in valori errati. Questo ha incluso la simulazione di risultati falsi negativi e falsi positivi in base all’accuratezza stimata dei test.
Per il nostro modello di riferimento, abbiamo impiegato un'architettura di rete neurale che era già stata efficace nei compiti di classificazione del COVID-19. Inoltre, abbiamo usato XGBoost, un metodo ensemble che combina le previsioni di più modelli per migliorare le prestazioni complessive.
Tecniche Ispirate alla CV per Affrontare le Etichette Rumorose
Nella nostra ricerca, abbiamo esaminato l'efficacia di tecniche originariamente sviluppate per compiti di CV, ma che potrebbero essere adattate per i dati delle EHR. Sono stati analizzati tre metodi chiave: smoothing delle etichette, Mix-up e Regolarizzazione di Coerenza dei Vicini (NCR).
Smoothing delle Etichette
Lo smoothing delle etichette aggiunge una piccola quantità di incertezza alle etichette obiettivo durante l'addestramento. Anziché utilizzare un perfetto 0 o 1 per l'etichetta corretta, regoliamo leggermente i valori, in base al numero di classi. Questo aiuta il modello a evitare di diventare troppo sicuro nelle sue previsioni, il che può essere particolarmente utile in ambienti rumorosi.
Mix-up
Il Mix-up crea nuovi esempi di addestramento combinando caratteristiche ed etichette di punti dati esistenti. Prendendo medie ponderate di due campioni, il modello impara a interpretare le relazioni tra caratteristiche ed etichette in modo più generale. Questo aiuta a costruire resilienza al rumore presente nei dati.
Regolarizzazione di Coerenza dei Vicini (NCR)
La NCR impone il principio che esempi simili, anche se classificati in modo errato, dovrebbero portare a previsioni simili. Invece di fare affidamento solo su etichette rumorose, il modello è incoraggiato a produrre output coerenti per punti dati simili. Ciò significa che la classificazione dovrebbe basarsi sulle informazioni condivise piuttosto che solo su etichette potenzialmente errate.
Abbiamo combinato la NCR con la nostra funzione di perdita principale per creare una nuova funzione obiettivo da ottimizzare durante l'addestramento.
Metriche di Valutazione
L'efficacia dei modelli è stata valutata utilizzando metriche di classificazione comuni. Queste includevano l'area sotto la curva della caratteristica operativa del ricevitore (AUROC), l'area sotto la curva precision-recall (AUPRC), sensibilità e specificità. Abbiamo anche assicurato di riportare gli intervalli di confidenza per i nostri risultati.
Per scegliere i migliori parametri del modello, abbiamo condotto un'ottimizzazione degli iperparametri utilizzando grid search e validazione incrociata standard. Dopo che l'addestramento era completo, abbiamo regolato le soglie per garantire una sensibilità clinicamente accettabile per l'identificazione dei casi positivi di COVID-19.
Confronto dei Metodi
La nostra analisi comparativa ha valutato quanto bene ciascun metodo ha performato sotto diverse quantità di rumore delle etichette. I risultati hanno mostrato che le tecniche adattate dalla CV hanno significativamente migliorato i modelli di riferimento. Sia il Mix-up che i metodi NCR si sono distinti come particolarmente efficaci nella gestione delle etichette rumorose.
Inoltre, abbiamo scoperto che combinare i due metodi spesso dava risultati migliori rispetto all'uso separato. I modelli addestrati utilizzando la NCR mostrano prestazioni più coerenti attraverso vari livelli di rumore. Questo indica che implementare la NCR è vantaggioso per generalizzare su diversi dataset.
Lo smoothing delle etichette, tuttavia, non ha performato altrettanto bene. L'aggiunta di rumore sia alle etichette buone che a quelle cattive ne ha diminuito l'efficacia, specialmente quando i dati erano già rumorosi.
Analisi Estesa con la Regolarizzazione di Coerenza dei Vicini
Dopo aver determinato i migliori iperparametri, abbiamo condotto uno studio di ablazione per analizzare l'impatto di diversi fattori sulle prestazioni della NCR a vari livelli di rumore.
Impatto degli Iperparametri
Abbiamo esplorato come vari iperparametri influenzassero la capacità del modello di gestire il rumore. Questi includevano il punto di partenza per la NCR, il peso della regolarizzazione NCR, così come il numero di vicini più prossimi considerati durante l'addestramento. È stato notato che fornire una fase di addestramento iniziale utilizzando solo la funzione di perdita standard della cross-entropy prima di introdurre la NCR migliorava i risultati.
Analisi dell'Embedding delle Caratteristiche
Esaminando gli embedding delle caratteristiche, potevamo valutare quanto bene i modelli catturassero i modelli sottostanti nei dati. La separazione tra classi nello spazio delle caratteristiche è migliorata quando si utilizzava la NCR, indicando che il modello ha appreso distinzioni significative nonostante le etichette rumorose.
Analisi della Fiducia nella Predizione
Un'analisi della fiducia nella predizione ha rivelato che la NCR ha aiutato il modello ad assegnare una maggiore fiducia ai campioni etichettati correttamente. Al contrario, il modello addestrato senza NCR tendeva a classificare erroneamente molti campioni corretti, dimostrando che la NCR gioca un ruolo chiave nel prevenire l'overfitting.
Conclusione
In sintesi, la nostra indagine evidenzia l'efficacia dell'integrazione dei metodi della CV per affrontare le sfide presentate dalle etichette rumorose nei dati delle EHR. Adattando tecniche come lo smoothing delle etichette, il Mix-up e la NCR, possiamo migliorare la robustezza e l'affidabilità dei modelli di ML nei contesti sanitari.
I risultati dimostrano che i modelli addestrati senza tecniche di mitigazione del rumore spesso faticano a generalizzare e mostrano prestazioni scarse con nuovi dati. Al contrario, le nostre scoperte confermano che metodi come il Mix-up e la NCR portano a risultati migliori, specialmente di fronte a livelli elevati di rumore delle etichette.
Inoltre, combinare queste tecniche porta a miglioramenti ancora maggiori, mostrando il potenziale per utilizzare più approcci per combattere efficacemente il rumore delle etichette.
Pur concentrandosi sul rumore delle etichette, è importante considerare che altri aspetti, come il rumore delle caratteristiche e i dati mancanti, possono anche influenzare le prestazioni del modello. Le ricerche future dovrebbero investigare ulteriormente queste aree e esplorare tecniche aggiuntive per migliorare la qualità dei dati delle EHR.
In conclusione, questo studio apre la strada a un'analisi più efficace dei dati delle EHR, offrendo nuove opportunità per migliorare i risultati sanitari e la ricerca in questo settore vitale.
Titolo: Addressing Label Noise for Electronic Health Records: Insights from Computer Vision for Tabular Data
Estratto: The analysis of extensive electronic health records (EHR) datasets often calls for automated solutions, with machine learning (ML) techniques, including deep learning (DL), taking a lead role. One common task involves categorizing EHR data into predefined groups. However, the vulnerability of EHRs to noise and errors stemming from data collection processes, as well as potential human labeling errors, poses a significant risk. This risk is particularly prominent during the training of DL models, where the possibility of overfitting to noisy labels can have serious repercussions in healthcare. Despite the well-documented existence of label noise in EHR data, few studies have tackled this challenge within the EHR domain. Our work addresses this gap by adapting computer vision (CV) algorithms to mitigate the impact of label noise in DL models trained on EHR data. Notably, it remains uncertain whether CV methods, when applied to the EHR domain, will prove effective, given the substantial divergence between the two domains. We present empirical evidence demonstrating that these methods, whether used individually or in combination, can substantially enhance model performance when applied to EHR data, especially in the presence of noisy/incorrect labels. We validate our methods and underscore their practical utility in real-world EHR data, specifically in the context of COVID-19 diagnosis. Our study highlights the effectiveness of CV methods in the EHR domain, making a valuable contribution to the advancement of healthcare analytics and research.
Autori: Jenny Yang, H. Triendl, A. A. S. Soltan, M. Prakash, D. A. Clifton
Ultimo aggiornamento: 2023-10-17 00:00:00
Lingua: English
URL di origine: https://www.medrxiv.org/content/10.1101/2023.10.17.23297136
Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.10.17.23297136.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia medrxiv per l'utilizzo della sua interoperabilità ad accesso aperto.