Simple Science

Scienza all'avanguardia spiegata semplicemente

# Scienze della salute# Neurologia

Sfide e Progressi nel Deep Learning per l'Analisi dell'EEG

Questo studio affronta le complessità dell'uso del deep learning per l'analisi dei dati EEG.

― 8 leggere min


Deep Learning nell'EEG:Deep Learning nell'EEG:Ostacoli da Affrontareproblemi di accordo tra esperti.sull'analisi EEG deve affrontare seriValutare l'impatto del deep learning
Indice

Automatizzare compiti complessi e che richiedono tempo può davvero migliorare l'efficienza, soprattutto in settori come l'analisi medica. Un'area in cui questo è possibile è l'analisi dell'EEG, che sta per elettroencefalogramma. Questa tecnologia registra l'attività elettrica nel cervello ed è spesso usata per rilevare varie condizioni. Il deep learning, un tipo di intelligenza artificiale, ha dimostrato di semplificare e velocizzare l'analisi dell'EEG.

Tuttavia, l'uso del deep learning in questo campo presenta delle sfide. È fondamentale valutare l'efficacia e i rischi di questa tecnologia. Questo include esaminare come gli esperti valutano diverse caratteristiche nei registri EEG, concentrandosi in particolare sul rilevamento delle scariche epilettiformi (ED). Queste scariche sono attività cerebrali anormali che possono indicare l'epilessia. Spesso, l'efficacia dei Modelli di Deep Learning dipende dalle valutazioni degli esperti usate come etichette per addestrare i modelli.

Accordo tra Esperti e Sfide

Attualmente, non esiste un modo universalmente accettato per definire o misurare oggettivamente le ED. Gli esperti, formati per valutare i registri EEG, a volte non sono d'accordo su se una certa scarica sia un'ED. Questo disaccordo può portare a quello che viene chiamato "rumore di etichetta", dove l'incoerenza tra le etichette degli esperti può influenzare negativamente l'addestramento dei modelli di deep learning. Per determinare quanto gli esperti siano d'accordo nell'identificare le ED, vengono comunemente utilizzate diverse misure quantitative, tra cui la percentuale di accordo e vari punteggi kappa. La percentuale di accordo mostra semplicemente la percentuale di casi in cui gli esperti sono d'accordo, mentre i punteggi kappa aiutano ad aggiustare questo per il caso.

Gli studi che hanno analizzato l'accordo tra esperti nella valutazione delle ED hanno trovato che ci può essere una variazione considerevole nelle loro valutazioni. In alcuni casi, gli esperti possono essere d'accordo solo parzialmente, il che suggerisce che la classificazione delle ED sia in qualche modo soggettiva. Guardando i dati, sembra che l'accordo sia generalmente moderato per le singole ED e più forte quando si valutano le ED su interi registri EEG.

Dato che queste valutazioni degli esperti vengono usate come etichette di addestramento per i classificatori di deep learning, eventuali incoerenze possono portare a una performance peggiore nell'identificare le ED. Questa sfida sottolinea l'importanza di raggiungere un elevato livello di accordo tra esperti prima di addestrare i modelli.

Prestazioni dei Modelli di Deep Learning

Le prestazioni dei modelli di deep learning nel rilevamento delle ED sono state valutate in molti studi. L'accuratezza (ACC) e l'area sotto la curva (AUC) sono spesso utilizzate per misurare quanto bene questi modelli funzionino. L'accuratezza indica quanto spesso il modello identifica correttamente le ED, mentre l'AUC fornisce un'idea della capacità complessiva del modello di distinguere tra ED e altre scariche. Molti studi hanno riportato valori mediani elevati sia per l'accuratezza che per l'AUC, mostrando il potenziale di questi modelli in contesti clinici.

Tuttavia, ci sono una gamma di metriche di performance tra i diversi studi, rendendo difficili i confronti diretti. Variazioni nelle dimensioni dei dati, nei metodi di calcolo dell'accuratezza e nelle valutazioni degli esperti contribuiscono a queste discrepanze. Alcuni modelli, come il sistema commerciale Persyst 13, sono stati confrontati con le valutazioni degli esperti e hanno mostrato prestazioni comparabili nel rilevamento delle ED, anche se i metodi esatti utilizzati sono a volte poco chiari.

Necessità di Studi sull'Accordo tra Valutatori

Per comprendere meglio come i classificatori di deep learning apprendono dalle valutazioni degli esperti, è cruciale valutare il livello di accordo tra di loro. È stato condotto uno studio pilota utilizzando dati EEG in cui due neurofisiologi esperti hanno annotato indipendentemente le ED. Questi dati sono serviti come base per addestrare diversi classificatori per valutare quanto bene potessero abbinare le annotazioni degli esperti. Lo studio mirava anche a visualizzare i risultati utilizzando una nuova tecnica di clustering, che raggruppa insieme scariche simili.

I dati EEG utilizzati in questo studio sono stati scelti perché contenevano varie potenziali ED. Questa varietà ha fornito un dataset robusto sia per l'annotazione che per l'addestramento successivo dei modelli. Gli esperti sono stati istruiti a concentrarsi solo sull'identificare scariche con chiare caratteristiche epilettiformi. Non sono state fornite definizioni specifiche, consentendo interpretazioni individuali di cosa costituisse un'ED.

Metodologia

Raccolta dei Dati EEG

Il registro EEG scelto è durato circa 78 minuti e includeva dati provenienti da diversi elettrodi posizionati secondo un sistema di posizionamento standard. L'EEG rappresentava un caso con scariche periodiche continue di diverse forme, con un sottoinsieme classificato come epilettiforme. Questo ha permesso di avere una quantità sufficiente di dati da analizzare e addestrare i classificatori.

Per preparare i dati all'analisi, sono stati filtrati e normalizzati per garantire coerenza durante tutto il registro. L'EEG è stato poi annotato da due neurofisiologi esperti che hanno contrassegnato indipendentemente le scariche che hanno identificato come ED.

Processo di Annotazione

Gli esperti hanno utilizzato un'interfaccia grafica (GUI) progettata per facilitare la visualizzazione dell'EEG. Hanno contrassegnato i picchi di ciascuna scarica in modo indipendente, senza ulteriori direttive. Questo processo è durato circa due ore, generando un numero sostanziale di annotazioni. I risultati di entrambi gli esperti sono stati confrontati per valutare il livello di accordo nelle loro annotazioni.

I ricercatori hanno anche analizzato le scariche periodiche (PD) nell'EEG. Intendevano trattare le scariche epilettiformi come un sottoinsieme delle scariche periodiche. Questa distinzione era fondamentale per garantire che le etichette finali riflettessero una vera rappresentazione dei dati sottostanti.

Addestramento dei Modelli e Deep Learning

Sono stati sviluppati modelli di deep learning per classificare i dati EEG in base alle annotazioni fornite dagli esperti. I modelli sono stati costruiti utilizzando un'architettura specifica contenente diversi strati e sono stati addestrati per ridurre al minimo la differenza tra le loro previsioni e le annotazioni degli esperti. Il processo di addestramento ha comportato l'aggiustamento delle soglie per rilevare le ED affinché si allineassero strettamente con le valutazioni degli esperti.

I modelli sono stati sottoposti a un rigoroso processo di valutazione che comprendeva la validazione incrociata. I dati sono stati divisi in diversi segmenti per garantire che tutte le aree dell'EEG fossero valutate equamente. Gli iperparametri e le impostazioni di addestramento sono stati scelti con cura per massimizzare le prestazioni senza sovradattare i modelli ai dati di addestramento.

Metriche di Valutazione delle Prestazioni

Per garantire una valutazione completa, è stata utilizzata una varietà di metriche di performance, come l'accuratezza bilanciata, il coefficiente di correlazione di Matthew e il richiamo. Queste metriche hanno fornito una visione multifocale di quanto bene funzionassero i classificatori rispetto alle valutazioni degli esperti.

Risultati

Accordo tra Esperti

Lo studio ha trovato che i due esperti hanno identificato rispettivamente un totale di 1.709 e 1.430 ED, con solo 886 di queste concordate. Questo ha evidenziato la variabilità intrinseca che può esistere anche tra professionisti formati. Il livello di accordo, misurato attraverso i punteggi kappa, ha indicato una correlazione moderata tra le valutazioni degli esperti. Confrontando i risultati del classificatore con le annotazioni degli esperti, sono emersi schemi di accordo simili.

Prestazione del Classificatore

Le prestazioni dei classificatori sono state miste ma per lo più moderate in base alle metriche di valutazione utilizzate. I classificatori hanno identificato un certo numero di ED, ma molte di queste erano falsi positivi provenienti da scariche periodiche, il che indica la necessità di ulteriori affinamenti. Sebbene i classificatori abbiano raggiunto un'alta accuratezza complessiva, la loro sensibilità, che indica quanto bene possono rilevare le reali ED, era leggermente inferiore.

Analisi dei Cluster

È stata eseguita un'analisi dei cluster per visualizzare le distribuzioni delle scariche identificate. I risultati hanno mostrato che sia gli esperti che i classificatori tendevano ad aggregare scariche simili, indicando una comprensione condivisa di dove potrebbero verificarsi le ED. Tuttavia, esistevano differenze nel modo in cui queste venivano identificate, suggerendo che le soglie interne per la valutazione variavano.

Discussione

I risultati di questo studio pilota sottolineano l'importanza di raggiungere un accordo costante tra esperti prima di fare affidamento sui loro input per l'addestramento di modelli di deep learning. La variabilità nelle valutazioni degli esperti può portare a rumore di etichetta, incidendo negativamente sulle prestazioni del modello.

L'uso del deep learning nell'analisi dell'EEG mostra buone potenzialità, ma non è senza sfide. I classificatori addestrati su etichette incoerenti possono avere difficoltà a produrre risultati affidabili, sottolineando la necessità di definizioni chiare e protocolli di addestramento.

Man mano che più dati EEG diventano disponibili e più esperti sono inclusi nel processo di annotazione, raggiungere un ampio consenso su cosa costituisca un'ED sarà cruciale per migliorare l'accuratezza del modello. Gli studi futuri dovrebbero mirare a replicare questi risultati su diversi dataset e gruppi più ampi di esperti, il che potrebbe aiutare a convalidare i risultati e garantire che i modelli siano robusti.

Conclusione

Mentre l'automazione nell'analisi dell'EEG continua a evolversi, è essenziale bilanciare l'uso di tecnologie sofisticate con valutazioni esperte di alta qualità. Assicurare un accordo costante tra esperti sarà fondamentale per sfruttare appieno il potenziale del deep learning in questo campo. La ricerca in corso e la collaborazione tra esperti faciliteranno lo sviluppo di strumenti più accurati e affidabili per l'uso clinico, beneficiando infine la cura dei pazienti.

Fonte originale

Titolo: Interrater agreement of annotations of epileptiform discharges and its impact on deep learning: A pilot study

Estratto: 1.BackgroundExpert interrater agreement for epileptiform discharges can be moderate. This reasonably will affect the performance when developing classifiers based on annotations performed by experts. In addition, evaluation of classifier performance will be difficult since the ground truth will have a variability. In this pilot study, these aspects were investigated to evaluate the feasibility of conducting a larger study on the subject. MethodsA multi-channel EEG of 78 minutes duration with abundant periodic discharges was independently annotated for epileptiform discharges by two experts. Based on this, several deep learning classifiers were developed which in turn produced new annotations. The agreements of all annotations were evaluated by pairwise comparisons using Cohens kappa and Gwets AC1. A cluster analysis was performed on all periodic discharges using a newly developed version of parametric t-SNE to assess the similarity between annotations. ResultsThe Cohens kappa values were 0.53 for the experts, 0.52-0.65 when comparing the experts to the classifiers, and 0.67-0.82 for the classifiers. The Gwets AC1 values were 0.92 for the experts, 0.92-0.94 when comparing the experts to the classifiers, and 0.94-0.96 for the classifiers. Although there were differences between all annotations regarding which discharges that had been selected as epileptiform, the selected discharges were mostly similar according to the cluster analysis. Almost all identified epileptiform discharges by the classifiers were also periodic discharges. ConclusionsThere was a discrepancy between agreement scores produced by Cohens kappa and Gwets AC1. This was probably due to the skewed prevalence of epileptiform discharges, which only constitutes a small part of the whole EEG. Gwets AC1 is often considered the better option and the results would then indicate an almost perfect agreement. However, this conclusion is questioned when considering the number of differently classified discharges. The difference in annotation between experts affected the learning of the classifiers, but the cluster analysis indicates that all annotations were relatively similar. The difference between experts and classifiers is speculated to be partly due to intrarater variability of the experts, and partly due to underperformance of the classifiers. For a larger study, in addition to using more experts, intrarater agreement should be assessed, the classifiers can be further optimized, and the cluster method hopefully be further improved.

Autori: Mats Svantesson, A. Eklund, M. Thordstein

Ultimo aggiornamento: 2024-04-12 00:00:00

Lingua: English

URL di origine: https://www.medrxiv.org/content/10.1101/2024.04.10.24305602

Fonte PDF: https://www.medrxiv.org/content/10.1101/2024.04.10.24305602.full.pdf

Licenza: https://creativecommons.org/licenses/by-nc/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia medrxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili