Migliorare l'etichettatura dei dati nell'apprendimento attivo
Due metodi mirano a migliorare l'etichettatura dei dati per ottenere risultati di classificazione migliori.
― 7 leggere min
Indice
I metodi di classificazione supervisionati aiutano a risolvere vari problemi del mondo reale facendo previsioni basate su dati etichettati. L’efficacia di questi metodi dipende molto dalla qualità delle etichette usate durante l’addestramento. Tuttavia, raccogliere etichette di buona qualità può essere complicato e costoso, rendendo difficile utilizzare questi algoritmi in situazioni reali.
Per affrontare questo problema, i ricercatori spesso usano l’Apprendimento Attivo. Questa tecnica si concentra sulla scelta dei campioni di dati più significativi da etichettare, massimizzando così l’efficienza del processo di Etichettatura. Tuttavia, affinché l’apprendimento attivo funzioni al meglio, le etichette ottenute dagli Esperti devono essere di alta qualità e in quantità sufficiente. In molti casi, ciò crea un dilemma: dobbiamo chiedere a più esperti di etichettare lo stesso campione per garantire la qualità, o dovremmo concentrarci su etichettare più campioni in totale?
Questo articolo discute il problema delle annotazioni di bassa qualità nelle configurazioni di apprendimento attivo. L’obiettivo è presentare due nuovi metodi per unificare le diverse annotazioni degli esperti, sfruttando i dati non etichettati. I metodi proposti sono progettati per funzionare efficacemente anche quando i campioni sono etichettati da diversi esperti.
Le Sfide della Etichettatura dei Dati
Gli algoritmi di apprendimento supervisionato giocano un ruolo importante nella costruzione di modelli predittivi per diversi compiti. Tuttavia, il loro successo dipende principalmente dalla disponibilità di un dataset ben etichettato durante l’addestramento. Nella vita reale, spesso partiamo da nessuna etichetta o solo poche, poiché etichettare i dati richiede un notevole sforzo umano e risorse finanziarie.
Per rendere il processo di etichettatura più efficiente e conveniente, le tecniche di apprendimento attivo sono ampiamente implementate. Gli algoritmi di apprendimento attivo selezionano i campioni più preziosi da un pool più ampio di dati non etichettati, che vengono poi inviati agli esperti per l’Annotazione. Anche se alcune etichette possono essere generate attraverso metodi automatizzati, molti compiti continuano a dipendere dall’input umano, specialmente in aree come le notifiche di allerta sulla sicurezza.
Gli annotatori umani non sono perfetti e le loro etichette possono contenere errori, il che influisce negativamente sulle prestazioni dei modelli costruiti su quelle etichette. La probabilità di errori è influenzata dalla complessità del compito e dall’expertise degli annotatori. Quando questi errori si accumulano, è necessario applicare metodi di correzione. Due approcci comuni includono l’unificazione delle annotazioni da più esperti o l’identificazione e filtraggio delle etichette errate.
Il primo approccio sfrutta il fatto che esperti diversi potrebbero etichettare accuratamente alcuni campioni. Questo metodo richiede di solito che più esperti etichettino ogni campione, il che può essere una sfida quando le risorse sono limitate. Il secondo approccio cerca di trovare ed eliminare i campioni etichettati in modo errato, ma corre il rischio di scartare etichette corrette, il che potrebbe portare a un modello eccessivamente semplificato che manca di informazioni vitali.
Metodi Proposti
Questo documento introduce due algoritmi che migliorano il processo di unificazione delle annotazioni: consenso inferito e consenso simulato. Entrambi gli algoritmi si basano su un metodo ben noto chiamato Expectation-Maximization (EM) e mirano a migliorare l’etichettatura anche quando i campioni mancano di più annotazioni esperte.
Il consenso inferito utilizza le annotazioni esistenti degli esperti per prevedere le etichette per i campioni non etichettati. Praticamente, l’idea è di presumere come un esperto avrebbe etichettato un campione che non ha effettivamente annotato. Per ogni esperto, viene creato un modello di machine learning utilizzando i campioni che hanno etichettato, che viene poi utilizzato per stimare le etichette per l’intero dataset.
Il consenso simulato migliora l’approccio inferito addestrando modelli in modo che inferiscano etichette solo per campioni non visti dall’esperto originale. Questo aiuta a creare un insieme di etichette più affidabile mantenendo traccia della qualità dei contributi di ciascun annotatore.
Affrontare Dataset Imbalance
Quando si utilizzano algoritmi come EM, è importante tenere in considerazione come vengono assegnate le etichette di classe. Una soglia comune per distinguere tra classi è solitamente fissata a 0.5, ma questo può essere problematico in casi di dati sbilanciati, dove una classe è molto meno frequente di un’altra.
In situazioni in cui la distribuzione delle classi è sconosciuta, determinare una soglia efficace può essere difficile. Questo articolo propone un approccio per calcolare una soglia basata sulle probabilità previste per tutti i campioni durante l’addestramento. Mediando le probabilità per ciascuna classe, possiamo creare un punto di cut-off più informato, che aiuta a migliorare le prestazioni dei modelli su dataset sbilanciati.
Impostazione Sperimentale
Per valutare l’efficacia degli algoritmi proposti, è stata creata una configurazione di test che assomiglia a scenari reali di apprendimento attivo. Poiché non è pratico ottenere etichette umane solo per esperimenti, è stato sviluppato un metodo per generare annotazioni utilizzando dataset pubblici noti.
Il processo ha coinvolto la creazione di etichette binarie per un numero definito di esperti simulando il loro comportamento di annotazione. Abbiamo raggiunto questo estraendo distribuzioni statistiche per definire quanto fosse probabile che un esperto etichettasse un determinato campione, considerando anche i loro tassi di accuratezza.
Gli esperimenti sono stati condotti su quattro dataset di ricerca con caratteristiche diverse. Questa diversità è stata essenziale per garantire la robustezza dei metodi proposti in vari contesti. I ricercatori hanno seguito una procedura di test ripetitiva per ciascun dataset per raccogliere risultati significativi e significatività statistica.
Metriche di Valutazione
Sono stati utilizzati tre tipi di metriche di valutazione per valutare i metodi proposti:
Metriche sulla Qualità delle Annotazioni: Queste metriche valutano l’efficacia dei metodi nel fornire probabilità accurate per ciascun campione in base alle annotazioni ricevute dagli esperti.
Stima della Qualità degli Esperti: Questa sezione misura quanto bene gli algoritmi possano valutare l’affidabilità di ciascun esperto in base alle loro annotazioni.
Prestazioni del Modello di Machine Learning: Infine, la valutazione include metriche dei modelli di machine learning addestrati sulle etichette stimate, misurando quanto bene questi modelli si comportino sui dataset di test.
Risultati e Discussione
I risultati hanno dimostrato che l’algoritmo di consenso simulato ha superato significativamente altri approcci nella maggior parte dei casi. Questa scoperta suggerisce che introdurre annotazioni simulate aiuta a ottenere una migliore qualità delle etichette e migliora l’accuratezza dei modelli.
Lo studio ha anche rivelato che la qualità dei modelli addestrati variava a seconda del dataset utilizzato. Anche se i metodi di consenso proposti si sono comportati bene in dataset strutturati, il loro vantaggio è diminuito in scenari sbilanciati in cui il voto di maggioranza con la soglia predefinita ha funzionato inaspettatamente bene.
Conclusione
In conclusione, questo articolo affronta la sfida delle annotazioni di dati di bassa qualità negli ambienti di apprendimento attivo. Introducendo due nuovi metodi per unificare le annotazioni, possiamo migliorare il processo di etichettatura e aumentare le prestazioni degli algoritmi di classificazione. Questi metodi possono gestire dataset sbilanciati in modo efficace senza necessitare di informazioni pregresse sulle distribuzioni delle classi.
I risultati suggeriscono che utilizzare simulatori per le annotazioni degli esperti può portare a una migliore valutazione della qualità e dell'affidabilità delle etichette. I lavori futuri dovrebbero esplorare ulteriormente questi metodi in vari contesti e ampliare la ricerca per comprendere la relazione tra la qualità delle etichette e le prestazioni dei modelli di machine learning.
Le implicazioni di questa ricerca si estendono a vari campi in cui viene applicato l’apprendimento attivo, indicando una chiara via da seguire per migliorare i processi di etichettatura dei dati in un’ampia gamma di applicazioni. Ulteriori sperimenti e validazioni aiuteranno a consolidare i risultati presentati e incoraggeranno un'esplorazione continua in quest’area.
Titolo: Robust Assignment of Labels for Active Learning with Sparse and Noisy Annotations
Estratto: Supervised classification algorithms are used to solve a growing number of real-life problems around the globe. Their performance is strictly connected with the quality of labels used in training. Unfortunately, acquiring good-quality annotations for many tasks is infeasible or too expensive to be done in practice. To tackle this challenge, active learning algorithms are commonly employed to select only the most relevant data for labeling. However, this is possible only when the quality and quantity of labels acquired from experts are sufficient. Unfortunately, in many applications, a trade-off between annotating individual samples by multiple annotators to increase label quality vs. annotating new samples to increase the total number of labeled instances is necessary. In this paper, we address the issue of faulty data annotations in the context of active learning. In particular, we propose two novel annotation unification algorithms that utilize unlabeled parts of the sample space. The proposed methods require little to no intersection between samples annotated by different experts. Our experiments on four public datasets indicate the robustness and superiority of the proposed methods in both, the estimation of the annotator's reliability, and the assignment of actual labels, against the state-of-the-art algorithms and the simple majority voting.
Autori: Daniel Kałuża, Andrzej Janusz, Dominik Ślęzak
Ultimo aggiornamento: 2023-07-25 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2307.14380
Fonte PDF: https://arxiv.org/pdf/2307.14380
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.