Affrontare il problema del bilanciamento delle classi con tecniche di sostituzione dei verbi
Questo articolo parla di come usare la sostituzione dei verbi per l'aumento dei dati nel machine learning.
― 6 leggere min
L'imbalance di classe è un problema comune nel machine learning. Succede quando una categoria ha molti più esempi di un'altra. Questo può portare a performance scadenti, soprattutto per la categoria con meno esempi. Una soluzione a questo problema è creare più esempi per la categoria meno comune usando un metodo chiamato data augmentation.
Che cos'è la Data Augmentation?
La data augmentation si riferisce a tecniche che modificano i dati esistenti per creare nuovi campioni. Questo aiuta ad aumentare la varietà di esempi da cui un modello può imparare, il che può migliorare le sue performance. Ci sono tanti modi per fare data augmentation. Ad esempio, possiamo sostituire alcune parti di una frase o aggiungere elementi come rumore. In questo modo, forniamo al modello dati più diversificati senza dover raccogliere nuovi campioni.
La Sfida delle Richieste Mediche
Una zona dove la data augmentation può essere utile è nell'identificazione delle richieste mediche. Questo compito è importante per settori come la salute e l'assicurazione. Tuttavia, può essere difficile perché i dati per alcune categorie possono essere limitati. Ad esempio, potrebbero esserci molti esempi di domande ma pochissimi esempi di richieste. Per affrontare questa sfida, possiamo aumentare il numero di esempi per la categoria delle richieste usando la data augmentation.
Il Nostro Nuovo Approccio: Sostituzione dei Verbi
Proponiamo una nuova tecnica chiamata data augmentation controfattuale. L'idea principale è sostituire i verbi nelle frasi con altri verbi dei nostri dati di addestramento. Pensiamo che i verbi possano influenzare la categoria di una frase. Cambiandoli, creiamo nuove frasi che si riferiscono ancora alla richiesta originale ma sono abbastanza diverse da aiutare il modello a imparare.
Ad esempio, invece di dire "l'80% delle persone diagnosticate con IBS ha SIBO," potremmo cambiarlo in "l'80% delle persone diagnosticate con IBS causano SIBO." Questo metodo ci permette di creare più esempi mantenendo il contesto pertinente.
Confronto tra Tecniche Diverse
Per vedere quanto è efficace la nostra tecnica di sostituzione dei verbi, l'abbiamo confrontata con altri metodi di data augmentation. Questi metodi includevano:
- Sostituzione di Entità: Questo metodo scambia termini specifici in una frase con termini simili, creando nuove frasi con significati simili.
- Inserimento di Rumore: In questo metodo, aggiungiamo elementi casuali alle frasi, rendendole meno prevedibili.
- Augmentation tramite Chatbot: Abbiamo anche usato un chatbot chiamato YouChat per generare nuove frasi contraddicendo le originali. Ad esempio, se la frase originale afferma una richiesta, il chatbot produrrà una frase che afferma il contrario, che può comunque appartenere alla stessa categoria.
L'Impatto dell'Imbalance di Classe
L'imbalance di classe è un problema diffuso che si verifica in molti campi diversi. Per affrontare questo problema, sono stati usati metodi come l'oversampling e l'undersampling. L'oversampling significa prendere i pochi esempi nella categoria minoritaria e usarli più volte. L'undersampling significa ignorare alcuni esempi dalla categoria maggioritaria. Tuttavia, questi metodi hanno i loro svantaggi, come non fornire nuove informazioni o perdere dati preziosi.
La data augmentation fornisce un modo per creare nuovi dati, aiutando a ridurre l'imbalance di classe. Combinando parti di frasi diverse, i campioni risultanti diventano più diversificati. Questo aumento della diversità può aiutare a ridurre l'overfitting, che succede quando il modello impara troppo dai dati di addestramento e rende male su nuovi dati.
Panoramica del Dataset
Per i nostri esperimenti, abbiamo usato un dataset con oltre 5.700 testi. Questi testi erano divisi in diverse categorie. In un compito, le categorie includevano Richieste (CLA), Richieste per esperienza (EXP), Per esperienza (PER), e Domande (QUE). In un altro compito, le categorie erano Popolazione (POP), Intervento (INT), e Risultato (OUT).
Una sfida significativa era che alcune categorie avevano pochi esempi. Ad esempio, la categoria delle richieste (CLA) aveva molti meno campioni rispetto ad altre categorie. Questo sbilanciamento ha evidenziato la necessità di metodi di data augmentation efficaci.
Esplorazione dei Dati
Prima di applicare i nostri metodi, avevamo bisogno di capire meglio i dati. Abbiamo esaminato le lunghezze delle frasi, il numero di esempi in ciascuna categoria e la distribuzione complessiva delle classi. Questa esplorazione ha rivelato che una grande parte delle frasi apparteneva alla classe esterna (O), indicando che la maggior parte delle frasi non si adattava alle categorie specifiche che stavamo mirando.
Metodi per la Data Augmentation
Abbiamo testato quattro metodi di data augmentation per identificare richieste causali e tre metodi per estrarre dati PIO (Popolazione, Intervento, Risultato). I metodi includevano:
- Sostituzione di Entità: Questo metodo sostituisce entità nominate nelle frasi con simili.
- Sostituzione di Verbi: Come accennato in precedenza, questo metodo cambia i verbi nelle frasi per creare nuovi esempi.
- Inserimento di Rumore: Aggiungere caratteri o parole casuali per creare variazioni.
- Augmentation tramite Chatbot: Generare frasi contraddittorie.
Test dei Metodi
Dopo aver applicato questi metodi di augmentation, abbiamo misurato il loro impatto sui modelli. Ad esempio, abbiamo usato due modelli: Conditional Random Fields (CRF) e DistilBERT. Il modello CRF ha avuto prestazioni ragionevoli, soprattutto sulla categoria delle domande, mentre DistilBERT ha mostrato una performance generale migliore grazie al suo maggior numero di parametri.
I risultati hanno indicato che il nostro metodo di sostituzione dei verbi ha migliorato significativamente le performance del modello per la classe minoritaria. Al contrario, altri metodi come l'inserimento di rumore non hanno portato a miglioramenti e, in alcuni casi, hanno avuto un impatto negativo sui risultati.
Impatto di Molteplici Augmentazioni
Per esplorare ulteriormente, abbiamo provato a usare molteplici augmentazioni per ogni campione. Abbiamo scoperto che, mentre aggiungere più augmentazioni migliorava le performance per alcune categorie, aveva un effetto dannoso sulla categoria delle richieste. Questa scoperta suggerisce che aumentare i dati per la classe delle richieste potrebbe aiutare a migliorare i risultati nelle classi correlate.
Conclusione
In sintesi, abbiamo introdotto un approccio innovativo alla data augmentation attraverso la sostituzione dei verbi per affrontare il problema dell'imbalance di classe nell'identificazione delle richieste causali. I nostri risultati hanno mostrato che questo metodo ha influenzato positivamente le performance dei modelli di machine learning, soprattutto per la classe minoritaria. Confrontando la nostra tecnica con altri metodi comuni di augmentation, abbiamo trovato che la sostituzione dei verbi potrebbe superarli in casi specifici.
Questo lavoro evidenzia l'importanza di affrontare l'imbalance di classe e dimostra che tecniche di data augmentation ben pensate possono migliorare significativamente le performance del modello in compiti come l'identificazione delle richieste mediche.
Titolo: CAISA at SemEval-2023 Task 8: Counterfactual Data Augmentation for Mitigating Class Imbalance in Causal Claim Identification
Estratto: The class imbalance problem can cause machine learning models to produce an undesirable performance on the minority class as well as the whole dataset. Using data augmentation techniques to increase the number of samples is one way to tackle this problem. We introduce a novel counterfactual data augmentation by verb replacement for the identification of medical claims. In addition, we investigate the impact of this method and compare it with 3 other data augmentation techniques, showing that the proposed method can result in a significant (relative) improvement in the minority class.
Autori: Akbar Karimi, Lucie Flek
Ultimo aggiornamento: 2023-06-01 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2306.00346
Fonte PDF: https://arxiv.org/pdf/2306.00346
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.