Migliorare la classificazione dei testi legali con dati limitati
Questo articolo analizza i metodi per classificare testi legali con pochissimi dati etichettati.
― 6 leggere min
Indice
Questo articolo si concentra su come classificare testi legali, specialmente quando non ci sono molti dati etichettati disponibili. Il problema spesso sorge quando ci sono pochi esempi per certe categorie, il che può ridurre l'accuratezza dei risultati. Per affrontare questo, diamo un'occhiata a due principali approcci per migliorare la classificazione: uno chiamato SetFit e un metodo di finetuning regolare. Entrambi i metodi mirano a classificare le disposizioni legali, che sono regole o clausole specifiche trovate nei documenti legali. Inoltre, esploreremo come interpretare le scelte che i modelli fanno in termini di Caratteristiche, il che aiuta a capire perché un modello ha previsto una certa categoria.
La Sfida della Scarcity nei Dati Legali
Trovare buoni dati legali di qualità e pubblicamente disponibili può essere difficile. Anche se ci sono alcuni dataset, non sono sempre bilanciati. Questo significa che alcune categorie hanno molti più esempi di altre, il che può influenzare come si comporta un modello quando incontra una categoria con meno esempi. In situazioni in cui i dati sono limitati, una soluzione comune è una strategia chiamata few-shot learning. Questo significa addestrare un modello usando un piccolo numero di esempi etichettati e adattarlo a compiti specifici.
Puntare a una Migliore Classificazione
In questo lavoro, ci proponiamo di raggiungere tre obiettivi principali. Prima di tutto, finetuniamo un modello chiamato LegalBERT usando un dataset disponibile al pubblico, specificamente pensato per classificare le disposizioni legali. Confrontiamo quanto bene si comporta il metodo di apprendimento contrastivo (SetFit) rispetto al metodo di finetuning standard. Poi, usiamo anche una versione bilanciata dello stesso dataset per vedere se ha qualche impatto. Infine, vogliamo vedere quanto è affidabile il modello analizzando le caratteristiche che usa per fare previsioni.
Lavori Precedenti
La classificazione dei testi legali si è spesso basata su modelli come BERT. Anche se questi modelli funzionano bene, non tengono conto del problema di avere dati limitati per applicazioni specifiche. Alcuni studi hanno esplorato metodi di finetuning più efficienti che potrebbero aiutare con questo problema, uno dei quali è SetFit. Questo approccio utilizza un piccolo numero di coppie di testi per addestrare il modello in un modo che lo aiuta a imparare meglio anche quando ci sono pochi esempi disponibili.
Cos'è SetFit?
SetFit è un metodo che aiuta a finetunare i modelli in un modo che non dipende da suggerimenti o istruzioni aggiuntive. Genera sia esempi positivi che negativi dai dati esistenti per creare un set di addestramento più ampio. Il metodo prevede due fasi chiave: prima, il modello viene addestrato utilizzando un approccio contrastivo, e poi viene addestrato un classificatore basato su questo training iniziale.
Il Processo di Addestramento
L'addestramento prevede di prendere un piccolo insieme di esempi etichettati e generare coppie di frasi. Per ogni tipo di etichetta, si creano coppie positive da frasi appartenenti a quell'etichetta, e coppie negative da frasi di etichette diverse. Questo aiuta ad aumentare la dimensione del set di addestramento, anche quando gli esempi disponibili sono pochi.
Addestramento della Testa di Classificazione
Dopo che il modello ha appreso dalle coppie, codifica gli esempi di addestramento etichettati originali per creare una rappresentazione unica per ciascun esempio. Questa viene poi usata per addestrare un classificatore che predice a quale categoria appartiene un nuovo esempio durante la fase di inferenza.
Informazioni sul Dataset
Lo studio utilizza un dataset pubblico chiamato LEDGAR. Questo dataset ha un numero sostanziale di esempi di addestramento, ma non sono distribuiti in modo uniforme tra le diverse etichette. Per il test, viene selezionato un sottoinsieme più piccolo di esempi per valutare le prestazioni dei metodi di classificazione a confronto.
Bilanciare i Dati
Per affrontare il problema dell'imbalanzamento nel dataset originale, abbiamo selezionato le etichette più comuni e regolato il numero di campioni di conseguenza. Per le etichette che avevano molti esempi, le abbiamo ridotte a un numero specifico, e per quelle che ne avevano meno, abbiamo cercato dati aggiuntivi per creare un dataset più bilanciato.
Setup Sperimentale
Il modo in cui finetuniamo i modelli è cruciale per i risultati. Abbiamo mantenuto le impostazioni uguali per entrambi i metodi per garantire confronti validi. In particolare, abbiamo usato un solo round di addestramento per entrambi i modelli e monitorato metriche specifiche per valutare le loro prestazioni.
Risultati: Confronti di F1-Score
I risultati mostrano che SetFit ha raggiunto un F1-score più alto rispetto al metodo di finetuning regolare, anche quando sono stati usati meno esempi di addestramento. Questo è particolarmente evidente in situazioni in cui il dataset era sbilanciato. L'F1-score è una misura che aiuta a valutare l'accuratezza di un modello, particolarmente in situazioni in cui le classi non sono rappresentate in modo uguale.
Valutazione dell'Accuratezza
Quando confrontiamo l'accuratezza complessiva di entrambi i metodi su diversi dataset, i modelli mostrano prestazioni simili. Tuttavia, SetFit ha dimostrato un inizio più forte in scenari con dati limitati. Questo suggerisce che il suo metodo di addestramento unico fornisce un vantaggio in tali situazioni.
Interpretare le Decisioni del Modello con LIME
Nel campo legale, poter fidarsi delle decisioni prese dai sistemi AI è essenziale. Un modo per costruire questa fiducia è fornire spiegazioni per le previsioni del modello. Esistono diversi metodi per spiegare le previsioni, incluso LIME, che si concentra sulla creazione di modelli interpretabili che siano fedeli al classificatore originale.
Caratteristiche Positive e Negative
Per i compiti di classificazione del testo, LIME si concentra sulle parole incluse nelle disposizioni legali. Le caratteristiche che contribuiscono positivamente alle previsioni sono chiamate caratteristiche positive, mentre quelle che detraggono dalle previsioni sono chiamate caratteristiche negative. Analizzando queste caratteristiche usando LIME, possiamo ottenere informazioni su come i modelli prendono le loro decisioni.
Confrontare SetFit e Modelli Vanilla
Esaminando le caratteristiche identificate da entrambi i modelli per etichette specifiche, possiamo vedere come SetFit tende a enfatizzare caratteristiche che sono intuitivamente più rilevanti per il contesto legale. Questo è stato particolarmente evidente quando si guardava a caratteristiche che erano pesate positivamente, come parole chiave relative alle disposizioni legali classificate.
Conclusione
Questo studio evidenzia l'importanza dell'approccio adottato nella classificazione dei testi legali, specialmente in situazioni in cui i dati etichettati sono scarsi. Mostra che utilizzare metodi di apprendimento contrastivo come SetFit può portare a risultati migliori rispetto al finetuning standard, specialmente in termini delle caratteristiche su cui i modelli si basano per fare previsioni. I risultati supportano l'idea che dati di qualità e le giuste metodologie possano avere un impatto significativo sul successo della classificazione dei testi legali.
Lavori Futuri
Guardando al futuro, potrebbe essere utile esplorare altri iperparametri del metodo SetFit, così come applicare diverse tecniche di spiegabilità come SHAP. Inoltre, consultare esperti legali può aiutare a verificare se le caratteristiche identificate da questi modelli siano appropriate per applicazioni nel mondo reale. Affrontando queste aree, potremmo ulteriormente migliorare le capacità dei modelli progettati per la classificazione dei testi legali, portando infine a sistemi AI più affidabili ed efficaci nel dominio legale.
Titolo: Contrast Is All You Need
Estratto: In this study, we analyze data-scarce classification scenarios, where available labeled legal data is small and imbalanced, potentially hurting the quality of the results. We focused on two finetuning objectives; SetFit (Sentence Transformer Finetuning), a contrastive learning setup, and a vanilla finetuning setup on a legal provision classification task. Additionally, we compare the features that are extracted with LIME (Local Interpretable Model-agnostic Explanations) to see which particular features contributed to the model's classification decisions. The results show that a contrastive setup with SetFit performed better than vanilla finetuning while using a fraction of the training samples. LIME results show that the contrastive learning approach helps boost both positive and negative features which are legally informative and contribute to the classification results. Thus a model finetuned with a contrastive objective seems to base its decisions more confidently on legally informative features.
Autori: Burak Kilic, Florix Bex, Albert Gatt
Ultimo aggiornamento: 2023-07-06 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2307.02882
Fonte PDF: https://arxiv.org/pdf/2307.02882
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://pygments.org/
- https://pypi.python.org/pypi/Pygments
- https://www.shareforcelegal.com
- https://www.uu.nl/staff/FJBex
- https://albertgatt.github.io/
- https://autonlp.ai/datasets/ledgar
- https://www.lawinsider.com/
- https://huggingface.co/nlpaueb/legal-bert-base-uncased
- https://github.com/huggingface/setfit
- https://huggingface.co/docs/transformers/main
- https://github.com/marcotcr/lime