Migliorare i modelli di lingua italiana per contesti legali e burocratici
Questo studio esplora metodi per migliorare i modelli di lingua italiana in settori specializzati.
― 9 leggere min
Indice
- Aree di Focus dello Studio
- Risultati Chiave
- Implicazioni
- La Sfida dei Dati Limitati
- Test dei Modelli Più Piccoli
- Comprendere le Performance del Modello
- Metodi Usati
- Ricerca Rilevante
- Mappatura delle Etichette con i Verbalizers
- Calibrazione del Modello
- Configurazione Sperimentale
- Dati Utilizzati
- Approcci per la Classificazione dei Documenti
- Metriche di Valutazione Utilizzate
- Punteggi di Pseudo-Log-Likelihood
- Risultati e Discussione
- Risultati della Classificazione Documentale nel Dominio PA
- Risultati nel Dominio Legale
- Conclusione
- Fonte originale
- Link di riferimento
Usare i modelli linguistici in modo efficace dipende spesso dall'avere abbastanza dati etichettati, specialmente in settori specializzati o per lingue che non hanno molti dati disponibili. Anche se molti grandi modelli linguistici sono stati addestrati principalmente su testi in inglese generale, c'è una mancanza evidente di modelli per l'italiano, in particolare per quanto riguarda i termini legali e burocratici. Questo articolo parla di come possiamo usare modelli più piccoli e specializzati progettati per compiti specifici insieme a tecniche come il prompting per migliorare le performance in questi ambiti.
Aree di Focus dello Studio
La nostra ricerca si concentra sul linguaggio usato nei contesti burocratici e legali italiani. Abbiamo esaminato sia modelli di linguaggio generali che quelli specificamente addestrati su testi legali e burocratici. Abbiamo condotto test per vedere quanto bene questi modelli possono svolgere compiti, come ordinare documenti e identificare entità nominate. Abbiamo anche valutato le loro capacità utilizzando un metodo chiamato Pseudo-Log-Likelihood.
Risultati Chiave
I risultati mostrano che, mentre alcuni modelli progettati per essere generali potrebbero non performare in modo robusto in compiti specializzati, possono adattarsi meglio quando vengono ulteriormente addestrati su domini specifici, anche in situazioni in cui non vengono forniti esempi in precedenza. Inoltre, quando abbiamo applicato tecniche per perfezionare i modelli e usato etichette di parole specifiche legate al dominio, abbiamo visto un notevole aumento delle performance. Questi modelli specializzati sono particolarmente utili in contesti in cui ci sono pochi dati o competenze disponibili.
Implicazioni
I nostri risultati forniscono intuizioni preziose su come possiamo utilizzare modelli focalizzati sulla lingua italiana in aree specializzate. Questo può portare grandi benefici sia alla ricerca che alle applicazioni industriali, specialmente mentre la tecnologia continua a spostarsi verso soluzioni digitali.
La Sfida dei Dati Limitati
I modelli di linguaggio pre-addestrati hanno trasformato il campo dell'elaborazione del linguaggio naturale. Tuttavia, una grande sfida è la mancanza di dati etichettati, specialmente per argomenti specializzati o lingue meno comuni. Questi dati sono essenziali per regolare i modelli per svolgere compiti come la classificazione in modo efficace. Recentemente, sono emerse metodologie che si basano su prompting come una opzione promettente, riducendo notevolmente il bisogno di dati annotati.
Test dei Modelli Più Piccoli
In questo studio, abbiamo valutato due modelli più piccoli focalizzati su aree specifiche: BureauBERTo, addestrato su testi burocratici, e Ita-Legal-BERT, rivolto al linguaggio legale. Abbiamo testato entrambi su vari compiti usando una tecnica di prompting senza avere dati di addestramento specifici. Abbiamo anche verificato come questi modelli si confrontassero con un modello italiano più generico, UmBERTo.
Comprendere le Performance del Modello
BureauBERTo ha performato particolarmente bene nei compiti in cui doveva riempire parole mancanti in contesti burocratici. Questo ci ha portato a esaminare quali conoscenze specifiche questo modello ha acquisito attraverso il suo addestramento. Abbiamo cercato di utilizzare questa conoscenza per svolgere due compiti principali nel campo della Pubblica Amministrazione: determinare i temi dei testi e identificare entità nominate specifiche in frasi tratte da documenti amministrativi.
Metodi Usati
Per portare a termine i nostri compiti, abbiamo trasformato il problema di classificazione originale in un formato diverso. In questa configurazione, il modello valuta ciascuna classe stimando quanto è probabile che una parola si adatti a una parte specifica del prompt. Questa parte del processo è conosciuta come verbalizer.
Abbiamo eseguito vari esperimenti usando tre tipi di verbalizer. Il primo era un verbalizer di base, il secondo era creato manualmente, e il terzo era generato automaticamente da ciascun modello. Il nostro obiettivo era vedere come la scelta di parole correlate al dominio influisse sulle performance attraverso vari compiti.
Per affrontare quanto i modelli fossero sensibili alle variazioni nei prompt e nelle etichette di parole, abbiamo utilizzato due tecniche di calibrazione. Abbiamo anche misurato i punteggi di Pseudo-Log-Likelihood per tutti i modelli, che ci hanno aiutato a valutare la loro abilità di gestire il linguaggio sia nei domini della PA che legali.
Ricerca Rilevante
Studi recenti hanno dimostrato che i modelli linguistici pre-addestrati possono essere efficaci in compiti di domini specializzati, sia che siano addestrati da zero o pre-addestrati su dati pertinenti. Uno dei primi studi ha evidenziato il potenziale dell'apprendimento zero-shot utilizzando modelli senza riaddestrarli su dataset specifici. Altri lavori hanno ottenuto performance competitive usando modelli più piccoli, dimostrando che le tecniche basate su prompting possono essere utili.
Tuttavia, è importante notare che l'efficacia dell'apprendimento tramite prompting spesso scala con la dimensione del modello. Di solito, i ricercatori usano modelli più grandi che hanno miliardi di parametri anche per compiti specializzati. Al contrario, modelli specializzati più piccoli, come BioBERT per il settore medico, hanno dimostrato di superare i loro omologhi più grandi su compiti specifici.
Mappatura delle Etichette con i Verbalizers
Per condurre la classificazione basata su prompt usando modelli solo encoder, avevamo bisogno di creare un formato specifico che riformulasse il compito di classificazione. Abbiamo alimentato il modello con del testo seguito da un prompt che indicava cosa volevamo classificare. La mappatura delle parole di etichetta potenziali ai nomi delle classi è stabilita attraverso il verbalizer, che collega ciascuna classe a parole specifiche.
Scegliere il verbalizer giusto può influenzare notevolmente le performance del modello. Di solito, i verbalizer vengono costruiti manualmente collegando ciascuna classe a una o poche parole che catturano l'essenza della classe. Tuttavia, trovare queste parole può essere complicato perché la probabilità delle etichette scelte di essere la scelta corretta all'interno del prompt influisce direttamente sull'accuratezza del modello.
Per ridurre il tempo speso a creare manualmente i verbalizer, un'altra strategia è quella di creare automaticamente queste mappature di etichette utilizzando un piccolo set di dati di addestramento. Nonostante ciò, i verbalizer prodotti automaticamente spesso risultano inferiori rispetto a quelli creati manualmente, specialmente in scenari zero-shot.
Calibrazione del Modello
Una sfida significativa nei metodi basati su prompt risiede nella loro sensibilità ai cambiamenti nei formati dei prompt e nelle etichette delle parole. Questa sensibilità diventa particolarmente evidente quando i modelli imparano a gestire un compito basato su prompt progettati dagli esseri umani, senza richiedere aggiornamenti ai loro parametri interni.
Problemi come il "recency bias", in cui i modelli favoriscono risposte che appaiono più tardi nei prompt, e il "majority label bias", in cui si verifica uno squilibrio di classe, possono portare a risultati instabili. Per alleviare questi bias, sono state proposte varie strategie di calibrazione.
La calibrazione contestuale (CC) prevede di fornire ai modelli input privi di contenuto per valutare i loro bias verso le classi. Idealmente, questo porterebbe il modello a trattare tutte le classi in modo equo. Nella realtà, i bias causano al modello di favorire spesso classi specifiche. I parametri di calibrazione derivanti da questo processo possono aiutare a creare una distribuzione più uniforme tra le classi.
La calibrazione batch (BC) adotta un approccio basato sul contesto, utilizzando esempi reali dal dataset per fornire una calibrazione più accurata. Questo metodo può aiutare a stabilizzare i risultati e migliorare le performance attraverso i compiti.
Configurazione Sperimentale
Abbiamo utilizzato un framework open-source per condurre i nostri esperimenti, che ci ha permesso di provare comodamente diversi verbalizer e metodi di calibrazione. Per i nostri test, abbiamo confrontato le performance di tre modelli solo encoder: UmBERTo, Ita-Legal-BERT e BureauBERTo.
UmBERTo è basato su RoBERTa ed è stato addestrato sulla sezione italiana di un ampio corpus. Ita-Legal-BERT è stato ulteriormente addestrato su documenti legali dall'archivio nazionale e ha mostrato risultati promettenti in compiti specifici. BureauBERTo è una versione adattata di UmBERTo addestrata su testi burocratici e amministrativi.
Dati Utilizzati
Per i nostri esperimenti, abbiamo diviso i nostri compiti in due categorie principali: Pubblica Amministrazione (PA) e documenti legali. Abbiamo utilizzato quattro dataset: due per ciascuna categoria focalizzati su compiti di classificazione. Per i documenti PA, abbiamo utilizzato un sottoinsieme di testi amministrativi etichettati per argomento e un altro set per l'identificazione di entità con annotazioni dettagliate a livello di token.
Per il dominio legale, abbiamo utilizzato documenti di giudizio civile, che includevano sezioni distinte come l'oggetto del giudizio e il contesto fattuale. Per concentrarci sulle informazioni essenziali, abbiamo alimentato i modelli solo con le sezioni più informative di questi testi.
Approcci per la Classificazione dei Documenti
Abbiamo strutturato i nostri compiti di classificazione documentale alimentando i modelli con dichiarazioni di prompt che avrebbero aiutatoli a identificare i temi dei documenti. Per i documenti legali, abbiamo fornito le sezioni più informative per facilitare una classificazione accurata.
Metriche di Valutazione Utilizzate
Per misurare le performance dei modelli, abbiamo utilizzato metriche comunemente adottate come Precision, Recall e F1-Score. Esaminando queste metriche, abbiamo potuto valutare quanto bene ciascun modello ha performato attraverso vari compiti e condizioni.
Punteggi di Pseudo-Log-Likelihood
Abbiamo impiegato punteggi di Pseudo-Log-Likelihood (PLL) per valutare la competenza linguistica di ciascun modello attraverso diversi dataset. Comprendere quanto bene i modelli possono gestire testi specifici per determinati domini è cruciale, specialmente quando vengono testati senza fine-tuning e si basano solo su ciò che hanno appreso durante l'addestramento iniziale.
In generale, abbiamo confrontato i punteggi PLL dei modelli addestrati su dati specifici del dominio con quelli provenienti da dataset generici. Nonostante alcuni modelli siano stati etichettati come generali, abbiamo scoperto che l'addestramento del modello su dati mirati li aiutava a capire meglio il linguaggio usato in contesti specifici.
Risultati e Discussione
Analizzando i risultati del compito di tipizzazione delle entità all'interno del dominio della Pubblica Amministrazione, abbiamo trovato che il modello generico, UmBERTo, generalmente ha superato i modelli specializzati nella maggior parte degli scenari. Tuttavia, utilizzando verbalizer che coinvolgevano terminologia più specifica del dominio, BureauBERTo ha visto un significativo aumento della sua capacità predittiva.
Risultati della Classificazione Documentale nel Dominio PA
Quando abbiamo eseguito test di classificazione con il verbalizer di base, i modelli tendevano a mostrare punteggi Macro Avg F1 più bassi senza calibrazione. Tuttavia, l'uso di verbalizer manuali, che includevano termini aggiuntivi rilevanti per il dominio, ha portato a significativi miglioramenti delle performance per tutti i modelli.
Risultati nel Dominio Legale
Nel testare il dominio legale, è stata osservata la stessa tendenza con UmBERTo che ha nuovamente superato i modelli specializzati in alcuni casi. Tuttavia, in condizioni in cui è stato applicato un verbalizer esperto insieme alla calibrazione batch, il modello BureauBERTo ha mostrato performance superiori relative alle classificazioni.
Conclusione
La nostra ricerca mostra che modelli più piccoli e specializzati possono essere utilizzati efficacemente per compiti di classificazione nei domini legali e della Pubblica Amministrazione italiana, specialmente quando stabilizzati attraverso tecniche di calibrazione. Sia i modelli specializzati che quelli di uso generale hanno punti di forza che possono emergere a seconda dei compiti e delle condizioni applicate.
I risultati indicano che, con verbalizer e metodi di calibrazione appropriati, i modelli possono performare bene anche in situazioni zero-shot, il che significa che possono gestire compiti senza aver visto esempi precedenti. Man mano che andiamo avanti, ulteriori esplorazioni dei modelli specializzati e delle loro capacità in contesti in cui i dati etichettati sono scarsi saranno preziose.
Titolo: Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian
Estratto: Addressing the challenge of limited annotated data in specialized fields and low-resource languages is crucial for the effective use of Language Models (LMs). While most Large Language Models (LLMs) are trained on general-purpose English corpora, there is a notable gap in models specifically tailored for Italian, particularly for technical and bureaucratic jargon. This paper explores the feasibility of employing smaller, domain-specific encoder LMs alongside prompting techniques to enhance performance in these specialized contexts. Our study concentrates on the Italian bureaucratic and legal language, experimenting with both general-purpose and further pre-trained encoder-only models. We evaluated the models on downstream tasks such as document classification and entity typing and conducted intrinsic evaluations using Pseudo-Log-Likelihood. The results indicate that while further pre-trained models may show diminished robustness in general knowledge, they exhibit superior adaptability for domain-specific tasks, even in a zero-shot setting. Furthermore, the application of calibration techniques and in-domain verbalizers significantly enhances the efficacy of encoder models. These domain-specialized models prove to be particularly advantageous in scenarios where in-domain resources or expertise are scarce. In conclusion, our findings offer new insights into the use of Italian models in specialized contexts, which may have a significant impact on both research and industrial applications in the digital transformation era.
Autori: Serena Auriemma, Martina Miliani, Mauro Madeddu, Alessandro Bondielli, Lucia Passaro, Alessandro Lenci
Ultimo aggiornamento: 2024-07-30 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2407.20654
Fonte PDF: https://arxiv.org/pdf/2407.20654
Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://huggingface.co/Musixmatch/umberto-commoncrawl-cased-v1
- https://relatedwords.org
- https://github.com/thunlp/OpenPrompt
- https://github.com/musixmatchresearch/umberto
- https://oscar-corpus.com
- https://huggingface.co/dlicari/Italian-Legal-BERT
- https://huggingface.co/dbmdz/bert-base-italian-xxl-cased
- https://huggingface.co/colinglab/BureauBERTo