Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio# Intelligenza artificiale

Confrontare i modelli linguistici per la classificazione del testo con dati limitati

Questo studio valuta diversi modelli linguistici per la classificazione del testo usando pochi dati di addestramento.

― 13 leggere min


Modelli Linguistici nellaModelli Linguistici nellaClassificazione del Testoaddestramento limitati.classificazione del testo con dati diValutare i modelli per la
Indice

Recenti sviluppi nei modelli di linguaggio hanno mostrato risultati davvero impressionanti in vari compiti legati al linguaggio. Questi modelli funzionano bene in situazioni dove ci sono pochi o nessun dato di addestramento disponibile. Uno dei loro principali vantaggi è la capacità di seguire istruzioni scritte in un linguaggio di tutti i giorni, il che li aiuta ad applicare le loro conoscenze a diversi compiti senza aver bisogno di tanto materiale di addestramento specifico. Questa caratteristica li rende fantastici per compiti come la classificazione dei testi in aree dove non ci sono molti esempi etichettati, come il diritto o la medicina.

Tuttavia, la ricerca su questi modelli è ancora limitata e bisogna capire quanto bene questi nuovi modelli si comportano rispetto ai metodi tradizionali che richiedono più dati e addestramento. In questo lavoro, puntiamo a colmare questo divario esaminando 16 diversi dataset usati per la classificazione dei testi. Guardiamo a quanto bene questi modelli di linguaggio si comportano in situazioni dove ci sono pochi dati di addestramento, confrontandoli con modelli più piccoli che sono ottimizzati per compiti specifici.

In generale, i metodi tradizionali per la classificazione dei testi spesso si basano su un fine-tuning di modelli come BERT aggiungendo un nuovo strato specificamente per la classificazione. Anche se questo ha avuto successo, richiede molti dati per ottenere risultati eccellenti, rendendolo meno adatto a compiti dove i dati sono scarsi o sbilanciati. Situazioni del genere si presentano frequentemente nella vita reale, dove la etichettatura dei dati può essere fatta solo da pochi esperti.

I nuovi avanzamenti nel processamento del linguaggio hanno introdotto un altro metodo che usa modelli in grado di generare testo. Questi modelli possono eseguire compiti senza ampi dati di addestramento attraverso l'uso di prompt. Questo significa che possono seguire istruzioni semplici e applicare ciò che sanno a nuovi compiti senza aver bisogno di materiale di addestramento esteso. Alcuni di questi modelli, quando sono ottimizzati, hanno mostrato performance ancora migliori in situazioni con esempi limitati.

Molti ricercatori stanno studiando come migliorare le capacità di questi modelli per compiti specializzati in campi come diritto e medicina. Tuttavia, la maggior parte di questi studi si concentra su compiti specifici e non confronta sufficientemente le performance di questi nuovi modelli con gli approcci tradizionali.

Il nostro studio è il primo a confrontare come questi nuovi modelli di generazione di testo che utilizzano dati di addestramento limitati si comportano rispetto agli approcci tradizionali che richiedono più dati. Vogliamo vedere quanto bene questi modelli di linguaggio più ampi possono adattarsi a vari compiti di classificazione quando hanno informazioni minime. Guardiamo anche ai loro punti di forza e debolezza.

Per farlo, valutiamo cinque diversi tipi di modelli, inclusi i tradizionali modelli di linguaggio mascherati e i più recenti modelli di linguaggio autoregressivi. Analizziamo 16 dataset provenienti da diversi campi, che includono compiti di classificazione binaria, multiclass e multilabel.

I nostri principali contributi sono i seguenti. Primo, esaminiamo quanto bene questi nuovi modelli di generazione di testo, come LLaMA, Flan-T5, T5 e ChatGPT, si comportano nella classificazione dei testi con esempi di addestramento minimi rispetto a modelli più piccoli che necessitano di dati di addestramento, come RoBERTa o FastText. Oltre a guardare le performance generali, evidenziamo anche i vantaggi e svantaggi unici di ciascun modello.

In secondo luogo, mentre gran parte della ricerca esistente si concentra sul miglioramento delle tecniche di creazione di prompt, analizziamo le tendenze generali nelle performance dei modelli che non sono molto influenzate dai prompt utilizzati. Esaminiamo anche quanto il livello di dettaglio dei prompt riguardo al compito e al dominio influisce sulla performance del modello. Infine, valutiamo quanto bene i modelli si comportano in vari domini, incluse aree specializzate come diritto e medicina. Guardiamo anche come il loro comportamento cambia quando vengono testati su dataset diversi da quelli utilizzati durante il loro addestramento.

Lavoro Correlato

Iniziamo introducendo i diversi metodi e modelli utilizzati per la classificazione dei testi, delineando cosa li rende forti o deboli. Poi, copriamo studi rilevanti che confrontano l'approccio di prompting e il fine-tuning, indicando dove gli studi attuali potrebbero mancare.

Approcci alla Classificazione dei Testi

Distinguiamo tra tre metodi principali per la classificazione dei testi: metodi lineari, fine-tuning di modelli di linguaggio e tecniche di prompting combinate con modelli di generazione di testo.

Metodi Lineari

FastText è un modello di classificazione dei testi semplice che funge da solido punto di riferimento per molti compiti di classificazione. È progettato per funzionare comparabilmente ad altri metodi avanzati, inclusi i modelli di linguaggio come BERT. Questo modello combina un approccio lineare con un vincolo di ranking, permettendogli di condividere parametri attraverso diverse classi e caratteristiche. Inoltre, FastText integra embedding di parole per rappresentare i testi. Queste caratteristiche aiutano a risolvere problemi comuni riscontrati in altri modelli lineari, come la gestione di parole sconosciute e il fare distinzioni sottili tra classi.

Metodi di Fine-Tuning

Modelli di linguaggio come BERT e RoBERTa sono stati addestrati usando un metodo in cui parti del testo sono mascherate. Si comportano notevolmente bene nella maggior parte dei compiti di classificazione standard. Questi modelli possono essere facilmente adattati per la classificazione dei testi aggiungendo uno strato di classificazione. Tuttavia, il processo di fine-tuning richiede grandi quantità di dati etichettati, rendendolo impraticabile per compiti con poche annotazioni disponibili.

Modelli di Generazione di Testo

Recenti progressi hanno portato a modelli più grandi contenenti miliardi di parametri, che offrono prestazioni migliorate, specialmente per compiti con risorse limitate. Modelli come GPT, LLaMA e T5 comprendono le istruzioni in linguaggio naturale, permettendo loro di applicare le loro conoscenze a nuovi compiti senza dati di addestramento estesi. Sono stati notati anche miglioramenti quando questi modelli sono ottimizzati su set di istruzioni che dettagliano compiti e risultati attesi.

L'abilità di questi modelli di generazione di fare previsioni con pochi o nessun dato di addestramento li rende molto promettenti per affrontare problemi di scarsità di dati nella classificazione dei testi. Pertanto, molti sforzi recenti nell'apprendimento zero e few-shot si concentrano sul migliorare le performance di questi modelli attraverso il prompting.

Prompting vs Fine-Tuning

Il prompting, in particolare nei contesti zero e few-shot, implica fornire istruzioni in linguaggio naturale che descrivono i compiti come input a un Modello di Linguaggio, inclusi i risultati attesi. Nel prompting few-shot, il modello riceve alcuni esempi di addestramento insieme alle istruzioni sul compito. A differenza dei metodi di fine-tuning, il prompting non modifica i pesi del modello, rendendolo un approccio più economico. Ricerche precedenti hanno indicato che il prompting può talvolta portare a risultati paragonabili o superiori ai tradizionali metodi di fine-tuning. Tuttavia, un notevole svantaggio è che la performance del modello può variare significativamente con lievi cambiamenti nei prompt, rendendo l'ottimizzazione dei prompt un obiettivo chiave di molta ricerca.

Nonostante l'attenzione aumentata sulle tecniche di fine-tuning e prompting per domini specializzati come diritto e medicina, sono state fatte poche analisi che confrontano questi nuovi modelli con i metodi di classificazione tradizionali in modo ampio. La maggior parte degli studi esistenti si concentra su compiti specifici e modelli, mancando una comprensione più ampia di come queste tecniche di prompting si misurino rispetto ai modelli consolidati.

Impostazione Sperimentale

Dataset

Per i nostri esperimenti, abbiamo selezionato una varietà di dataset che rappresentano tre tipi di classificazione: binaria, multiclass e multilabel. I dataset provengono da sette diversi campi e comprendono 13 compiti di classificazione. Alcuni dei dataset utilizzati includono quelli legati alla predizione di emoji, rilevazione dell'ironia, rilevazione dell'odio e analisi del sentiment sui social media. Abbiamo anche incorporato dataset per la categorizzazione degli argomenti, come BBC news e AG News, così come dataset per rilevare caratteristiche linguistiche specifiche nei contesti legali e medici.

Modelli di Confronto

Confrontiamo tre principali tipi di modelli: modelli di linguaggio generativi, modelli di linguaggio mascherati e modelli lineari.

Modelli di Linguaggio Generativi

Per la nostra analisi, abbiamo incluso LLaMA 1 e 2 come rappresentanti di modelli autoregressivi grandi, entrambi con 7 miliardi di parametri. Abbiamo anche usato Flan-T5, un modello più piccolo ma ottimizzato per le istruzioni, che è stato fine-tuned su un set di compiti. Inoltre, abbiamo incluso il modello T5 per il nostro studio, che è stato anch'esso fine-tuned in modo simile a RoBERTa. Infine, il GPT 3.5-Turbo di OpenAI è stato aggiunto all'analisi per completezza, anche se le limitazioni di budget hanno limitato l'estensione delle nostre conclusioni da questo modello.

Modelli di Linguaggio Mascherati

RoBERTa funge da nostro modello di linguaggio mascherato rappresentativo, pre-addestrato in inglese. È noto per ottenere risultati eccellenti in molti compiti di classificazione dei testi. Abbiamo condotto esperimenti utilizzando sia i modelli base che grandi di RoBERTa per esaminare l'effetto della dimensione del modello sulla performance.

Modelli Lineari

FastText è incluso come nostro modello di classificazione lineare. Nonostante la sua semplicità, fornisce un solido punto di riferimento per vari compiti di classificazione ed è noto per dare risultati competitivi con modelli più complessi.

Prompting, Addestramento e Valutazione

Il nostro obiettivo è valutare quanto bene i modelli di generazione di testo si comportano nella classificazione dei testi rispetto ai modelli che richiedono più dati. Per fare ciò, abbiamo eseguito esperimenti per Flan-T5 e LLaMA in contesti zero e one-shot. Nel caso zero-shot, abbiamo fornito dettagli sul compito attraverso i prompt. Per la condizione one-shot, abbiamo selezionato casualmente un'istanza di addestramento per etichetta e fornito questi esempi insieme alle istruzioni sul compito. Per garantire robustezza, abbiamo condotto tre iterazioni di selezione di campioni casuali e mediato i risultati.

Per RoBERTa, abbiamo fine-tunato il modello sui dati di addestramento per ciascun dataset utilizzando un classificatore di sequenze con configurazioni di apprendimento standard. Allo stesso modo, abbiamo fine-tunato T5 utilizzando metodi di generazione condizionale. FastText è stato addestrato su più epoche utilizzando una funzione di perdita softmax.

I risultati sono stati valutati utilizzando metriche standard come i punteggi F1 medi micro e macro.

Design del Prompt

Mentre molta della ricerca esistente si concentra sull'ottimizzazione della creazione di prompt, evidenziamo tendenze nelle performance del modello che rimangono stabili indipendentemente dai prompt utilizzati. Abbiamo scelto prompt di istruzione che hanno precedentemente portato a risultati soddisfacenti o sono stati utilizzati in set di addestramento per modelli ottimizzati per le istruzioni. Questi prompt variano nel dettaglio riguardo al compito e al dominio. Abbiamo impiegato tre tipi di prompt: prompt generici che non forniscono informazioni sul compito o sul dominio, prompt specifici per il compito che descrivono il compito di classificazione e prompt specifici per il dominio che includono contesto aggiuntivo sul tipo di dati di test.

Risultati e Analisi

Nella nostra analisi, puntiamo a raggiungere i seguenti obiettivi: (1) Identificare come l'uso dei prompt influisce sulla performance dei modelli di generazione di testo, (2) Confrontare le performance dei metodi di prompting rispetto ai metodi di fine-tuning per scoprire punti di forza e debolezza, e (3) Condurre un'analisi dettagliata sulle performance del modello attraverso diversi domini e dataset.

Analisi del Modello e del Prompt

Un confronto tra i modelli LLaMA mostra che LLaMA 2 supera LLaMA 1 sia in contesti zero che one-shot. Ad esempio, mentre la performance zero-shot in termini di punteggio F1 è relativamente simile, LLaMA 1 aveva un numero maggiore di etichette errate rispetto a LLaMA 2. I risultati indicano che Flan-T5 ha costantemente superato altri modelli in tutti i tipi di prompt per entrambe le impostazioni zero e one-shot.

Questo suggerisce che i modelli più piccoli, ottimizzati per le istruzioni, possono essere più efficaci in scenari con esempi limitati rispetto ai modelli generativi più grandi. In particolare, Flan-T5 ha mostrato un miglioramento medio rispetto a LLaMA 2 in termini di punteggio F1.

Un'analisi ulteriore dei prompt ha rivelato che i cambiamenti nel tipo di prompt non alterano significativamente le performance del modello. Ad esempio, la differenza nei punteggi micro-F1 rimane piccola attraverso diversi prompt. Questo indica che modelli come Flan-T5 possono essere più reattivi ai prompt in scenari zero-shot rispetto a situazioni di apprendimento few-shot. I benefici del prompting one-shot sono evidenti attraverso i modelli, poiché migliorano l'accuratezza e riducono il numero di etichette errate.

Prompting vs Fine-Tuning

I risultati mostrano modelli simili nei confronti di performance. Flan-T5 ha costantemente superato i modelli LLaMA in tutti i tipi di classificazione dei testi, sia in termini di punteggi F1 micro che macro. Quando fine-tunato, RoBERTa-large ha mostrato chiari vantaggi in tutti i tipi di classificazione nelle impostazioni one-shot.

Quando fine-tunato con dataset completi, T5 ha ottenuto i migliori risultati per la classificazione binaria. Tuttavia, per compiti multiclass e multilabel, RoBERTa-large ha superato T5. Questi risultati implicano che i modelli di linguaggio mascherati fine-tunati sono più adatti per sfide di classificazione più complesse.

La nostra analisi indica che, mentre i metodi di prompting generalmente producono risultati migliori per problemi binari e multiclass, possono risultare in difficoltà nelle classificazioni multilabel rispetto ai modelli fine-tunati. Il divario di performance diventa più pronunciato per compiti impegnativi con molte classi.

Tendenze tra Dataset e Modelli

I risultati per vari dataset confermano scoperte precedenti, evidenziando il vantaggio costante di Flan-T5 rispetto a LLaMA. Anche se alcuni dataset hanno mostrato performance variabili, la tendenza generale mostra che la scelta degli esempi di addestramento nell'apprendimento few-shot può avere un impatto significativo sulla performance del modello.

Confrontando i modelli fine-tunati, non c'è un chiaro vantaggio tra RoBERTa e T5. Ogni modello si comporta bene in compiti diversi, con T5 che eccelle principalmente nelle classificazioni binarie legate ai contenuti sui social media.

Impatto del Numero di Etichette

Un esame di come il numero di etichette di classificazione influisce sulla performance del modello ha rivelato pattern interessanti. I modelli fine-tunati generalmente si sono comportati meglio con compiti aventi sei o più etichette rispetto a quelli con meno etichette. Questa tendenza suggerisce che i modelli stentano di più con la classificazione emotiva sfumata rispetto a dataset più categorici.

Al contrario, le tecniche di prompting tendono a performare peggio man mano che il numero di etichette aumenta.

Dataset Utilizzati per il Pre-Addestramento

Abbiamo anche analizzato le performance sui dataset utilizzati per il pre-addestramento di Flan-T5, notando significativi miglioramenti, ottenendo risultati vicini a quelli dei modelli fine-tunati. Tale performance evidenzia l'importanza dei dati di addestramento sui risultati complessivi.

Analisi di GPT

L'analisi per il modello GPT 3.5-Turbo ha dimostrato un chiaro vantaggio rispetto sia a Flan-T5 che a LLaMA su gran parte dei dataset. Tuttavia, GPT ha ancora mostrato risultati inferiori rispetto ai modelli fine-tunati per la maggior parte dei compiti, sottolineando le limitazioni delle tecniche di apprendimento few-shot per scopi di classificazione.

Conclusioni

Questo lavoro presenta uno studio comprensivo su come i modelli di linguaggio basati su prompt in condizioni di dati limitati si confrontano con modelli di linguaggio più piccoli e fine-tunati per compiti di classificazione dei testi. La nostra valutazione copre 16 dataset attraverso diversi tipi di classificazione. I risultati indicano che i modelli ottimizzati per le istruzioni come Flan-T5 sono più efficaci nella classificazione dei testi rispetto ai modelli di generazione di testo più grandi.

Inoltre, l'analisi rivela che i grandi modelli autoregressivi abbinati a tecniche few-shot necessitano ancora di miglioramenti nella classificazione dei testi. Modelli più piccoli che sono fine-tunati tendono a superare questi modelli più grandi nella maggior parte degli scenari.

Quindi, anche con i progressi nei grandi modelli di linguaggio, l'importanza di dati di addestramento di qualità e fine-tuning rimane cruciale per raggiungere performance superiori nei compiti di classificazione dei testi.

Fonte originale

Titolo: Language Models for Text Classification: Is In-Context Learning Enough?

Estratto: Recent foundational language models have shown state-of-the-art performance in many NLP tasks in zero- and few-shot settings. An advantage of these models over more standard approaches based on fine-tuning is the ability to understand instructions written in natural language (prompts), which helps them generalise better to different tasks and domains without the need for specific training data. This makes them suitable for addressing text classification problems for domains with limited amounts of annotated instances. However, existing research is limited in scale and lacks understanding of how text generation models combined with prompting techniques compare to more established methods for text classification such as fine-tuning masked language models. In this paper, we address this research gap by performing a large-scale evaluation study for 16 text classification datasets covering binary, multiclass, and multilabel problems. In particular, we compare zero- and few-shot approaches of large language models to fine-tuning smaller language models. We also analyse the results by prompt, classification type, domain, and number of labels. In general, the results show how fine-tuning smaller and more efficient language models can still outperform few-shot approaches of larger language models, which have room for improvement when it comes to text classification.

Autori: Aleksandra Edwards, Jose Camacho-Collados

Ultimo aggiornamento: 2024-04-14 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2403.17661

Fonte PDF: https://arxiv.org/pdf/2403.17661

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili