Migliorare il rilevamento delle posizioni con i modelli linguistici
Questo studio esamina come i Modelli di Linguaggio Grandi migliorano la classificazione delle posizioni.
― 10 leggere min
Indice
- La Sfida della Rilevazione della Posizione
- Sviluppi Recenti nei Modelli di Linguaggio di Grandi Dimensioni
- Ricerca Correlata
- Ingegneria della Sollecitazione con gli LLM
- Set di Dati Utilizzati in Questo Studio
- Tecniche di Sollecitazione
- Setup di Test
- Metriche di Valutazione
- Risultati Sperimentali
- Incoerenze negli Output degli LLM
- Investigare la Classificazione della Posizione vs. Sentiment
- Conclusione
- Fonte originale
- Link di riferimento
La rilevazione della posizione è il compito di capire cosa pensa qualcuno su un argomento specifico. Questo è stato un campo di ricerca importante, soprattutto per comprendere le opinioni e i punti di vista delle persone su vari temi. I metodi tradizionali per la rilevazione della posizione spesso richiedono che le persone etichettino manualmente le frasi con le loro opinioni, il che può limitare quanto bene i modelli possano capire diversi contesti. In questo studio, vediamo come i Modelli di Linguaggio di Grandi Dimensioni (LLM) possono aiutare nella classificazione delle posizioni utilizzando pochissime etichette umane.
Esaminiamo diversi modi di sollecitare gli LLM e confrontiamo la loro accuratezza rispetto all'etichettatura manuale delle posizioni. I nostri risultati mostrano che gli LLM possono a volte raggiungere o superare i risultati standard, ma nel complesso non superano costantemente i Modelli Supervisionati. Questo indica aree in cui gli LLM possono migliorare nella classificazione delle posizioni. Utilizzare gli LLM riduce anche la necessità di raccolta manuale di dati, rendendo più facile estendere la rilevazione delle posizioni a più lingue.
Ci concentriamo sulla capacità degli LLM nella classificazione delle posizioni, fornendo spunti che possono essere utili per futuri progressi. Il codice di questa ricerca è disponibile per altri da usare ed esplorare.
La Sfida della Rilevazione della Posizione
Identificare e categorizzare come qualcuno si sente su un certo argomento è una delle sfide principali nella ricerca su come le persone interagiscono sui social media. La rilevazione della posizione riguarda il prevedere se qualcuno è d'accordo, in disaccordo o neutro riguardo a un argomento. Tuttavia, cosa significano queste etichette può cambiare a seconda dell'argomento specifico o del contesto.
La rilevazione della posizione è cruciale per diversi compiti, come rilevare notizie false, condurre sondaggi d'opinione e analizzare voci. Il compito potrebbe sembrare semplice, ma presenta le sue sfide. Il modo in cui definiamo le posizioni può essere poco chiaro. La ricerca ha mostrato che le definizioni possono variare tra diversi set di dati. Questa incoerenza solleva preoccupazioni sull'efficacia dei modelli addestrati su questi set di dati.
Un'altra sfida è che le posizioni dipendono fortemente dal contesto. Senza capire la situazione, è difficile determinare con precisione la posizione di qualcuno. Questi problemi rendono difficile per i modelli di rilevazione della posizione essere ampiamente applicabili, lasciando la classificazione delle posizioni una sfida persistente.
Sviluppi Recenti nei Modelli di Linguaggio di Grandi Dimensioni
Nuovi progressi negli LLM hanno aperto opportunità entusiasmanti per comprendere il linguaggio. Sollecitando questi modelli, i ricercatori li hanno utilizzati per affrontare vari compiti complessi legati al linguaggio. Quando applicato correttamente, la sollecitazione può funzionare bene anche con pochi o nessun dato etichettato.
Studi recenti hanno iniziato a utilizzare ChatGPT per la classificazione delle posizioni, ma con risultati misti. Alcuni studi indicano che ChatGPT performa meglio di alcuni modelli supervisionati, mentre altri suggeriscono che potrebbe avere difficoltà con la rilevazione delle posizioni. Rimane incerto se gli LLM possano essere utilizzati efficacemente per la classificazione delle posizioni su larga scala.
In questo documento, ci chiediamo: quanto efficacemente possono gli LLM con ingegneria della sollecitazione eseguire la classificazione delle posizioni senza ulteriori addestramenti? Abbiamo utilizzato cinque set di dati pubblicamente disponibili nella nostra ricerca, impiegando diversi metodi di sollecitazione per valutare le loro prestazioni in situazioni reali dove i dati etichettati sono spesso scarsi. Sebbene alcuni metodi abbiano mostrato promesse, i nostri risultati indicano che gli LLM affrontano ancora sfide in quest'area.
Ricerca Correlata
La maggior parte del lavoro esistente sulla rilevazione delle posizioni si è concentrata sullo sviluppo di modelli di machine learning supervisionati. Le Macchine a Vettori di Supporto sono state popolari, soprattutto in competizioni come il contest di rilevazione delle posizioni SemEval-2016. Altri modelli supervisionati utilizzano spesso reti neurali, incluse reti convoluzionali e ricorrenti.
Molti studi recenti hanno esplorato l'apprendimento multi-task e l'apprendimento di trasferimento adottando modelli basati su trasformatore. Anche se questi modelli di solito performano meglio sui loro set di dati specifici, spesso faticano ad adattarsi a nuovi tipi di dati o punti di vista, il che li rende meno utili per applicazioni reali.
Esistono anche tecniche non supervisionate, che si basano sul concetto di somiglianza linguistica per la classificazione. Un esempio è l'uso di reti grafiche per inferire le posizioni in base alle storie degli utenti sui social media. Tuttavia, molte di queste metodologie richiedono condizioni specifiche per essere efficaci, ad esempio reti di interazione degli utenti, il che limita la loro applicabilità.
Recentemente, c'è stato un crescente interesse nella rilevazione delle posizioni zero-shot, dove i modelli vengono testati su dati su cui non sono stati addestrati. Diversi studi hanno adattato set di dati per esplorare strategie zero-shot, dimostrando che i modelli di solito performano peggio in questo contesto rispetto alla supervisione completa.
Per quanto riguarda gli LLM e la rilevazione delle posizioni, l'attenzione corrente si è concentrata principalmente su ChatGPT, con risultati variabili riscontrati in diversi studi. Alcuni risultati suggeriscono che può fornire risultati migliori su certi set di dati rispetto ai metodi supervisionati tradizionali, ma altre evidenze sollevano preoccupazioni riguardo alla contaminazione dei dati che influisce sulle valutazioni.
Ingegneria della Sollecitazione con gli LLM
Con l'evoluzione degli LLM, è emerso un nuovo campo noto come ingegneria della sollecitazione. Questo ambito si concentra sulla creazione degli input giusti per guidare i modelli verso output migliori. Diverse tecniche si sono dimostrate efficaci in questo settore.
Una tecnica comune è la sollecitazione few-shot, dove gli utenti forniscono alcuni esempi di risultati desiderati come parte dell'input. Questo è diverso dalla fine-tuning, dove i parametri interni del modello vengono regolati sulla base dei dati di addestramento. La sollecitazione few-shot ha costantemente portato a risultati migliorati, sebbene fattori come l'ordine degli esempi possano causare variazioni nelle prestazioni.
Un altro metodo efficace è il Ragionamento a Catena di Pensiero, che incoraggia i modelli a spiegare il loro ragionamento passo dopo passo. Questo approccio ha mostrato promesse in studi precedenti poiché aiuta i modelli ad evitare di fornire risposte plausibili ma errate.
Nonostante la ricerca in corso per determinare i migliori metodi di interazione con gli LLM, alcune tecniche di sollecitazione hanno notevolmente migliorato la qualità degli output complessivi.
Set di Dati Utilizzati in Questo Studio
Nella nostra ricerca, abbiamo utilizzato cinque set di dati pubblicamente disponibili che sono stati etichettati manualmente. Questi set di dati includono una miscela di post di Twitter su vari argomenti, che spaziano dalla disinformazione riguardo al COVID-19, alle elezioni presidenziali USA del 2016 e tragedie. Ogni set di dati ha proprietà uniche e obiettivi, il che significa che il modo in cui le posizioni sono definite può variare tra di essi.
Ad esempio, nei set di dati riguardanti voci sul COVID-19, le posizioni riflettono se una dichiarazione supporta o nega la voce. In altri set di dati, come quelli delle elezioni, le posizioni esprimono opinioni sull'entità.
Comprendere le diverse strutture e obiettivi di questi set di dati è stato cruciale mentre ci preparavamo ad utilizzare gli LLM con varie tecniche di sollecitazione per classificare le posizioni.
Tecniche di Sollecitazione
Per valutare le prestazioni degli LLM nella classificazione delle posizioni, abbiamo applicato quattro diversi metodi di sollecitazione. Ogni metodo si è basato sul precedente, aggiungendo gradualmente più contesto e informazioni.
Sollecitazione Solo per Compito
Nella sollecitazione solo per compito, abbiamo utilizzato un approccio semplice che forniva solo la descrizione del compito. Questo metodo zero-shot chiedeva all'LLM di classificare una dichiarazione data senza alcun contesto o esempi aggiuntivi.
Sollecitazione Contestuale
Nello schema della sollecitazione contestuale, abbiamo aggiunto informazioni contestuali relative alla dichiarazione e al suo obiettivo. Questo forniva all'LLM un po' di background, essenziale per determinare le posizioni.
Sollecitazione Contestuale + Few-Shot
Per questo metodo, abbiamo combinato la sollecitazione contestuale con un approccio few-shot. Abbiamo incluso alcuni esempi di come la classificazione potrebbe funzionare, mantenendo il contesto dallo schema precedente.
Sollecitazione Contestuale + Few-Shot + Ragionamento
Nello schema finale, abbiamo introdotto il ragionamento nelle sollecitazioni. Questo ha spinto l'LLM a fornire una breve spiegazione per ogni classificazione da lui restituita. Facendo così, miravamo a sfruttare il ragionamento a catena di pensiero e migliorare l'intero processo.
Setup di Test
Abbiamo selezionato attentamente gli LLM per la nostra indagine, scegliendo di utilizzare solo modelli locali e open-source. Questa decisione mirava a evitare potenziali problemi di contaminazione riscontrati nei modelli chiusi. Per i nostri esperimenti, ci siamo concentrati su modelli specifici encoder-decoder e decoder-only disponibili su HuggingFace.
Sfortunatamente, abbiamo scoperto che i modelli decoder-only faticavano a produrre classificazioni soddisfacenti delle posizioni. Restituivano spesso output insensati o non riuscivano a rispondere alla sollecitazione. Di conseguenza, non abbiamo incluso i risultati di prestazione di quei modelli.
Al contrario, abbiamo sperimentato con modelli encoder-decoder, che hanno mostrato più promesse nei nostri test. Abbiamo utilizzato le classi AutoTokenizer e pipeline di HuggingFace per i nostri esperimenti, garantendo coerenza nei nostri setup.
Metriche di Valutazione
Per la valutazione, abbiamo riportato il punteggio di accuratezza macro-F1 non ponderato, seguendo le metodologie di ricerca precedenti. Questa metrica si aggiusta per la distribuzione delle etichette di classe per tenere conto di eventuali squilibri nei set di dati.
Risultati Sperimentali
La nostra valutazione si è concentrata sull'assessing le prestazioni degli LLM con diversi metodi di sollecitazione attraverso i set di dati selezionati. Ogni combinazione di test è stata eseguita più volte per tenere conto della variabilità negli output, in particolare per i prompt privi di contesto.
Abbiamo trovato che solo in due dei cinque set di dati gli LLM con sollecitazione hanno superato i modelli supervisionati di riferimento. Tuttavia, le prestazioni degli LLM erano spesso vicine ai risultati di riferimento, con un margine di 0,05 o meno.
Dai nostri test, l'inclusione di contesto nei prompt ha costantemente portato a risultati migliori. Il contesto è cruciale per determinare accuratamente le posizioni, il che si allinea con la natura di come le posizioni sono tipicamente definite. Abbiamo notato che mentre l'aggiunta di esempi few-shot e ragionamento non garantiva sempre una prestazione migliorata, il modello T-5 più grande ha effettivamente performato meglio delle alternative più piccole.
Incoerenze negli Output degli LLM
Durante i nostri test, abbiamo osservato incoerenze nei formati di output forniti dagli LLM. Ad esempio, il modello occasionalmente restituiva variazioni come "PER", "per", o "La posizione è PER", portando a discrepanze nell'etichettatura attesa. Sebbene potessimo affrontare queste questioni con semplici script di post-elaborazione, rimane una considerazione importante.
Inoltre, quando abbiamo sollecitato l'LLM a fornire ragionamenti insieme alle sue classificazioni, l'output poteva mancare di spiegazioni significative. Spesso, il modello riciclava motivi dagli esempi forniti o ometteva completamente le spiegazioni. Ancora una volta, sebbene questo potesse essere risolto con la post-elaborazione, evidenzia una sfida nell'utilizzo efficace degli LLM per la classificazione delle posizioni.
Investigare la Classificazione della Posizione vs. Sentiment
Per esplorare ulteriormente modi per migliorare le prestazioni degli LLM, abbiamo tentato di cambiare la formulazione nei nostri prompt da "posizione" a "sentiment". Poiché l'analisi del sentiment è strettamente correlata e ha metodologie più consolidate, pensavamo che questo cambiamento potesse produrre risultati migliori.
Tuttavia, i nostri risultati hanno indicato che utilizzare "sentiment" non ha migliorato le prestazioni in nessuno dei casi esaminati. In effetti, ha effettivamente diminuito i risultati, suggerendo che gli LLM percepiscono questi compiti in modo diverso.
Conclusione
In conclusione, la nostra ricerca mostra la versatilità degli LLM nelle previsioni delle posizioni, soprattutto quando utilizzati con prompt ricchi di contesto e scelte di modelli efficaci. Anche se gli LLM possono produrre risultati comparabili ai modelli completamente supervisionati, non li superano costantemente.
La classificazione delle posizioni rimane un compito complesso a causa delle sfumature nel linguaggio e nel contesto. Tuttavia, gli LLM offrono prospettive entusiasmanti, in particolare in contesti in cui una vasta annotazione umana non è fattibile. Questa ricerca fornisce approfondimenti più profondi sulle capacità degli LLM, suggerendo che futuri miglioramenti potrebbero affinare ulteriormente le loro prestazioni nelle attività di classificazione delle posizioni.
Esplorando vari metodi e considerazioni in questo studio, miriamo a contribuire a una crescente comprensione di come gli LLM possano essere utilizzati efficacemente nel campo della rilevazione delle posizioni e potenzialmente informare gli sviluppi in quest'area in futuro.
Titolo: Prompting and Fine-Tuning Open-Sourced Large Language Models for Stance Classification
Estratto: Stance classification, the task of predicting the viewpoint of an author on a subject of interest, has long been a focal point of research in domains ranging from social science to machine learning. Current stance detection methods rely predominantly on manual annotation of sentences, followed by training a supervised machine learning model. However, this manual annotation process requires laborious annotation effort, and thus hampers its potential to generalize across different contexts. In this work, we investigate the use of Large Language Models (LLMs) as a stance detection methodology that can reduce or even eliminate the need for manual annotations. We investigate 10 open-source models and 7 prompting schemes, finding that LLMs are competitive with in-domain supervised models but are not necessarily consistent in their performance. We also fine-tuned the LLMs, but discovered that fine-tuning process does not necessarily lead to better performance. In general, we discover that LLMs do not routinely outperform their smaller supervised machine learning models, and thus call for stance detection to be a benchmark for which LLMs also optimize for. The code used in this study is available at \url{https://github.com/ijcruic/LLM-Stance-Labeling}
Autori: Iain J. Cruickshank, Lynnette Hui Xian Ng
Ultimo aggiornamento: 2024-03-05 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2309.13734
Fonte PDF: https://arxiv.org/pdf/2309.13734
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.