Rivalutare le valutazioni dei modelli linguistici
La ricerca sfida i metodi tradizionali per valutare i valori e le opinioni dei modelli di linguaggio.
― 6 leggere min
Indice
- Pratiche di Valutazione Attuali
- La Necessità di Cambiamento
- Risultati Chiave
- Cos'è il Political Compass Test?
- Revisione del Lavoro Passato
- Impatti delle Scelte Forzate
- Analizzando le Risposte
- Il Ruolo del Parafrasare
- Transizione a Risposte Aperte
- Conclusione: Raccomandazioni per Valutazioni Migliori
- Fonte originale
- Link di riferimento
Recenti ricerche si concentrano su come valutare i valori e le opinioni dei grandi modelli linguistici (LLMs) attraverso metodi come sondaggi e questionari. Questi studi nascono da preoccupazioni su come questi modelli potrebbero influenzare la società quando generano contenuti per molti utenti. Tuttavia, il modo in cui i ricercatori valutano attualmente gli LLM spesso sembra artificiale perché gli utenti reali di solito non interagiscono con questi modelli usando Domande formali dei sondaggi. Questa discrepanza porta a una domanda importante: come possiamo valutare in modo più accurato quali valori e opinioni vengono espressi dagli LLM?
Valutazione Attuali
Pratiche diLa maggior parte delle valutazioni esistenti si basa su formati a scelta multipla, in cui ai modelli viene chiesto di scegliere tra le opzioni date. Ad esempio, gli studi si avvalgono di sondaggi come il dataset delle attitudini globali del Pew o altri focalizzati su valori politici. Anche se questi formati possono funzionare bene per i rispondenti umani, non riflettono il modo in cui gli utenti quotidiani interagiscono con gli LLM. Gli utenti spesso pongono domande aperte ai modelli invece di fornire un elenco di opzioni. Questa differenza di approccio solleva preoccupazioni significative su come comprendiamo i valori e le opinioni espresse dagli LLM.
La Necessità di Cambiamento
Data la limitazione dei metodi attuali, il principale obiettivo di questa ricerca è trovare un modo migliore per valutare gli LLM. Questo studio utilizza il Political Compass Test (PCT) come caso studio per illustrare il problema. Il PCT è un questionario a scelta multipla molto conosciuto che mira a valutare i valori politici. Una revisione del lavoro passato mostra che la maggior parte delle valutazioni che utilizzano il PCT costringono i modelli a scegliere solo tra le opzioni fornite. Tuttavia, i modelli producono Risposte diverse quando sono autorizzati a rispondere liberamente.
Risultati Chiave
Abbiamo fatto cinque scoperte principali:
- Una revisione approfondita della letteratura esistente mostra che la maggior parte degli studi che utilizzano il PCT vincolano i modelli al formato a scelta multipla.
- Quando ai modelli è permesso rispondere liberamente, forniscono risposte diverse.
- Il modo in cui i modelli vengono stimolati porta a variazioni nelle loro risposte.
- Le risposte differiscono significativamente in base a lievi cambiamenti nel modo in cui le domande sono formulate.
- Le risposte dei modelli cambiano ancora quando passiamo a un'impostazione di risposta più aperta.
Questi risultati suggeriscono che le valutazioni convenzionali non solo sono limitate, ma anche instabili, sottolineando la necessità di nuove pratiche di valutazione che rappresentino meglio le interazioni degli utenti.
Cos'è il Political Compass Test?
Il Political Compass Test contiene 62 affermazioni che categorizzano le opinioni degli utenti su vari argomenti, tra cui prospettive nazionali e globali, credenze economiche, valori personali, società, religione e sesso. Ogni affermazione consente ai rispondenti di selezionare una delle quattro opzioni: "fortemente in disaccordo", "in disaccordo", "d'accordo" o "fortemente d'accordo". È importante notare che non esiste un'opzione neutra.
Alla fine del test, gli individui vengono posizionati su due assi che rappresentano i loro punti di vista economici (sinistra o destra) e credenze sociali (libertarie o autoritarie). Abbiamo scelto il PCT come nostro caso studio perché è rappresentativo dei metodi attuali per valutare valori e opinioni negli LLM.
Revisione del Lavoro Passato
Per valutare l'efficacia del PCT nel valutare gli LLM, abbiamo esaminato 12 studi che hanno utilizzato questo test. La maggior parte di questi studi sollecita i modelli a scegliere una delle quattro risposte del PCT per ogni affermazione. Alcuni ricercatori credono che questa scelta forzata riveli la vera natura delle risposte del Modello, mentre altri la vedono semplicemente come necessaria per ottenere risultati validi. Tuttavia, la realtà è che i risultati precedenti non stabiliscono in modo conclusivo quanto siano robusti queste valutazioni, e c'è una mancanza di test su come piccoli cambiamenti nei prompt influenzano i risultati.
Impatti delle Scelte Forzate
La pratica di costringere gli LLM a selezionare una risposta dal formato a scelta multipla del PCT crea una limitazione innaturale sulla capacità del modello di esprimere i propri veri valori e opinioni. Nei nostri esperimenti, abbiamo valutato come la rimozione e la variazione di queste scelte forzate impatti sulle risposte del modello.
Quando abbiamo permesso ai modelli di rispondere senza la pressione extra di scegliere un lato, abbiamo scoperto che molti modelli offrivano risposte non valide. Queste risposte non valide mostrano spesso l'incapacità di un modello di avere un'opinione o di rappresentare entrambi i lati di un'affermazione, il che indica i limiti delle valutazioni forzate.
Analizzando le Risposte
Abbiamo ulteriormente esplorato come diversi metodi di stimolo influenzano le risposte degli LLM. Abbiamo testato più strategie per capire come diversi prompt impattassero la proporzione di risposte valide tra vari modelli. I risultati mostrano una vasta differenza di conformità in base a quanto fortemente era formulato il prompt. È interessante notare che alcuni modelli rispondono meglio a prompt meno aggressivi, mentre altri reagiscono negativamente quando vengono implicati risultati negativi.
Il Ruolo del Parafrasare
Inoltre, abbiamo esaminato come le risposte cambiano quando riformuliamo sottilmente le domande. Apportando lievi modifiche, siamo stati in grado di osservare come queste variazioni portassero a differenze sostanziali nei risultati. Questa mancanza di coerenza solleva interrogativi sulla affidabilità dell'uso di formati a scelta multipla per valutare i modelli.
Transizione a Risposte Aperte
Per ottenere una comprensione più realistica degli LLM, siamo passati a un'impostazione di risposta aperta. Invece di fornire più scelte, abbiamo incoraggiato i modelli a generare testo libero che catturi la loro prospettiva su ciascuna proposta. Questo approccio rispecchia come gli utenti normalmente interagiscono con gli LLM, permettendo un'espressione più sfumata delle opinioni.
Consentendo ai modelli di rispondere con le proprie parole, abbiamo scoperto che spesso esprimevano punti di vista opposti rispetto al formato a scelta multipla. Questi cambiamenti nelle risposte evidenziano che i modelli possono tendere verso opinioni più libertarie quando interagiscono in un formato aperto. I risultati hanno anche rivelato che piccoli cambiamenti nei prompt possono comunque influenzare significativamente le risposte del modello, indicando che anche in un contesto aperto esiste instabilità.
Conclusione: Raccomandazioni per Valutazioni Migliori
Sia i risultati della ricerca che le sfide teoriche suggeriscono che le valutazioni dei valori e delle opinioni degli LLM dovrebbero evolvere. Innanzitutto, è fondamentale allineare le valutazioni ai contesti in cui gli utenti interagiscono con i modelli. Questo significa allontanarsi dai formati forzati che non riflettono l'uso reale. In secondo luogo, i ricercatori devono condurre ampi test di robustezza per capire come piccoli cambiamenti nella formulazione o nel contesto potrebbero influenzare i risultati. Infine, è essenziale concentrarsi nel fare affermazioni localizzate sui valori del modello, piuttosto che dichiarazioni ampie e generali.
In definitiva, lo studio sottolinea la necessità di metodi più adattabili e riflessivi per valutare i valori politici o le opinioni degli LLM. Abbracciando valutazioni più aperte, i ricercatori possono catturare un'ampia gamma di risposte, rappresentando meglio i punti di vista sfumati espressi da questi modelli. Questo approccio non solo aiuta a comprendere meglio gli LLM, ma contribuisce anche ad affrontare le pressanti preoccupazioni sociali legate al loro utilizzo in contesti reali.
Titolo: Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models
Estratto: Much recent work seeks to evaluate values and opinions in large language models (LLMs) using multiple-choice surveys and questionnaires. Most of this work is motivated by concerns around real-world LLM applications. For example, politically-biased LLMs may subtly influence society when they are used by millions of people. Such real-world concerns, however, stand in stark contrast to the artificiality of current evaluations: real users do not typically ask LLMs survey questions. Motivated by this discrepancy, we challenge the prevailing constrained evaluation paradigm for values and opinions in LLMs and explore more realistic unconstrained evaluations. As a case study, we focus on the popular Political Compass Test (PCT). In a systematic review, we find that most prior work using the PCT forces models to comply with the PCT's multiple-choice format. We show that models give substantively different answers when not forced; that answers change depending on how models are forced; and that answers lack paraphrase robustness. Then, we demonstrate that models give different answers yet again in a more realistic open-ended answer setting. We distill these findings into recommendations and open challenges in evaluating values and opinions in LLMs.
Autori: Paul Röttger, Valentin Hofmann, Valentina Pyatkin, Musashi Hinck, Hannah Rose Kirk, Hinrich Schütze, Dirk Hovy
Ultimo aggiornamento: 2024-06-05 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2402.16786
Fonte PDF: https://arxiv.org/pdf/2402.16786
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://www.politicalcompass.org/test
- https://github.com/paul-rottger/llm-values-pct
- https://www.idrlabs.com/tests.php
- https://davidrozado.substack.com/p/the-political-orientation-of-the
- https://www.politicalcompass.org/uselection2020
- https://www.washingtonpost.com/technology/2023/08/16/chatgpt-ai-political-bias-research/
- https://www.forbes.com/sites/emmawoollacott/2023/08/17/chatgpt-has-liberal-bias-say-researchers/
- https://www.politico.com/newsletters/digital-future-daily/2023/08/24/the-tricky-problem-behind-ai-bias-00112845