Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio

Valutare il feedback umano nei grandi modelli linguistici

Esaminare l'affidabilità del feedback umano per valutare i risultati dei modelli di linguaggio.

― 7 leggere min


I difetti nel feedbackI difetti nel feedbackumanovalutazioni dei modelli linguistici.I pregiudizi umani minano le
Indice

Valutare quanto bene funzionano i modelli linguistici grandi (LLM) è importante. La gente spesso usa il feedback umano come un modo chiave per misurarlo. Però, ci sono dubbi su quanto sia affidabile questo feedback. Il feedback che le persone danno può mostrare dei pregiudizi personali e potrebbe non riflettere tutti gli aspetti importanti dell'output di un modello.

Questo articolo esplorerà come il feedback umano venga utilizzato per valutare gli output degli LLM e come a volte possa mancare informazioni chiave. Daremo anche un'occhiata a come certe caratteristiche delle risposte influenzano queste valutazioni. Infine, discuteremo di come usare il feedback umano nell'addestramento possa cambiare il modo in cui questi modelli rispondono.

La Sfida della Valutazione

I modelli linguistici grandi producono testi che sono spesso chiari e ben scritti. Di conseguenza, valutare i loro output non è sempre facile. In alcuni casi, le loro risposte sono migliori di quelle degli esempi di riferimento. Sebbene questo sia un punto forte per gli LLM, rende anche difficile creare un metodo di valutazione che funzioni in tutte le situazioni.

Tradizionalmente, la valutazione umana si è basata su un unico punteggio generale per misurare la Qualità. In questo metodo, vengono mostrate diverse risposte allo stesso invito. Le persone quindi valutano queste risposte in base alla loro percezione della qualità. Questo punteggio può essere assoluto-dove le persone danno un punteggio diretto-o relativo, dove due risposte vengono confrontate tra loro.

Anche se l'idea di un punteggio unico può sembrare semplice, nasconde la Complessità di come le persone decidono cosa sia una buona risposta. I valutatori spesso si basano su caratteristiche ovvie come la fluidità, piuttosto che approfondire aspetti più complessi come la correttezza.

In passato, le valutazioni dei sistemi di generazione linguistica consideravano molti criteri diversi. Tuttavia, questi criteri erano spesso adattati a compiti specifici, rendendoli difficili da usare tra modelli diversi. Vista la rapida evoluzione delle prestazioni dei modelli, è fondamentale verificare se il feedback umano cattura le caratteristiche chiave che vogliamo negli output.

Limitazioni dei Punteggi di Preferenza

Dobbiamo analizzare quanto bene le preferenze umane rappresentino i vari tipi di errore. Per fare questo, definiamo una serie di tipi di errore che siano abbastanza ampi da applicarsi a situazioni diverse. Alcuni di questi tipi di errore includono:

  • Sicurezza: La risposta è dannosa in qualche modo?
  • Fluidità: La risposta ha errori grammaticali o ortografici?
  • Ambito: La risposta va oltre ciò che chiede l'invito?
  • Ripetizione: La risposta si ripete inutilmente?
  • Rifiuto: La risposta rifiuta di rispondere a una richiesta ragionevole?
  • Formattazione: La risposta rispetta le linee guida di formattazione richieste?
  • Pertinenza: La risposta è in tema?
  • Fattualità: La risposta è fattualmente scorretta?
  • Incoerenza: La risposta cambia informazioni dall'invito?
  • Contraddizione: La risposta si contraddice?

Abbiamo chiesto alle persone di controllare gli output dei modelli rispetto a questi criteri. Abbiamo scoperto che i punteggi di preferenza spesso mancavano in aree come la fattualità. Questo significa che, mentre la qualità complessiva può sembrare buona, problemi importanti possono essere nascosti.

L'Influenza del Pregiudizio

Le valutazioni delle persone non sono solo influenzate dal contenuto degli output. Lo stile e l'assicurazione di una risposta possono influenzare molto come viene giudicata. Una risposta sicura o complessa potrebbe essere vista più favorevolmente, anche se contiene errori. Questo può essere pericoloso perché porta a una situazione in cui output che sembrano corretti vengono accettati senza scrutinio.

Per testare questo, abbiamo creato output che variavano in Assertività e complessità, ma mantenevano il contenuto principale simile. Queste variazioni ci aiutano a vedere se i giudizi delle persone cambiano in base a quanto qualcosa è detto in modo assertivo. Abbiamo scoperto che le risposte più assertive tendono ad essere valutate più in alto, indipendentemente dalla loro reale correttezza.

Design Sperimentale

Per esaminare queste idee, abbiamo raccolto un grande set di risposte da diversi compiti, tra cui sintesi e descrizioni di prodotti. Abbiamo anche utilizzato vari modelli per produrre questi output, assicurandoci di avere una vasta gamma di stili e qualità.

I lavoratori del crowd hanno valutato questi output in base ai nostri criteri definiti e alla qualità complessiva. Inoltre, abbiamo controllato quanto fosse assertiva e complessa ciascuna risposta. Confrontando queste valutazioni, abbiamo potuto vedere se c'era un legame tra assertività, qualità e rilevamento di errori.

Risultati su Assertività e Complessità

I nostri esperimenti hanno rivelato una forte relazione tra assertività e qualità percepita. Una risposta assertiva riceve tipicamente un punteggio di qualità più alto. Anche la complessità ha avuto un ruolo, ma era meno prominente.

Interessante, le risposte più assertive tendevano ad avere un tasso di errore fattuale più alto. Questo suggerisce che quando le persone percepiscono una risposta come assertiva, potrebbero trascurare gli errori. Ad esempio, una risposta che afferma con sicurezza un fatto errato potrebbe essere vista come affidabile, semplicemente a causa del modo in cui è presentata.

D'altra parte, quando le risposte venivano fornite in un tono cauto e incerto, le persone trovavano più errori. Questo indica che una mancanza di assertività rende le persone più critiche.

I Rischi dell'Addestramento con Feedback Umano

Quando i modelli vengono addestrati usando feedback umano, può inavvertitamente migliorare tratti come l'assertività. Questo accade perché i modelli si adattano a ciò che gli valutatori sembrano favorire, che potrebbe essere risposte sicure piuttosto che corrette.

I nostri risultati suggeriscono che addestrare gli LLM sulle preferenze umane potrebbe non sempre portare ai migliori risultati. Se l'addestramento enfatizza l'assertività, gli output potrebbero diventare più sicuri ma meno affidabili.

Controllo della Qualità nelle Valutazioni

Abbiamo anche esaminato quanto bene i lavoratori del crowd concordassero sulle loro valutazioni. Raccogliendo annotazioni duplicate per output specifici, abbiamo scoperto che la maggior parte degli annotatori ha valutato costantemente gli esempi di distrazione più bassi rispetto alle risposte in tema. Questo significa che stavano prestando attenzione al compito.

Tuttavia, una scoperta notevole è stata che le persone a volte avevano difficoltà a rilevare incoerenze o imprecisioni fattuali. La complessità e l'assertività delle risposte rendevano più difficile per loro identificare questi problemi.

Implicazioni dei Risultati

I risultati di questa ricerca mostrano che, mentre il feedback umano è cruciale per l'addestramento e la valutazione dei modelli linguistici, non è infallibile. Le persone sono influenzate dallo stile e dall'assertività, portando a pregiudizi nelle loro valutazioni. Questo suggerisce che affidarsi solo ai punteggi di preferenza potrebbe non fornire un quadro completo della qualità.

Man mano che gli LLM diventano più avanzati, comprendere questi pregiudizi diventa ancora più critico. Una risposta potrebbe sembrare buona in superficie ma mancare di reale utilità a causa di errori non riconosciuti.

Raccomandiamo che le future strategie di valutazione tengano conto dei potenziali pregiudizi nel feedback umano. Potrebbe anche essere utile esplorare metodi di valutazione alternativi che non si basino esclusivamente sul giudizio umano.

Conclusione

In sintesi, valutare i grandi modelli linguistici utilizzando il feedback umano può essere complicato. Anche se il feedback può catturare molti aspetti della qualità, non riflette sempre elementi cruciali come la fattualità e la coerenza. L'assertività e la complessità delle risposte possono distorcere le percezioni della qualità, portando a giudizi errati.

Man mano che i modelli avanzano nelle loro capacità, sarà essenziale distinguere tra qualità percepita e utilità reale. Andando avanti, è importante affrontare queste limitazioni nel feedback umano e continuare a perfezionare i metodi di valutazione per garantire che gli LLM stiano davvero servendo al loro scopo previsto in modo efficace.

Fonte originale

Titolo: Human Feedback is not Gold Standard

Estratto: Human feedback has become the de facto standard for evaluating the performance of Large Language Models, and is increasingly being used as a training objective. However, it is not clear which properties of a generated output this single `preference' score captures. We hypothesise that preference scores are subjective and open to undesirable biases. We critically analyse the use of human feedback for both training and evaluation, to verify whether it fully captures a range of crucial error criteria. We find that while preference scores have fairly good coverage, they under-represent important aspects like factuality. We further hypothesise that both preference scores and error annotation may be affected by confounders, and leverage instruction-tuned models to generate outputs that vary along two possible confounding dimensions: assertiveness and complexity. We find that the assertiveness of an output skews the perceived rate of factuality errors, indicating that human annotations are not a fully reliable evaluation metric or training objective. Finally, we offer preliminary evidence that using human feedback as a training objective disproportionately increases the assertiveness of model outputs. We encourage future work to carefully consider whether preference scores are well aligned with the desired objective.

Autori: Tom Hosking, Phil Blunsom, Max Bartolo

Ultimo aggiornamento: 2024-01-16 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2309.16349

Fonte PDF: https://arxiv.org/pdf/2309.16349

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili