Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio

Migliorare i modelli di ricompensa con critiche sintetiche

Un nuovo metodo migliora i modelli di ricompensa usando critiche sintetiche per un allineamento migliore.

― 13 leggere min


Potenziare i modelli diPotenziare i modelli diricompensa con critichemodelli di linguaggio.l'efficienza dell'allenamento per iLe critiche sintetiche migliorano
Indice

I modelli di ricompensa (RM) sono strumenti fondamentali per insegnare ai modelli di linguaggio come allinearsi con le preferenze umane. Questi modelli prevedono punteggi che riflettono ciò che piace o non piace agli esseri umani. Tuttavia, addestrare questi modelli richiede molto tempo e impegno a causa dell'annotazione umana. Questo processo può essere costoso e i RM spesso finiscono per concentrarsi troppo su dettagli superficiali piuttosto che sul significato più profondo del testo. Questo può renderli meno efficaci quando si trovano davanti a dati nuovi e mai visti.

Per affrontare questi problemi, proponiamo un nuovo metodo che utilizza critiche sintetiche generate da grandi modelli di linguaggio (LLM). Invece di fare affidamento solo sul feedback umano, usiamo queste critiche per valutare aspetti come il seguire le istruzioni, la correttezza e lo stile di scrittura. Questo metodo mira a fornire informazioni più dettagliate e ad aiutare i RM a funzionare meglio.

La nostra ricerca mostra che l'uso di critiche di alta qualità può migliorare significativamente le prestazioni e l'efficienza dei RM, anche quando sono basati su modelli pre-addestrati diversi. Al contrario, critiche di bassa qualità possono danneggiare le prestazioni. Inoltre, aggiungere critiche permette una migliore interpretabilità e stabilità durante l'addestramento del RM.

Apprendimento per rinforzo dal feedback umano

L'apprendimento per rinforzo dal feedback umano (RLHF) è un approccio popolare per garantire che i grandi modelli di linguaggio (LLM) soddisfino le preferenze umane. Questo metodo consiste in due passaggi principali. Prima, un Modello di Ricompensa viene addestrato per produrre ricompense numeriche basate sul feedback umano. Poi, vengono utilizzati metodi di apprendimento per rinforzo, come l'Ottimizzazione della Politica Prossimale (PPO), per ottimizzare i modelli di linguaggio al fine di massimizzare queste ricompense.

Il modello di ricompensa funge da sostituto delle preferenze umane, aiutando a decidere quale testo un utente potrebbe preferire. C'è un processo per raccogliere feedback da annotatori umani. Il RM confronta due risposte a un prompt e le valuta in base a quale è migliore.

Ad esempio, Llama 2 ha utilizzato circa un milione di punti di Dati di Preferenza binaria per addestrare il suo modello di ricompensa.

Quando si addestrano i RM, le critiche generate dai LLM aiutano a scomporre sia gli aspetti positivi che negativi delle risposte. Esse valutano quanto bene ciascuna risposta soddisfi i requisiti del prompt in termini di seguire le istruzioni, correttezza e utilità.

Sfide nell'addestramento dei modelli di ricompensa basati sulle preferenze

Attualmente, l'addestramento dei modelli di ricompensa basati sulle preferenze affronta diverse difficoltà:

  • Il processo di allineamento dell'RLHF con le preferenze umane manca di spiegazioni chiare e comprensibilità.
  • I punteggi di preferenza forniti dagli esseri umani possono essere incoerenti, soggettivi e influenzati da pregiudizi.
  • È difficile capire se i RM stanno apprendendo le vere preferenze degli esseri umani o semplicemente memorizzando caratteristiche superficiali. Questo può portare a problemi durante la seconda fase di ottimizzazione del modello secondo queste preferenze.

I RM possono diventare fragili e ottimizzare eccessivamente per il dataset su cui sono stati addestrati, portando a differenze tra le previsioni del RM e le reali preferenze umane quando i modelli vengono utilizzati. Altre sfide includono l'adattamento ai cambiamenti nella distribuzione dei dati e la vulnerabilità agli attacchi avversariali. Inoltre, addestrare i RM richiede dati diversi rispetto a quelli utilizzati per addestrare i modelli di testo generativi, il che può essere costoso e richiedere tempo.

A causa di queste sfide, i dataset di preferenza esistenti sono spesso piccoli e non esaustivi.

Con questo documento, suggeriamo di utilizzare critiche generate dai modelli per affrontare queste limitazioni.

Approccio Proposto

Nel nostro approccio, prima chiediamo ai LLM di produrre critiche per ogni coppia di prompt-completamento nei dati di preferenza. Queste critiche esaminano le risposte su varie dimensioni come correttezza e seguire le istruzioni. Poi, alleniamo i RM a prevedere punteggi basati su queste critiche e valutiamo le loro prestazioni su un set di test che include queste critiche. Poiché le critiche sintetiche possono essere facilmente prodotte utilizzando modelli open-source, il nostro metodo è accessibile e conveniente.

Abbiamo intenzione di dettagliare il processo di critica all'interno del documento e ci proponiamo di rispondere a diverse domande di ricerca. I nostri esperimenti indicano che utilizzare queste critiche può migliorare le prestazioni del RM, specialmente quando ci sono dati limitati. Abbiamo scoperto che una critica sintetica di qualità può essere equivalente a circa 40 coppie di preferenza normali, massimizzando l'efficienza dei nostri sforzi di annotazione.

In modo critico, mostriamo anche come critiche forti possano limitare gli effetti negativi delle caratteristiche superficiali, migliorando i punteggi finali delle ricompense.

Lavori Correlati

Il processo per addestrare moderni LLM di solito segue un metodo multi-step. In genere, implica prima l'addestramento del modello su un grande dataset non supervisionato, poi il fine-tuning con apprendimento supervisionato su dimostrazioni e infine l'applicazione dell'apprendimento per rinforzo dal feedback umano. Il feedback umano è stato cruciale per raggiungere il successo di questi modelli.

L'RLHF generalmente comporta l'addestramento di un modello di ricompensa utilizzando dati di preferenza da annotatori umani, che aiuta ad apprendere una politica tramite tecniche di apprendimento per rinforzo come Reinforce o PPO. Diversi metodi sono disponibili per affrontare i compiti di modellazione della ricompensa. Un approccio comune utilizza il modello di Bradley-Terry per prevedere le preferenze umane. Un altro metodo è l'Ottimizzazione Diretta delle Preferenze, in cui l'LLM stesso agisce da proxy per il modello di ricompensa.

Tuttavia, tutte queste strategie offline hanno ancora bisogno di dati di preferenza, sebbene non necessitino di un modello di ricompensa separato da addestrare.

Molti ricercatori esplorano anche l'uso di LLM generativi come modelli di ricompensa chiedendo loro di esprimere preferenze o di attribuire direttamente punteggi alle risposte.

Con il ruolo chiave che i modelli di ricompensa svolgono nel processo RLHF, c'è un crescente interesse nella comprensione del loro comportamento. Un contributo notevole è RewardBench, un benchmark creato per valutare i modelli di ricompensa, che include coppie di completamenti con ragionamenti dettagliati per le decisioni di preferenza. I risultati di RewardBench indicano che, mentre i modelli di ricompensa generalmente si comportano bene nelle conversazioni informali, faticano con compiti di ragionamento complesso. Le problematiche di prestazione sono ulteriormente complicate da fattori come il pregiudizio sulla lunghezza delle risposte e le sfide interpretative.

Le critiche sono emerse recentemente come uno strumento utile per migliorare la chiarezza durante lo sviluppo del modello e aumentare la robustezza contro esempi difficili. Tali razionalità si rivelano vitali durante l'addestramento e la valutazione degli LLM. Studi recenti mostrano che le critiche possono affinare le risposte in versioni più accurate. Aiutano anche gli annotatori umani a notare difetti che potrebbero normalmente trascurare e studi suggeriscono che utilizzare critiche durante la valutazione può migliorare l'accuratezza degli stessi valutatori.

Alcuni lavori esplorano l'uso di LLM come valutatori, e stimolarli con razionalità migliora la loro accuratezza. Auto-J estende queste idee, creando giudici LLM generativi che valutano le risposte e generano critiche, aumentando l'accuratezza complessiva del sistema. Nonostante i risultati promettenti che le critiche mostrano in varie applicazioni, il loro successo dipende fortemente dalla qualità delle critiche. È stato proposto un benchmark chiamato CriticBench per misurare l'efficacia delle critiche generate dagli LLM.

Generazione di Critiche Sintetiche con LLM

Il nostro primo passo prevede la generazione di critiche sintetiche per i dati di preferenza che addestreranno i RM. Guidiamo gli LLM a creare critiche in linguaggio naturale. Data una coppia di dati di preferenza (un prompt e due risposte), chiediamo all’LLM di produrre critiche puntuali per ogni completamento. Questo porta a un nuovo dataset di critiche, che consente un processo di addestramento più approfondito per i RM.

I design dei prompt per gli LLM si concentrano sulla generazione di critiche sintetiche che valutano le risposte in base a quanto bene aderiscono ai requisiti del prompt su vari aspetti.

Addestramento dei Modelli di Ricompensa con Critiche

Baseline Senza Critiche

Alleniamo i modelli di ricompensa che ricevono un prompt e una risposta per restituire un punteggio numerico. Per questa baseline Senza Critiche, usiamo una funzione di perdita di ranking binaria, che aiuta a misurare come si comporta il RM con il set di addestramento.

RM con Critiche

Una volta ottenute le critiche generate dagli LLM, miglioriamo i dati di addestramento con queste critiche. Concatenamo le critiche con ogni risposta per creare nuove coppie di preferenza, che formano un set di addestramento arricchito da critiche.

Alleniamo i RM con critiche utilizzando queste coppie di dati arricchite. Durante la fase di test, chiediamo in modo simile critiche utilizzando gli stessi LLM sul set di test, permettendoci di valutare le prestazioni utilizzando questo set di test arricchito da critiche. A titolo di confronto, osserviamo le prestazioni dei RM addestrati senza critiche.

Impostazioni Sperimentali

In questa sezione, deliniamo i dataset utilizzati per la ricerca, gli LLM impiegati per generare critiche, i modelli pre-addestrati per i RM e le specifiche di addestramento.

Dataset

Per addestrare i nostri RM, abbiamo raccolto un dataset di preferenza umana composto da 5.000 esempi di conversazioni aperte e multi-turno tra utenti e chatbot. Ogni voce ha un prompt e due risposte, insieme a un'etichetta di un annotatore umano che indica quale risposta era migliore. Una scala a tre punti misura la valutazione di preferenza.

Durante la valutazione, utilizziamo RM addestrati per assegnare punteggi a entrambe le risposte per ogni prompt del set di test. L'accuratezza del test serve come metrica per valutare le prestazioni del RM, dove calcoliamo l'accuratezza in base a quante volte la completazione scelta ottiene un punteggio superiore a quella scartata.

Valutiamo i RM attraverso vari dataset di benchmark che coprono un ampio spettro di capacità, comprese conversazioni, seguire istruzioni, codifica e compiti di sicurezza.

Generatore di Critiche LLM

Nella valutazione degli effetti delle critiche, abbiamo selezionato una varietà di LLM con architetture, dimensioni e dati di addestramento diversi. Abbiamo stabilito un pool di sei modelli per la generazione di critiche.

Dato il dataset di preferenza per l'addestramento e il test, chiediamo a ciascun modello di creare critiche per entrambi i set. Ci assicuriamo che i dati di addestramento e test contengano critiche generate dallo stesso modello per mantenere la coerenza.

Modelli Pre-addestrati per l'Inizializzazione del RM

Per esaminare gli effetti dei modelli pre-addestrati iniziali sui RM, esploriamo diversi checkpoint di modello di varie dimensioni e dati di addestramento. Questo include modelli che hanno subito un ulteriore fine-tuning.

Dettagli di Addestramento

Per addestrare i RM attraverso i nostri esperimenti, impostiamo una dimensione del batch di 32 ed eseguiamo un'epoca con un totale di 155 passi. Abbiamo scoperto che un addestramento prolungato tende a causare overfitting. Addestriamo tutti i parametri del modello, compresi i pesi pre-addestrati e l'ultimo strato. Utilizziamo una decadenza coseno per il tasso di apprendimento e l'ottimizzatore Adam.

Nei nostri esperimenti, abbiamo notato che i RM che partono da LLaMA2-7B-Base sono sensibili agli iperparametri quando utilizzano dati arricchiti con critiche. Sospettiamo che ciò sia dovuto alle dimensioni relativamente ridotte del modello, rendendolo più vulnerabile a distribuzioni di critiche diverse.

Risultati di Valutazione

Alleniamo i RM con dati di preferenza arricchiti da critiche sintetiche generate da vari modelli. Qui, condividiamo i risultati chiave riguardanti l'uso delle critiche per l'addestramento dei RM.

Le Critiche Sintetiche Migliorano le Prestazioni del RM?

I risultati della nostra valutazione indicano che l'aggiunta di critiche migliora generalmente l'accuratezza del test dei RM rispetto alla baseline Senza Critiche, dimostrando l'efficacia delle critiche sintetiche. Critiche di alta qualità migliorano notevolmente le prestazioni del RM, in particolare per modelli che partono da modelli pre-addestrati più deboli e in situazioni con dati scarsi.

Osserviamo una correlazione positiva tra qualità delle critiche e prestazioni del RM. Critiche forti tendono a produrre punteggi medi più alti attraverso i dataset. Abbiamo anche notato che le critiche beneficiano significativamente i RM che partono da modelli base meno capaci, evidenziando ulteriormente il loro valore.

Quali Impatti Hanno le Critiche sui RM Man Mano che Scala l'Addestramento?

Abbiamo condotto ulteriori esperimenti per analizzare come si comportano i RM addestrati con critiche man mano che la scala di addestramento aumenta. Preparando dataset di addestramento Senza Critiche di varie dimensioni, abbiamo generato critiche sintetiche per questi set e addestrato i RM per confrontare le loro prestazioni con quelli dei modelli Senza Critiche.

I nostri risultati suggeriscono che le critiche migliorano l'efficienza dei dati, in particolare in contesti a basso dato. Quando ci sono molti dati, entrambi i metodi raggiungono prestazioni comparabili, dimostrando che le critiche svolgono un ruolo cruciale nel massimizzare l'utilizzo di dati limitati.

Come parte di questa analisi, vediamo che le prestazioni migliorano notevolmente nei compiti difficili quando vengono utilizzate critiche, evidenziando la loro capacità di supportare ragionamenti complessi.

Analisi Fine-Grained

Abbiamo notato che le prestazioni del RM sul sottoinsieme Chat tendono ad essere più basse. Per comprendere meglio, abbiamo ripetuto i nostri esperimenti, concentrandoci esclusivamente su questo sottoinsieme. Abbiamo scoperto che dopo che il RM ha elaborato 10.000 coppie, ha raggiunto punteggi di accuratezza molto alti.

Al contrario, quando osserviamo i compiti di Ragionamento, che sono più difficili, i RM addestrati con critiche superano costantemente la baseline di un margine notevole, mostrando la loro robustezza contro esempi difficili.

Confronto con il RM Giudice Generativo

Per confermare le capacità dei nostri RM addestrati, abbiamo confrontato i RM basati su classificatori che partono da Command R-35B con un RM generativo condizionato sulle critiche. Chiedendo al RM generativo di produrre un punteggio per ogni coppia prompt-completamento, abbiamo potuto vedere come si confronta la sua prestazione con l'approccio basato su classificatori.

La nostra analisi ha indicato che i RM basati su classificatori generalmente superano il baseline del giudice generativo, convalidando l'efficacia del nostro modello. Il giudice generativo ha performato ragionevolmente bene nei compiti di conversazione informale, ma ha faticato con compiti di ragionamento più complessi ed esempi difficili.

Conclusione

Presentiamo un nuovo approccio accessibile per migliorare i modelli di ricompensa all'interno del framework RLHF integrando critiche sintetiche. Guidando gli LLM a generare critiche delle risposte e addestrando i RM ad attribuire punteggi basati su queste critiche, miglioriamo significativamente le prestazioni del RM nei test di benchmark.

I nostri esperimenti confermano che i benefici delle critiche sono particolarmente evidenti in situazioni a bassa risorsa e con modelli pre-addestrati più deboli. Le critiche sono generate automaticamente, eliminando la necessità di un impegno umano esteso, rendendo questa una soluzione economica per sviluppare modelli di ricompensa competitivi.

Con il proseguimento della ricerca, intendiamo esplorare ulteriormente metodi per generare critiche e il loro potenziale per migliorare le capacità di ragionamento degli LLM. Mentre ci concentriamo sulla valutazione dei RM direttamente contro benchmark esistenti, il lavoro futuro potrebbe coinvolgere l'ottimizzazione degli LLM con questi RM arricchiti da critiche.

In sintesi, il nostro studio mostra che le critiche sintetiche possono migliorare efficacemente le prestazioni dei modelli di ricompensa, spianando la strada per un addestramento dei modelli di linguaggio più efficiente ed efficace.

Fonte originale

Titolo: Improving Reward Models with Synthetic Critiques

Estratto: Reward models (RMs) play a critical role in aligning language models through the process of reinforcement learning from human feedback. RMs are trained to predict a score reflecting human preference, which requires significant time and cost for human annotation. Additionally, RMs tend to quickly overfit on superficial features in the training set, hindering their generalization performance on unseen distributions. We propose a novel approach using synthetic natural language critiques generated by large language models to provide additional feedback, evaluating aspects such as instruction following, correctness, and style. This offers richer signals and more robust features for RMs to assess and score on. We demonstrate that high-quality critiques improve the performance and data efficiency of RMs initialized from different pretrained models, reducing the reliance on costly human annotations. Furthermore, incorporating critiques improves both the interpretability and robustness of RM training.

Autori: Zihuiwen Ye, Fraser Greenlee-Scott, Max Bartolo, Phil Blunsom, Jon Ander Campos, Matthias Gallé

Ultimo aggiornamento: 2024-10-18 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2405.20850

Fonte PDF: https://arxiv.org/pdf/2405.20850

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili