Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio# Intelligenza artificiale

Avanzare i modelli di linguaggio con il reinforcement learning offline

Un nuovo framework migliora i modelli linguistici usando metodi di feedback umano offline.

― 7 leggere min


Apprendimento Offline perApprendimento Offline perModelli Linguisticicon le preferenze umane.Metodi efficienti per allineare l'IA
Indice

Imparare dalle preferenze umane è fondamentale per i modelli di linguaggio affinché possano soddisfare i bisogni e i valori delle persone. Ricerche passate hanno fatto progressi nell'utilizzare il feedback umano per migliorare questi modelli. Tuttavia, la maggior parte di questi metodi dipende da tecniche di apprendimento rinforzato online, come l'Ottimizzazione della Politica Prossimale (PPO). Questi metodi sono spesso instabili e possono essere difficili da regolare per i modelli di linguaggio. Inoltre, implementare la PPO richiede un sistema complesso, il che rende l'addestramento su larga scala meno efficiente.

In questo studio, proponiamo un framework per l'apprendimento rinforzato offline dal feedback umano (RLHF) per allineare i modelli di linguaggio utilizzando campioni pre-generati senza interagire con ambienti di apprendimento. Investigiamo in particolare metodi come la stima della massima verosimiglianza (MLE) con filtraggio, la regressione ponderata da ricompensa (RWR) e il Decision Transformer (DT) per allineare i modelli con le preferenze umane. Utilizzando una funzione di perdita simile all'addestramento supervisionato, i nostri metodi offrono un'esperienza di addestramento del modello più stabile rispetto alla PPO, necessitando al contempo di risorse computazionali significativamente inferiori (circa il 12,3%). I nostri risultati mostrano che il metodo di Allineamento DT funziona meglio rispetto ad altre tecniche RLHF offline e supera anche la PPO.

Recentemente, i progressi nei modelli di linguaggio hanno avuto un impatto significativo sul processamento del linguaggio naturale, consentendo una migliore generazione di testo. Anche se questi modelli sono potenti, a volte possono produrre risultati che non si allineano con le aspettative umane, come essere utili, veritieri e giusti. Una sfida chiave è garantire che i modelli di linguaggio riflettano valori e preferenze umane. Questo richiede di adattarli per produrre risultati che corrispondano a ciò che le persone trovano utile e appropriato. I ricercatori stanno cercando metodi per guidare i modelli di linguaggio nella generazione di testi che seguano norme etiche e sociali.

Un aspetto cruciale è l'utilizzo del feedback umano, e un approccio ben noto per allineare i modelli di linguaggio con l'intento umano è l'RLHF. Lavori precedenti in RLHF hanno utilizzato algoritmi online, come la PPO, combinati con modelli di ricompensa addestrati su feedback umano per perfezionare i modelli di linguaggio. Tuttavia, l'apprendimento rinforzato online può portare a instabilità nell'addestramento e difficoltà nella regolazione di vari parametri, come tassi di apprendimento e dimensioni dei batch. Una regolazione impropria può portare a fallimenti nella strategia PPO. Inoltre, implementare la PPO per la modellazione del linguaggio in sistemi più grandi introduce complessità e necessità di coordinamento tra i diversi componenti, rendendo il processo di addestramento meno efficiente.

Presentiamo un framework RLHF offline e sviluppiamo algoritmi specifici basati su MLE con filtraggio, RWR e DT. Per MLE con filtraggio, utilizziamo punteggi di ricompensa per filtrare i campioni, assicurandoci che solo campioni di alta qualità siano inclusi nell'addestramento allineato. RWR regola il calcolo della perdita dando più peso ai campioni ad alta ricompensa. Il DT impiega una politica basata sul metodo della cross-entropia per migliorare la stabilità e l'efficienza dell'addestramento. Il nostro approccio inizia addestrando un Modello di Ricompensa qualitativo utilizzando dataset di preferenze umane. Questo modello etichetta i campioni con ricompense, che poi utilizziamo per perfezionare il Modello di Linguaggio, portando a un addestramento più efficiente e più veloce rispetto alla PPO.

Lavori Correlati

Allineamento dei Modelli di Linguaggio con il Feedback Umano

Un esempio di modello che si allinea bene con il feedback umano è ChatGPT. Questo metodo addestra un grande modello di linguaggio (LLM) basato su un modello Generative Pre-trained Transformer (GPT)-3.5 pre-addestrato attraverso tre fasi: affinamento supervisionato, addestramento del modello di ricompensa e addestramento PPO.

  1. Affinamento Supervisionato (SFT): I ricercatori affinano il modello GPT-3 utilizzando dimostrazioni umane per guidarlo a seguire le istruzioni.

  2. Addestramento del Modello di Ricompensa (RM): A partire dal modello SFT, i ricercatori sviluppano un modello che prende prompt e risposte per generare un punteggio di ricompensa. Questo punteggio aiuta a valutare quanto bene il modello soddisfi le aspettative umane.

  3. Addestramento PPO: Il modello SFT viene ulteriormente affinato utilizzando la PPO all'interno di un ambiente dove genera risposte in base a prompt casuali dei clienti, ricevendo feedback basato sui punteggi del RM.

Questi passaggi consentono al modello di migliorare le sue risposte bilanciando l'ottimizzazione delle ricompense e mantenendo la stabilità dal SFT originale.

Apprendimento Rinforzato Offline e Decision Transformer

L'apprendimento rinforzato offline si concentra sull'apprendere politiche basate su un dataset fisso di interazioni precedenti, senza bisogno di nuove interazioni. Il Decision Transformer è un metodo che utilizza le capacità del Transformer per modellare la connessione tra stati, azioni e ritorni, il che aiuta nella pianificazione e nel controllo per compiti decisionali.

Proposto Framework RLHF Offline

Proponiamo un framework RLHF offline progettato per allineare i modelli di linguaggio con l'intento umano senza richiedere interazione con ambienti reali durante l'addestramento. Il processo include i seguenti passaggi:

  1. Affinamento Supervisionato: Simile a ChatGPT, prima affinando un modello pre-addestrato utilizzando dati di istruzioni etichettati dagli umani per insegnargli il formato e l'intento delle istruzioni umane.

  2. Addestramento del Modello di Ricompensa: Addestriamo un modello separato di preferenze umane per prevedere ricompense basate sulle funzioni di perdita disponibili.

  3. Etichettatura del Dataset e Miscela: Applichiamo il modello di ricompensa per etichettare i campioni di istruzioni raccolti, che includono sia risposte etichettate dagli umani che campioni generati dal modello. Per migliorare la diversità, combiniamo prompt provenienti da vari dataset per generare ulteriori risposte.

  4. Affinamento dell'Allineamento: Infine, perfezioniamo il modello utilizzando algoritmi RL offline sul dataset misto etichettato da ricompense per allineare meglio il modello con le preferenze umane.

  5. Addestramento Iterativo Opzionale: Dopo aver raccolto più dati, possiamo ripetere i passaggi di addestramento per affinare ulteriormente l'allineamento.

Questo framework RLHF offline consente una generazione illimitata di campioni da parte del modello, evitando problemi relativi ai dati fuori distribuzione che possono complicare l'apprendimento online.

Algoritmi RLHF Offline

Implementiamo tre algoritmi RLHF offline specifici:

  1. MLE con Filtraggio: Questo metodo si concentra sull'utilizzo solo di dati di alta qualità per l'addestramento.

  2. Regressione Ponderata da Ricompensa (RWR): Invece di utilizzare solo campioni di alta qualità, RWR applica pesi diversi basati sui punteggi di ricompensa, risultando in un calcolo della perdita più sfumato.

  3. Allineamento del Decision Transformer (DT): In questo metodo, il punteggio di ricompensa è trattato come parte del prompt, consentendo al modello di linguaggio di comprendere l'importanza della ricompensa durante l'addestramento.

Impostazione della Valutazione

Utilizziamo un modello GPT con 8 miliardi di parametri come base, pre-addestrato su un vasto dataset di token multilingue. Per valutare le prestazioni dei nostri modelli, li confrontiamo con un modello PPO e un modello SFT, impiegando valutazioni umane e valutazioni GPT-4 basate su prompt predefiniti.

I nostri dataset di addestramento comprendono una varietà di istruzioni etichettate dagli umani e un mix di dataset pubblici. I dataset di preferenze umane che utilizziamo assicurano che il nostro modello di ricompensa sia ben informato dal feedback umano.

Risultati Sperimentali

Conduciamo valutazioni per misurare l'utilità attraverso sia la valutazione umana che le valutazioni GPT-4. I nostri risultati indicano che il DT fornisce prestazioni leggermente migliori rispetto alla PPO, richiedendo al contempo meno tempo di addestramento. I metodi RLHF offline dimostrano che sia l'apprendimento rinforzato online che offline contribuiscono a migliorare le risposte del modello in allineamento con le aspettative umane.

Analisi delle Prestazioni di Addestramento

Sia i metodi PPO che quelli RLHF offline vengono valutati sulla loro efficienza di addestramento e utilizzo delle risorse. I risultati mostrano che la PPO impiega significativamente più tempo per convergere rispetto ai metodi di allineamento RLHF offline, evidenziando l'efficienza del nostro approccio.

Nel nostro lavoro, abbiamo proposto un framework RLHF offline volto ad affrontare le sfide dell'instabilità nell'addestramento dell'apprendimento rinforzato e delle complessità dei sistemi distribuiti. I nostri metodi mostrano risultati promettenti nel raggiungere prestazioni competitive con risorse inferiori, il che illustra il potenziale degli approcci di apprendimento offline nello sviluppo di modelli di linguaggio.

Conclusione

Questo framework presenta un nuovo modo di allineare i modelli di linguaggio con le preferenze umane in modo efficiente. I nostri metodi RLHF offline mostrano il potenziale di mantenere la stabilità dell'addestramento riducendo i requisiti di risorse. I risultati sperimentali supportano l'affermazione che i metodi offline possono migliorare con successo la capacità dei modelli di linguaggio di allinearsi con i valori e le aspettative umane.

Fonte originale

Titolo: Aligning Language Models with Offline Learning from Human Feedback

Estratto: Learning from human preferences is crucial for language models (LMs) to effectively cater to human needs and societal values. Previous research has made notable progress by leveraging human feedback to follow instructions. However, these approaches rely primarily on online learning techniques like Proximal Policy Optimization (PPO), which have been proven unstable and challenging to tune for language models. Moreover, PPO requires complex distributed system implementation, hindering the efficiency of large-scale distributed training. In this study, we propose an offline learning from human feedback framework to align LMs without interacting with environments. Specifically, we explore filtering alignment (FA), reward-weighted regression (RWR), and conditional alignment (CA) to align language models to human preferences. By employing a loss function similar to supervised fine-tuning, our methods ensure more stable model training than PPO with a simple machine learning system~(MLSys) and much fewer (around 9\%) computing resources. Experimental results demonstrate that conditional alignment outperforms other offline alignment methods and is comparable to PPO.

Autori: Jian Hu, Li Tao, June Yang, Chandler Zhou

Ultimo aggiornamento: 2023-12-09 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2308.12050

Fonte PDF: https://arxiv.org/pdf/2308.12050

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili