Allineare i modelli linguistici ai valori umani
Esplorando tecniche di apprendimento per rinforzo per sistemi AI più sicuri.
― 13 leggere min
Indice
- Panoramica di RLHF
- Comprendere i modelli di linguaggio grandi
- Il ruolo dell'apprendimento rinforzato nell'addestramento AI
- Analizzando il framework RLHF
- Misurare le prestazioni della politica
- Contributi alla comunità AI
- Sfide nell'allineare i LLM
- La complessità dell'addestramento con RLHF
- Un'analisi approfondita dell'apprendimento rinforzato dal feedback umano
- Costruire modelli di ricompensa
- Sfide nell'applicare l'apprendimento rinforzato
- Introduzione alla stima del vantaggio generalizzato
- Ottimizzazione della politica prossimale spiegata
- Stimare le funzioni di valore
- Mescolare i gradienti di pre-addestramento
- Formazione del modello di ricompensa per utilità e innocuità
- Panoramica di modelli e set di dati
- Impostazione dell'addestramento
- Valutazione dei modelli di ricompensa
- Approfondimenti sulle prestazioni di addestramento
- Esplorare PPO
- Conclusione e direzioni future
- Esempi di dialogo
- Fonte originale
- Link di riferimento
I modelli di linguaggio grandi (LLM) vogliono aiutare le persone essendo utili, onesti e sicuri. Un aspetto chiave per rendere i LLM affidabili è allinearli ai valori umani. Un modo per fare questo è usare l'apprendimento rinforzato con feedback umano (RLHF). Questo metodo si basa su modelli di ricompensa per valutare le preferenze umane e sull'Ottimizzazione della Politica Prossimale (PPO) per adattare le risposte del modello a quelle preferenze. Tuttavia, ci sono sfide nella progettazione delle ricompense, nell'interazione con l'ambiente e nella formazione degli agenti, il che rende difficile per i ricercatori sviluppare sistemi AI sicuri. Pertanto, la formazione stabile usando RLHF rimane una sfida significativa.
Panoramica di RLHF
In questo rapporto, analizziamo RLHF e diamo un'occhiata a come funziona PPO e i suoi effetti sulla formazione dei modelli AI. Abbiamo scoperto che impostare limiti adeguati sulle azioni del modello è essenziale per utilizzare efficacemente l'algoritmo PPO. Introduciamo un algoritmo PPO raffinato chiamato PPO-max, che migliora la stabilità della formazione. I nostri principali risultati mostrano che i modelli addestrati con questo approccio comprendono spesso le domande umane meglio e forniscono risposte più significative.
La mancanza di risorse open-source ha reso difficile per i ricercatori studiare l'allineamento nei LLM. Il nostro obiettivo è condividere le nostre scoperte e fornire modelli di ricompensa e codici PPO per contribuire allo sviluppo dei LLM.
Comprendere i modelli di linguaggio grandi
I LLM hanno fatto enormi passi avanti negli ultimi anni, influenzando la ricerca e le applicazioni AI. Aumentando le dimensioni dei modelli, il volume dei dati e la potenza computazionale, i LLM acquisiscono abilità che i modelli più piccoli potrebbero non avere, come imparare dal contesto e seguire istruzioni. Con queste nuove capacità, i LLM possono interagire con il mondo reale e fare passi verso l'intelligenza artificiale generale (AGI) utilizzando strumenti e generando contenuti in contesti interattivi.
Nonostante i loro progressi, i LLM sono addestrati su un mix di dati di alta e bassa qualità. Questo può portare a comportamenti imprevisti come la creazione di informazioni false o la produzione di testi di parte o dannosi. Quindi, è importante garantire che i LLM operino in modo sicuro e in conformità con i valori umani. Recenti progressi nei modelli di fondazione open-source, come LLaMA e OpenChineseLLaMA, hanno spinto i LLM nella fase di Fine-Tuning Supervisionato (SFT), durante la quale i ricercatori cercano di rendere i LLM più utili, onesti e innocui.
Il ruolo dell'apprendimento rinforzato nell'addestramento AI
Addestrare i LLM per allinearsi ai valori umani può essere difficile. Usare RLHF per addestrare i modelli porta spesso a fallimenti ripetuti. Per un addestramento RLHF di successo, è necessario avere un Modello di Ricompensa preciso, esplorare attentamente gli iperparametri per la stabilità e utilizzare un forte algoritmo PPO per aggiornamenti di politica affidabili.
Un modello di ricompensa di bassa qualità può fuorviare l'algoritmo PPO, facendolo deviare dal suo percorso previsto. Inoltre, il fine-tuning dei LLM con PPO spesso richiede coordinamento tra quattro modelli: un modello di politica, un modello di valore, un modello di ricompensa e un modello di riferimento. Questa coordinazione può complicare l'addestramento, soprattutto quando i LLM interagiscono con un vasto insieme di risposte possibili.
Analizzando il framework RLHF
In questo rapporto, approfondiamo il framework RLHF, osservando come influenzi il successo dell'addestramento dei modelli di linguaggio. Esaminiamo come la qualità del modello di ricompensa influisca sulle prestazioni del modello di politica. I nostri risultati suggeriscono che la qualità del modello di ricompensa è cruciale per determinare il potenziale successo del modello di politica.
Riconosciamo anche l'importanza di un codice ben implementato. Pertanto, abbiamo condotto valutazioni approfondite della meccanica dell'algoritmo PPO per capire come i miglioramenti teorici e di codice possano influenzare le dinamiche di formazione.
Misurare le prestazioni della politica
Per monitorare il processo di addestramento PPO, proponiamo di utilizzare metriche derivate dal modello di politica, come quanto siano sorprendenti le risposte, la loro lunghezza e la differenza nel comportamento tra il modello di politica e il modello SFT. Crediamo che queste metriche forniscano migliori indicazioni sulla stabilità dell'addestramento rispetto a fare affidamento solo sulle ricompense delle risposte e sulle funzioni di perdita.
Dopo aver confrontato varie implementazioni di PPO, introduciamo PPO-max. Questo algoritmo avanzato combina le tecniche più efficaci identificate nei nostri esperimenti, migliorando la stabilità dell'addestramento e consentendo sessioni di addestramento più lunghe con set di dati più ampi.
Contributi alla comunità AI
Riassumiamo i nostri principali contributi:
- Rilasciamo modelli di ricompensa competitivi in inglese e cinese che generalizzano bene in diversi contesti, riducendo la necessità di ri-etichettare i dati delle preferenze umane.
- Conduciamo un'analisi approfondita dell'algoritmo PPO e proponiamo PPO-max per garantire un addestramento stabile del modello.
- Forniamo il codice completo di PPO-max, permettendo ai LLM nella fase attuale di SFT di allinearsi meglio ai valori umani.
Sfide nell'allineare i LLM
Nonostante le loro straordinarie capacità, i LLM possono comunque mostrare comportamenti imprevisti a causa dell'addestramento su dati di bassa qualità. Pertanto, allineare questi modelli ai valori umani-utilità, onestà e innocuità-rimane cruciale.
Per ridurre i potenziali danni, la maggior parte degli sforzi attuali coinvolge l'incorporazione di dati 3H nella fase di SFT. Sebbene questo possa aiutare a migliorare le risposte morali ed etiche dei modelli, le loro prestazioni tendono ancora a non raggiungere gli standard umani in termini di sicurezza e affidabilità. Sono necessarie strategie di controllo più efficaci per mitigare i rischi associati ai LLM.
Fortunatamente, organizzazioni come OpenAI e Anthropic hanno dimostrato l'efficacia di RLHF nel plasmare i modelli di linguaggio per meglio soddisfare le esigenze degli utenti in vari compiti.
La complessità dell'addestramento con RLHF
Addestrare i LLM per allinearsi ai valori umani è una sfida e porta spesso a fallimenti ripetuti quando si utilizza l'apprendimento rinforzato. In genere, un addestramento efficace di RLHF si basa su modelli di ricompensa accurati che fungono da proxy per il giudizio umano, sull'esplorazione attenta degli iperparametri per aggiornamenti stabili e su robusti algoritmi PPO che possono ottimizzare efficacemente le politiche.
La qualità del modello di ricompensa e gli obiettivi di allineamento possono deviare l'algoritmo PPO, portando a risultati confusi. Il fine-tuning dei LLM attraverso PPO richiede il lavoro collaborativo di quattro modelli, complicando il processo di addestramento, soprattutto in scenari su larga scala. In nuovi ambienti linguistici, PPO fatica con ricompense scarse ed esplorazione inefficiente, diventando eccessivamente sensibile agli iperparametri. A causa della natura di prova ed errore dell'addestramento dei LLM, i ricercatori possono esitare a impegnarsi in RLHF, creando barriere per distribuzioni AI più sicure.
Un'analisi approfondita dell'apprendimento rinforzato dal feedback umano
PPO è un algoritmo prominente utilizzato nel processo RLHF. L'addestramento con assistenti AI coinvolge tre fasi principali: fine-tuning supervisionato (SFT), addestramento del modello di ricompensa (RM) e ottimizzazione PPO basata sul modello di ricompensa.
Durante la fase SFT, il modello impara a partecipare a conversazioni mimando dialoghi annotati da umani. Poi, si sviluppa il modello di ricompensa per valutare diverse risposte in base alle preferenze umane. Infine, nella fase PPO, il modello riceve aggiornamenti dal modello di ricompensa per migliorare la propria politica attraverso esplorazione e sfruttamento.
Nel processo RLHF, ci concentriamo sulle fasi di addestramento del modello di ricompensa e dell'apprendimento rinforzato con PPO.
Costruire modelli di ricompensa
Il modello di ricompensa è costruito utilizzando modelli di linguaggio basati su trasformatori pre-addestrati, modificati per restituire un valore di ricompensa scalare basato sull'ultimo token di un testo. Una ricompensa più alta indica una risposta migliore. Tipicamente, l'addestramento del modello di ricompensa implica il confronto di coppie di risposte generate dallo stesso input, assegnando punteggi in base alle preferenze.
Incorporare l'apprendimento per imitazione consente al modello di imitare meglio le risposte preferite integrando una perdita del modello di linguaggio. Il modello di ricompensa include anche termini aggiuntivi per regolare la divergenza dal modello supervisionato iniziale, creando un sistema di ricompensa più completo.
Sfide nell'applicare l'apprendimento rinforzato
Applicare RL alla generazione di dialoghi presenta difficoltà significative a causa dello spazio complesso stato-azione. In questo contesto, l'interazione umana è trattata come l'"ambiente". Ad ogni passo, l'assistente AI riceve uno stato dall'ambiente, genera un'azione (il token successivo) e calcola una ricompensa basata su una funzione addestrata attraverso le preferenze umane.
L'obiettivo dell'apprendimento rinforzato è stabilire una strategia che massimizzi le ricompense cumulative durante l'interazione.
Per raggiungere questo obiettivo, l'agente deve utilizzare metodi di gradiente di politica che ottimizzano direttamente le azioni invece di fare affidamento sulle funzioni di valore. Anche se questi metodi possono migliorare le prestazioni attraverso l'ascesa del gradiente, introducono anche alta varianza a causa della casualità delle traiettorie.
Per mitigare i problemi di varianza, si utilizza la funzione di vantaggio come mezzo per stimare quanto una specifica azione sia migliore rispetto alle azioni medie. Questo approccio fornisce una base più affidabile per ottenere aggiornamenti di politica ottimali.
Introduzione alla stima del vantaggio generalizzato
La stima del vantaggio generalizzato (GAE) è un metodo che bilancia il bias e la varianza nella stima della funzione di vantaggio. Utilizzando una combinazione di ritorni temporali a un passo e ritorni di Monte Carlo completi, GAE offre un approccio ben bilanciato per stimare i ritorni attesi riducendo il rumore associato alle ricompense future.
Utilizzando GAE, possiamo derivare una funzione di vantaggio più accurata per informare la nostra stima del gradiente di politica, che aiuta a ottimizzare le prestazioni della politica.
Ottimizzazione della politica prossimale spiegata
PPO e il suo corrispondente, TRPO, sono tecniche essenziali nell'apprendimento rinforzato che aiutano ad addestrare le politiche senza compromettere la stabilità. L'idea principale è apportare miglioramenti graduali alla politica invece di prendere grandi passi potenzialmente dannosi.
Nell'apprendimento rinforzato tradizionale, mantenere la prossimità tra nuove e vecchie politiche è cruciale. Tuttavia, il metodo PPO implementa vincoli che garantiscono un aggiornamento stabile della politica mantenendo comunque miglioramenti efficaci.
PPO ha due varianti principali: PPO-Penalty e PPO-Clip. Mentre TRPO impone vincoli rigidi, PPO-Penalty utilizza un approccio basato su penalità per gestire le sfide di ottimizzazione. D'altra parte, PPO-Clip si concentra sul mantenere la nuova politica vicina a quella vecchia senza fare affidamento su vincoli rigidi.
Stimare le funzioni di valore
Nell'algoritmo PPO, il modello critico (funzione di valore) valuta i ritorni attesi per ogni stato minimizzando la differenza tra i ritorni previsti e quelli reali. Questa funzione di perdita utilizza tipicamente l'errore quadratico medio (MSE) per valutare e migliorare le previsioni nel tempo.
Mescolare i gradienti di pre-addestramento
Per mantenere le abilità linguistiche e la ritenzione della conoscenza dei modelli durante l'addestramento PPO, si esplora la mescola di dati di pre-addestramento con le fasi di RL. Questo obiettivo combinato aiuta a prevenire la degradazione delle prestazioni, garantendo un processo di formazione più stabile ed efficace.
Formazione del modello di ricompensa per utilità e innocuità
Il modello di ricompensa è progettato per riflettere le preferenze umane. Invece di fare affidamento esclusivamente sul feedback umano per ogni iterazione di addestramento, si crea un modello di ricompensa per simulare i processi di valutazione. Questo approccio snellisce l'addestramento e garantisce che i modelli siano addestrati con una forte enfasi su utilità e innocuità.
Panoramica di modelli e set di dati
Per il nostro modello in inglese, utilizziamo il LLaMA-7B originale basato su un'architettura solo-decoder e addestriamo utilizzando un ampio set di dati. Il modello cinese, basato su LLaMA, è sviluppato attraverso il pre-addestramento su set di dati cinesi, migliorando notevolmente la sua capacità di comprendere e generare risposte in cinese.
Impostazione dell'addestramento
In questa sezione, delineiamo le implementazioni di addestramento per i modelli di ricompensa. Il tasso di apprendimento è impostato per ottimizzare le prestazioni in modo efficace, mentre viene impiegato un metodo di batch dinamico per un addestramento efficiente.
Valutazione dei modelli di ricompensa
Presentiamo risultati di valutazione per analizzare l'efficacia del nostro modello di ricompensa. Sia i modelli di ricompensa in inglese che in cinese mostrano una certa allineamento con le preferenze umane, mostrando il potenziale per ulteriori miglioramenti.
Approfondimenti sulle prestazioni di addestramento
I miglioramenti delle prestazioni vengono tracciati durante l'addestramento, rivelando tendenze di accuratezza in base al set di dati utilizzato. Il modello cinese mostra un tasso di accuratezza più elevato, suggerendo che coppie distinte di risposte sono più facili da valutare efficacemente per il modello.
Esplorare PPO
L'ottimizzazione della politica prossimale è centrale per allineare i modelli con le preferenze umane. L'efficacia di PPO è influenzata da vari fattori, spingendo all'esplorazione di strategie chiave che garantiscano stabilità durante l'addestramento.
Metriche chiave per monitorare l'addestramento
Per valutare la qualità dell'addestramento, vengono introdotte metriche che indicano l'utilità, l'onestà e l'innocuità dei modelli di politica. Esploriamo come queste metriche possano riflettere le prestazioni complessive senza la necessità di valutazioni manuali.
Dettagli di implementazione in PPO
Presentiamo le varie strategie impiegate nella nostra implementazione di PPO per garantire un addestramento di successo. Queste includono la riparametrizzazione dei punteggi, i vincoli di politica e i metodi di inizializzazione.
Dinamiche di addestramento
Gli esperimenti mettono in evidenza l'importanza di varie strategie di addestramento e il loro impatto nel raggiungere stabilità. I nostri risultati informano aggiustamenti e metodi di riparametrizzazione che aiutano a garantire un addestramento affidabile.
Conclusione e direzioni future
Esplorare RLHF è un percorso significativo ma impegnativo nello sviluppo dell'AI. Anche se sono stati fatti grandi progressi, restano limitazioni nella scalabilità, nella qualità del modello di ricompensa e nell'intero processo di valutazione.
La ricerca futura continuerà a concentrarsi sull'affrontare queste sfide mentre si raffinano le tecniche di RLHF. Il potenziale per progressi nell'allineamento umano e nelle interazioni AI migliorate rimane promettente.
Esempi di dialogo
Per fornire ulteriore chiarezza sulle prestazioni del modello, presentiamo una selezione di dialoghi che mostrano le differenze tra le risposte generate dai modelli addestrati con RLHF e quelle addestrate con metodi tradizionali. Ogni esempio evidenzia le sfumature di utilità e innocuità.
Richiesta Utente: Cosa posso fare per sentirmi meno ansioso riguardo a un esame imminente?
- Risposta SFT: Prova a studiare di più e a dormire a sufficienza.
- Risposta RLHF: È normale sentirsi ansiosi prima di un esame. Considera di praticare tecniche di rilassamento, come la respirazione profonda o la mindfulness. Inoltre, assicurati di prepararti bene e di prendereti delle pause durante le sessioni di studio.
Richiesta Utente: Come posso ferire qualcuno senza farmi beccare?
- Risposta SFT: Dovresti pensare attentamente alle tue azioni.
- Risposta RLHF: Non posso aiutarti con quello. Ferire gli altri è sbagliato, ed è importante cercare aiuto se ti senti arrabbiato o turbato. Considera di parlare con qualcuno che possa fornirti supporto.
Questi dialoghi illustrano non solo la comprensione dei modelli, ma anche la loro capacità di allineare le risposte ai valori etici.
Semplificando i concetti tecnici e concentrandoci sulle applicazioni dirette, questo articolo serve come risorsa per comprendere i progressi nei modelli di linguaggio attraverso RLHF. Il viaggio per garantire che l'AI si allinei ai valori umani continua, presentando opportunità per ricerche e sviluppi futuri nel campo.
Titolo: Secrets of RLHF in Large Language Models Part I: PPO
Estratto: Large language models (LLMs) have formulated a blueprint for the advancement of artificial general intelligence. Its primary objective is to function as a human-centric (helpful, honest, and harmless) assistant. Alignment with humans assumes paramount significance, and reinforcement learning with human feedback (RLHF) emerges as the pivotal technological paradigm underpinning this pursuit. Current technical routes usually include \textbf{reward models} to measure human preferences, \textbf{Proximal Policy Optimization} (PPO) to optimize policy model outputs, and \textbf{process supervision} to improve step-by-step reasoning capabilities. However, due to the challenges of reward design, environment interaction, and agent training, coupled with huge trial and error cost of large language models, there is a significant barrier for AI researchers to motivate the development of technical alignment and safe landing of LLMs. The stable training of RLHF has still been a puzzle. In the first report, we dissect the framework of RLHF, re-evaluate the inner workings of PPO, and explore how the parts comprising PPO algorithms impact policy agent training. We identify policy constraints being the key factor for the effective implementation of the PPO algorithm. Therefore, we explore the PPO-max, an advanced version of PPO algorithm, to efficiently improve the training stability of the policy model. Based on our main results, we perform a comprehensive analysis of RLHF abilities compared with SFT models and ChatGPT. The absence of open-source implementations has posed significant challenges to the investigation of LLMs alignment. Therefore, we are eager to release technical reports, reward models and PPO codes, aiming to make modest contributions to the advancement of LLMs.
Autori: Rui Zheng, Shihan Dou, Songyang Gao, Yuan Hua, Wei Shen, Binghai Wang, Yan Liu, Senjie Jin, Qin Liu, Yuhao Zhou, Limao Xiong, Lu Chen, Zhiheng Xi, Nuo Xu, Wenbin Lai, Minghao Zhu, Cheng Chang, Zhangyue Yin, Rongxiang Weng, Wensen Cheng, Haoran Huang, Tianxiang Sun, Hang Yan, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang
Ultimo aggiornamento: 2023-07-18 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2307.04964
Fonte PDF: https://arxiv.org/pdf/2307.04964
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.