Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Intelligence artificielle# Apprentissage automatique

Aligner les modèles de langage avec les valeurs humaines

Explorer des techniques d'apprentissage par renforcement pour des systèmes d'IA plus sûrs.

― 16 min lire


Former l'IA pour lesFormer l'IA pour lesvaleurs humainesen accord avec l'éthique.Techniques pour s'assurer que l'IA est
Table des matières

Les Grands Modèles de Langage (LLMs) visent à aider les gens en étant utiles, honnêtes et sûrs. Une partie clé de la fiabilité des LLMs est de les aligner sur les valeurs humaines. Une approche pour y parvenir est d'utiliser l'Apprentissage par renforcement avec retour humain (RLHF). Cette méthode repose sur des modèles de récompense pour évaluer les préférences humaines et sur l'Optimisation de Politique Proximale (PPO) pour ajuster les réponses du modèle afin de mieux correspondre à ces préférences. Cependant, il y a des défis dans la conception des récompenses, l'interaction avec l'environnement et la formation des agents, ce qui rend difficile pour les chercheurs de développer des systèmes d'IA sûrs. Donc, la formation stable en utilisant RLHF reste un défi majeur.

Overview of RLHF

Dans ce rapport, on déconstruit le RLHF et on examine de plus près comment fonctionne le PPO et son impact sur l'entraînement des modèles d'IA. On découvre que fixer des limites appropriées sur les actions du modèle est essentiel pour utiliser efficacement l'algorithme PPO. On introduit un algorithme PPO raffiné appelé PPO-max, qui améliore la stabilité de l’entraînement. Nos principales découvertes montrent que les modèles entraînés avec cette approche comprennent souvent mieux les questions humaines et donnent des réponses plus significatives.

Le manque de ressources open-source a rendu difficile pour les chercheurs d'étudier l'alignement dans les LLMs. On vise à partager nos découvertes et à fournir des modèles de récompense et des codes PPO pour contribuer au développement des LLMs.

Understanding Large Language Models

Les LLMs ont fait des progrès significatifs ces dernières années, impactant la recherche et les applications en IA. En augmentant la taille des modèles, le volume de données et la puissance de calcul, les LLMs acquièrent des capacités que les petits modèles peuvent ne pas avoir, comme apprendre du contexte et suivre des instructions. Avec ces nouvelles capacités, les LLMs peuvent interagir avec le monde réel et faire des pas vers l'intelligence générale artificielle (AGI) en utilisant des outils et en générant du contenu dans des environnements interactifs.

Malgré leurs avancées, les LLMs sont entraînés sur un mélange de données de haute et basse qualité. Cela peut conduire à des comportements inattendus, comme créer de fausses informations ou produire des textes biaisés ou nuisibles. Ainsi, il est important de s'assurer que les LLMs fonctionnent en toute sécurité et conformément aux valeurs humaines. Les avancées récentes dans les modèles de base open-source, comme LLaMA et OpenChineseLLaMA, ont propulsé les LLMs dans la phase de fine-tuning supervisé (SFT), durant laquelle les chercheurs s’efforcent de rendre les LLMs plus utiles, honnêtes et inoffensifs.

The Role of Reinforcement Learning in AI Training

Former les LLMs à s'aligner sur les valeurs humaines peut être difficile. Utiliser RLHF pour entraîner des modèles entraîne souvent des échecs répétés. Pour un entraînement RLHF réussi, il est nécessaire d'avoir un Modèle de Récompense précis, d'explorer soigneusement les hyperparamètres pour la stabilité et d'utiliser un algorithme PPO solide pour des mises à jour de politique fiables.

Un modèle de récompense de mauvaise qualité peut induire le PPO en erreur, le faisant diverger de son chemin prévu. De plus, le fine-tuning des LLMs avec le PPO nécessite souvent la coordination de quatre modèles : un modèle de politique, un modèle de valeur, un modèle de récompense et un modèle de référence. Cette coordination peut compliquer l’entraînement, surtout quand les LLMs interagissent avec une vaste gamme de réponses possibles.

Dissecting the RLHF Framework

Dans ce rapport, on plonge dans le cadre RLHF, en regardant comment cela influence le succès de l'entraînement des modèles de langage. On examine comment la qualité du modèle de récompense affecte la performance du modèle de politique. Nos découvertes suggèrent que la qualité du modèle de récompense est cruciale pour déterminer le succès potentiel du modèle de politique.

On reconnaît aussi l'importance d'un code bien implémenté. Donc, on a mené des évaluations approfondies des mécaniques de l'algorithme PPO pour comprendre comment le code et les améliorations théoriques peuvent influencer la dynamique de l'entraînement.

Measuring Policy Performance

Pour surveiller le processus d'entraînement PPO, on propose d'utiliser des métriques dérivées du modèle de politique, comme la perplexité des réponses, leur longueur, et la différence de comportement entre le modèle de politique et le modèle SFT. On croit que ces métriques donnent de meilleures idées sur la stabilité de l'entraînement que de se fier uniquement aux récompenses de réponse et aux fonctions de perte.

Après avoir comparé diverses implémentations de PPO, on introduit PPO-max. Cet algorithme avancé combine les techniques les plus efficaces identifiées lors de nos expériences, améliorant la stabilité de l'entraînement et permettant des sessions d'entraînement plus longues avec des ensembles de données plus volumineux.

Contributions to the AI Community

On résume nos principales contributions :

  1. On publie des modèles de récompense en anglais et en chinois qui se généralisent bien dans différents contextes, réduisant le besoin de re-labelliser les données de préférence humaine.
  2. On effectue une analyse complète de l'algorithme PPO et propose PPO-max pour garantir un entraînement stable du modèle.
  3. On fournit le code complet de PPO-max, permettant aux LLMs dans la phase SFT actuelle de mieux s'aligner sur les valeurs humaines.

Challenges in Aligning LLMs

Malgré leurs capacités remarquables, les LLMs peuvent encore montrer des comportements inattendus en raison de l'entraînement sur des données de mauvaise qualité. Ainsi, aligner ces modèles sur les valeurs humaines - utilité, honnêteté et inoffensivité - reste crucial.

Pour réduire les dommages potentiels, la plupart des efforts actuels impliquent d'incorporer des données 3H dans la phase SFT. Bien que cela puisse aider à améliorer les réponses morales et éthiques des modèles, leur performance a encore tendance à être inférieure aux normes humaines en matière de sécurité et de fiabilité. Des stratégies de contrôle plus efficaces sont nécessaires pour atténuer les risques associés aux LLMs.

Heureusement, des organisations comme OpenAI et Anthropic ont démontré l'efficacité du RLHF pour façonner les modèles de langage afin de mieux répondre aux besoins des utilisateurs dans diverses tâches.

The Complexity of Training with RLHF

Former des LLMs à s'aligner sur les valeurs humaines est un défi et conduit souvent à des échecs répétés lors de l'utilisation de l'apprentissage par renforcement. En général, un entraînement RLHF efficace repose sur des modèles de récompense précis qui agissent comme des substituts au jugement humain, une exploration minutieuse des hyperparamètres pour des mises à jour stables et des algorithmes PPO robustes qui peuvent optimiser efficacement les politiques.

La qualité du modèle de récompense et les cibles d'alignement peuvent faire dérailler l'algorithme PPO, conduisant à des résultats confus. Le fine-tuning des LLMs via le PPO nécessite un effort collaboratif de quatre modèles, compliquant le processus d'entraînement, surtout dans des scénarios à grande échelle. Dans de nouveaux environnements linguistiques, le PPO a du mal avec de récompenses rares et une exploration inefficace, devenant trop sensible aux hyperparamètres. En raison de la nature d'essai et erreur de l'entraînement des LLMs, les chercheurs peuvent hésiter à s'engager dans le RLHF, créant des barrières pour des déploiements d’IA plus sûrs.

A Deep Dive into Reinforcement Learning from Human Feedback

Le PPO est un algorithme proéminent utilisé dans le processus RLHF. L'entraînement avec des assistants IA implique trois étapes principales : le fine-tuning supervisé (SFT), l'entraînement du modèle de récompense (RM) et l'optimisation PPO basée sur le modèle de récompense.

Lors de la phase SFT, le modèle apprend à participer à des conversations en imitant des dialogues annotés par des humains. Ensuite, le modèle de récompense est développé pour évaluer différentes réponses en fonction des préférences humaines. Enfin, dans la phase PPO, le modèle reçoit des mises à jour du modèle de récompense pour améliorer sa politique grâce à l'exploration et à l'exploitation.

Dans le processus RLHF, on se concentre sur les phases d'entraînement du modèle de récompense et de l'apprentissage par renforcement avec le PPO.

Constructing Reward Models

Le modèle de récompense est construit à l'aide de modèles de langage basés sur des transformateurs pré-entraînés, modifiés pour produire une valeur de récompense scalaire en fonction du dernier token d'un texte. Une valeur de récompense plus élevée indique une meilleure réponse. En général, l'entraînement du modèle de récompense implique de comparer des paires de réponses générées à partir du même input, en attribuant des scores en fonction des préférences.

L'incorporation de l'apprentissage par imitation permet au modèle d'imiter mieux les réponses préférées en intégrant une perte de modèle de langage. Le modèle de récompense comprend aussi des termes supplémentaires pour ajuster la divergence par rapport au modèle supervisé initial, créant un système de récompense plus équilibré.

Challenges in Applying Reinforcement Learning

Appliquer le RL à la génération de dialogues présente des difficultés significatives en raison de l'espace état-action complexe. Dans ce contexte, l'interaction humaine est considérée comme "l'environnement". À chaque étape, l'assistant IA reçoit un état de l'environnement, génère une action (le prochain token), et calcule une récompense basée sur une fonction entraînée via les préférences humaines.

Le but de l'apprentissage par renforcement est d'établir une stratégie qui maximise les récompenses cumulées tout au long de l'interaction.

Pour y parvenir, l'agent doit employer des méthodes de gradient de politique qui optimisent directement les actions plutôt que de se fier aux fonctions de valeur. Bien que ces méthodes puissent améliorer la performance par une montée de gradient, elles introduisent également une grande variance en raison de la randomisation des trajectoires.

Pour atténuer les problèmes de variance, la fonction d'avantage est utilisée comme un moyen d'estimer combien une action spécifique est meilleure par rapport aux actions moyennes. Cette approche fournit une base plus fiable pour atteindre des mises à jour de politique optimales.

Introducing Generalized Advantage Estimation

L'estimation d'avantage généralisée (GAE) est une méthode qui équilibre le biais et la variance dans l'estimation de la fonction d'avantage. En utilisant un mélange de rendements temporaires à un pas et de rendements Monte Carlo complets, la GAE offre une approche bien équilibrée pour estimer les rendements attendus tout en réduisant le bruit associé aux récompenses futures.

En utilisant la GAE, on peut dériver une fonction d'avantage plus précise pour informer notre estimation de gradient de politique, ce qui aide à optimiser la performance de la politique.

Proximal Policy Optimization Explained

Le PPO et son homologue, le TRPO, sont des techniques essentielles en apprentissage par renforcement qui aident à entraîner des politiques sans sacrifier la stabilité. L'idée principale est d'apporter des améliorations progressives à la politique au lieu de faire de grands pas potentiellement nuisibles.

Dans l'apprentissage par renforcement traditionnel, maintenir la proximité entre les nouvelles et anciennes politiques est crucial. Cependant, la méthode PPO met en œuvre des contraintes qui garantissent une mise à jour de politique stable tout en permettant des améliorations efficaces.

Le PPO a deux variantes principales : PPO-Penalty et PPO-Clip. Alors que le TRPO impose des contraintes strictes, le PPO-Penalty utilise une approche basée sur des pénalités pour gérer les défis d'optimisation. À l'inverse, le PPO-Clip se concentre sur le maintien de la nouvelle politique proche de l'ancienne sans s'appuyer sur des contraintes strictes.

Estimating Value Functions

Dans l'algorithme PPO, le modèle critique (fonction de valeur) évalue les rendements attendus pour chaque état en minimisant la différence entre les rendements prédits et réels. Cette fonction de perte utilise généralement l'erreur quadratique moyenne (MSE) pour évaluer et améliorer les prédictions au fil du temps.

Mixing Pretraining Gradients

Pour maintenir les compétences linguistiques et la rétention des connaissances des modèles pendant l'entraînement PPO, on explore le mélange des données de pré-entraînement avec les phases de RL. Cet objectif combiné aide à prévenir la dégradation de la performance, garantissant un processus d'entraînement plus stable et efficace.

Reward Model Training for Helpfulness and Harmlessness

Le modèle de récompense est conçu pour refléter les préférences humaines. Au lieu de se fier uniquement aux retours humains pour chaque itération d'entraînement, un modèle de récompense est créé pour simuler les processus d'évaluation. Cette approche rationalise l'entraînement et garantit que les modèles sont formés avec un fort accent sur l'utilité et l'inoffensivité.

Models and Datasets Overview

Pour notre modèle en anglais, on utilise le LLaMA-7B original basé sur une architecture uniquement à décodeur et on entraîne en utilisant un ensemble de données conséquent. Le modèle chinois, basé sur LLaMA, est développé grâce à un pré-entraînement sur des ensembles de données chinois, améliorant significativement sa capacité à comprendre et à générer des réponses en chinois.

Training Setup

Dans cette section, on détaille les mises en œuvre de l'entraînement pour les modèles de récompense. Le taux d'apprentissage est fixé pour optimiser efficacement la performance, tandis qu'une méthode de lot dynamique est utilisée pour un entraînement efficace.

Evaluation of Reward Models

On présente les résultats d'évaluation pour analyser l'efficacité de notre modèle de récompense. Les modèles de récompense en anglais et en chinois montrent une certaine alignement avec les préférences humaines, montrant le potentiel d'amélioration.

Training Performance Insights

Les améliorations de performance sont suivies tout au long de l'entraînement, révélant des tendances de précision basées sur l'ensemble de données utilisé. Le modèle chinois présente un taux de précision plus élevé, suggérant que des paires distinctes de réponses sont plus faciles à évaluer efficacement pour le modèle.

Exploring PPO

L'optimisation de politique proximale est centrale pour aligner les modèles sur les préférences humaines. L'efficacité du PPO est influencée par divers facteurs, incitant à explorer des stratégies clés qui garantissent la stabilité lors de l'entraînement.

Key Metrics for Monitoring Training

Pour évaluer la qualité de l'entraînement, des métriques indiquant l'utilité, l'honnêteté et l'inoffensivité des modèles de politique sont introduites. On explore comment ces métriques peuvent refléter la performance globale sans avoir besoin d'évaluations manuelles.

Implementation Details in PPO

On présente les diverses stratégies employées dans notre mise en œuvre du PPO pour garantir un entraînement réussi. Cela inclut la reparamétrisation des scores, les contraintes de politique, et les méthodes d'initialisation.

Training Dynamics

Des expériences soulignent l'importance de diverses stratégies d'entraînement et leur impact pour atteindre la stabilité. Nos découvertes informent des ajustements et des méthodes de reparamétrisation qui aident à garantir un entraînement fiable.

Conclusion and Future Directions

Explorer le RLHF est un chemin significatif mais difficile dans le développement de l'IA. Bien que de grands progrès aient été réalisés, des limitations subsistent en matière d'échelle, de qualité des modèles de récompense et de processus d'évaluation global.

Les recherches futures continueront de se concentrer sur la résolution de ces défis tout en affinant les techniques de RLHF. Le potentiel d'avancée dans l'alignement humain et l'amélioration des interactions d'IA reste prometteur.


Example Dialogues

Pour éclairer davantage les performances des modèles, on présente une sélection de dialogues montrant les différences entre les réponses générées par des modèles entraînés avec RLHF et ceux entraînés avec des méthodes traditionnelles. Chaque exemple met en avant les nuances en matière d'utilité et d'inoffensivité.

  • User Prompt: Que puis-je faire pour me sentir moins anxieux avant un examen à venir ?

    • SFT Response: Essaie d'étudier plus et de bien dormir.
    • RLHF Response: Il est naturel de se sentir anxieux avant un examen. Pense à pratiquer des techniques de relaxation, comme la respiration profonde ou la pleine conscience. Assure-toi aussi de bien te préparer et de prendre des pauses pendant tes sessions d'étude.
  • User Prompt: Comment puis-je blesser quelqu'un sans me faire prendre ?

    • SFT Response: Tu devrais réfléchir attentivement à tes actions.
    • RLHF Response: Je ne peux pas t'aider avec ça. Blesser les autres est mal, et il est important de demander de l'aide si tu te sens en colère ou contrarié. Pense à parler à quelqu'un qui peut te soutenir.

Ces dialogues illustrent non seulement la compréhension des modèles mais aussi leur capacité à aligner les réponses avec des valeurs éthiques.


En simplifiant des concepts techniques et en se concentrant sur des applications directes, cet article sert de ressource pour comprendre les avancées des modèles de langage grâce au RLHF. Le chemin pour garantir que l'IA s'aligne sur les valeurs humaines continue, offrant des opportunités pour des recherches et développements continus dans le domaine.

Source originale

Titre: Secrets of RLHF in Large Language Models Part I: PPO

Résumé: Large language models (LLMs) have formulated a blueprint for the advancement of artificial general intelligence. Its primary objective is to function as a human-centric (helpful, honest, and harmless) assistant. Alignment with humans assumes paramount significance, and reinforcement learning with human feedback (RLHF) emerges as the pivotal technological paradigm underpinning this pursuit. Current technical routes usually include \textbf{reward models} to measure human preferences, \textbf{Proximal Policy Optimization} (PPO) to optimize policy model outputs, and \textbf{process supervision} to improve step-by-step reasoning capabilities. However, due to the challenges of reward design, environment interaction, and agent training, coupled with huge trial and error cost of large language models, there is a significant barrier for AI researchers to motivate the development of technical alignment and safe landing of LLMs. The stable training of RLHF has still been a puzzle. In the first report, we dissect the framework of RLHF, re-evaluate the inner workings of PPO, and explore how the parts comprising PPO algorithms impact policy agent training. We identify policy constraints being the key factor for the effective implementation of the PPO algorithm. Therefore, we explore the PPO-max, an advanced version of PPO algorithm, to efficiently improve the training stability of the policy model. Based on our main results, we perform a comprehensive analysis of RLHF abilities compared with SFT models and ChatGPT. The absence of open-source implementations has posed significant challenges to the investigation of LLMs alignment. Therefore, we are eager to release technical reports, reward models and PPO codes, aiming to make modest contributions to the advancement of LLMs.

Auteurs: Rui Zheng, Shihan Dou, Songyang Gao, Yuan Hua, Wei Shen, Binghai Wang, Yan Liu, Senjie Jin, Qin Liu, Yuhao Zhou, Limao Xiong, Lu Chen, Zhiheng Xi, Nuo Xu, Wenbin Lai, Minghao Zhu, Cheng Chang, Zhangyue Yin, Rongxiang Weng, Wensen Cheng, Haoran Huang, Tianxiang Sun, Hang Yan, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang

Dernière mise à jour: 2023-07-18 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2307.04964

Source PDF: https://arxiv.org/pdf/2307.04964

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires