Améliorer les modèles de récompense avec des critiques synthétiques
Une nouvelle méthode améliore les modèles de récompense en utilisant des critiques synthétiques pour un meilleur alignement.
― 17 min lire
Table des matières
- Apprentissage par renforcement à partir des retours humains
- Défis dans l’entraînement des modèles de récompense basés sur les préférences
- Approche proposée
- Travaux connexes
- Génération de critiques synthétiques avec des LLMs
- Entraînement des modèles de récompense avec des critiques
- Base de référence sans critiques
- RM avec critiques
- Configuration expérimentale
- Jeux de données
- Générateur de critiques LLM
- Modèles pré-entraînés pour l'initialisation des RMs
- Détails de l'entraînement
- Résultats d'évaluation
- Les critiques synthétiques améliorent-elles la performance des RMs ?
- Quels impacts les critiques ont-elles sur les RMs à mesure que l'échelle d'entraînement augmente ?
- Analyse détaillée
- Comparaison avec le RM juge génératif
- Conclusion
- Source originale
- Liens de référence
Les modèles de récompense (RMs) sont des outils essentiels pour apprendre aux modèles de langage à s'aligner sur les préférences humaines. Ces modèles prédisent des scores qui reflètent les goûts et les dégoûts des humains. Cependant, entraîner ces modèles demande beaucoup de temps et d'efforts à cause de l'annotation humaine. Ce processus peut être coûteux, et les RMs finissent souvent par se concentrer trop sur des détails superficiels plutôt que sur le sens profond du texte. Ça peut les rendre moins efficaces quand ils rencontrent des données nouvelles et inédites.
Pour régler ces problèmes, on propose une nouvelle méthode qui utilise des critiques synthétiques générées par de grands modèles de langage (LLMs). Au lieu de se fier uniquement aux retours humains, on utilise ces critiques pour évaluer des aspects comme le respect des instructions, la justesse et le style d’écriture. Cette méthode vise à fournir des informations plus riches et à aider les RMs à mieux fonctionner.
Nos recherches montrent que l'utilisation de critiques de haute qualité peut améliorer considérablement la performance et l'efficacité des RMs, même quand ils sont basés sur différents modèles pré-entraînés. En revanche, des critiques de mauvaise qualité peuvent nuire à la performance. De plus, ajouter des critiques permet une meilleure interprétabilité et stabilité durant l'Entraînement des RMs.
Apprentissage par renforcement à partir des retours humains
L'apprentissage par renforcement à partir des retours humains (RLHF) est une approche populaire pour s'assurer que les grands modèles de langage (LLMs) répondent aux préférences humaines. Cette méthode consiste en deux étapes principales. D'abord, un Modèle de Récompense est entraîné pour produire des récompenses numériques basées sur les retours humains. Ensuite, des méthodes d'apprentissage par renforcement, comme l'optimisation de politique proximale (PPO), sont utilisées pour peaufiner les modèles de langage afin de maximiser ces récompenses.
Le modèle de récompense agit comme un substitut aux préférences humaines, aidant à décider quel texte un utilisateur pourrait préférer. Il y a un processus pour recueillir des retours de la part d'annotateurs humains. Le RM compare deux réponses à une invite et les note en fonction de laquelle est meilleure.
Par exemple, Llama 2 a utilisé environ un million de points de Données de préférences binaires pour entraîner son modèle de récompense.
Lors de l'entraînement des RMs, les critiques générées par les LLMs aident à décomposer à la fois les bons et les mauvais aspects des réponses. Elles évaluent à quel point chaque réponse respecte les exigences de l'invite en termes de suivi des instructions, de justesse et d'utilité.
Défis dans l’entraînement des modèles de récompense basés sur les préférences
Actuellement, l'entraînement des modèles de récompense basés sur les préférences fait face à plusieurs difficultés :
- Le processus d'alignement du RLHF sur les préférences humaines manque d'explications claires et de compréhension.
- Les scores de préférence donnés par les humains peuvent être incohérents, subjectifs et influencés par des biais.
- Il est difficile de savoir si les RMs apprennent les véritables préférences des humains ou s'ils se contentent de mémoriser des caractéristiques superficielles. Cela peut poser des problèmes lors de la deuxième étape d'ajustement du modèle selon ces préférences.
Les RMs peuvent devenir fragiles et peuvent optimiser excessivement pour le jeu de données sur lequel ils ont été entraînés, entraînant des différences entre les prédictions du RM et les véritables préférences humaines lors de l'utilisation des modèles. D'autres défis incluent l'adaptation aux changements de distribution des données et la vulnérabilité aux attaques adverses. De plus, entraîner des RMs nécessite des données qui diffèrent de celles utilisées pour entraîner les modèles de texte génératifs, ce qui peut être coûteux et chronophage.
À cause de ces défis, les jeux de données de préférence existants sont souvent petits et pas toujours complets.
Avec cet article, on propose d'utiliser des critiques générées par les modèles pour surmonter ces limitations.
Approche proposée
Dans notre approche, on commence par demander aux LLMs de produire des critiques pour chaque paire invite-réponse dans les données de préférence. Ces critiques évaluent les réponses sur divers aspects comme la justesse et le respect des instructions. Ensuite, on entraîne les RMs à prédire des scores basés sur ces critiques et à évaluer leur performance sur un ensemble de test qui inclut ces critiques. Comme les critiques synthétiques peuvent être facilement produites en utilisant des modèles open-source, notre méthode est accessible et économe.
On prévoit de détailler le processus de critique dans l'article et on vise à répondre à plusieurs questions de recherche. Nos expériences indiquent que l'utilisation de ces critiques peut améliorer la performance des RMs, surtout lorsqu'il y a peu de données. On a constaté qu'une critique synthétique de qualité peut être équivalente à environ 40 paires de préférences régulières, maximisant l'efficacité de nos efforts d'annotation.
Critiquement, on montre aussi comment des critiques solides peuvent limiter les effets négatifs des caractéristiques superficielles, améliorant les scores de récompense finaux.
Travaux connexes
Le processus d'entraînement des LLMs modernes suit généralement une méthode en plusieurs étapes. Il consiste en général à entraîner d'abord le modèle sur un large jeu de données non supervisé, puis à le peaufiner avec un apprentissage supervisé sur des démonstrations, et enfin à appliquer l'apprentissage par renforcement à partir des retours humains. Les retours humains ont été cruciaux pour le succès de ces modèles.
Le RLHF implique généralement d'entraîner un modèle de récompense en utilisant des données de préférence provenant d'annotateurs humains, ce qui aide à apprendre une politique via des techniques d'apprentissage par renforcement comme Reinforce ou PPO. Plusieurs méthodes sont disponibles pour s'attaquer aux tâches de modélisation de récompense. Une approche courante utilise le modèle de Bradley-Terry pour prédire les préférences humaines. Une autre méthode est l'optimisation directe des préférences, où le LLM lui-même agit comme un proxy pour le modèle de récompense.
Cependant, toutes ces stratégies hors ligne ont encore besoin de données de préférence, même si elles n'ont pas besoin d'un modèle de récompense séparé à être entraîné.
De nombreux chercheurs explorent également l'utilisation de LLMs génératifs comme modèles de récompense en leur demandant d'exprimer des préférences ou de noter directement des réponses.
Avec le rôle clé que jouent les modèles de récompense dans le processus RLHF, il y a un intérêt croissant à comprendre leur comportement. Une contribution notable est RewardBench, un banc d'essai créé pour évaluer les modèles de récompense, qui inclut des paires de complétions avec un raisonnement détaillé pour les décisions de préférence. Les résultats de RewardBench indiquent que, bien que les modèles de récompense soient généralement performants dans les conversations décontractées, ils peinent avec des tâches de raisonnement complexes. Les problèmes de performance sont encore compliqués par des facteurs comme le biais de longueur de réponse et les défis d'interprétabilité.
Les critiques ont récemment émergé comme un outil utile pour améliorer la clarté durant le développement des modèles et renforcer la robustesse contre des exemples difficiles. De tels raisonnement sont vitaux pendant l'entraînement et l'évaluation des LLMs. Des études récentes montrent que les critiques peuvent affiner les réponses en versions plus précises. Elles aident aussi les annotateurs humains à repérer des défauts qu'ils pourraient typiquement ignorer, et les études suggèrent que l'utilisation de critiques durant l'évaluation peut améliorer la précision des évaluateurs eux-mêmes.
Certains travaux explorent l'utilisation de LLMs comme évaluateurs, et les inciter avec des raisonnements améliore leur précision. Auto-J prolonge ces idées en créant des juges LLM génératifs qui évaluent des réponses et génèrent des critiques, ce qui améliore la précision globale du système. Malgré les résultats prometteurs montrant l'importance des critiques dans diverses applications, leur succès dépend fortement de la qualité des critiques. Un banc d'essai appelé CriticBench a été proposé pour mesurer l'efficacité des critiques générées par les LLMs.
Génération de critiques synthétiques avec des LLMs
Notre première étape consiste à générer des critiques synthétiques pour les données de préférence qui serviront à entraîner les RMs. On guide les LLMs pour créer des critiques en langage naturel. Étant donné une paire de données de préférence (une invitée et deux réponses), on demande au LLM de produire des critiques point par point pour chaque complétion. Cela aboutit à un nouveau jeu de données de critiques, ce qui permet un processus d'entraînement plus approfondi pour les RMs.
Les conceptions des invites pour les LLMs se concentrent sur la génération de critiques synthétiques qui évaluent les réponses en fonction de leur conformité aux exigences de l'invite sur divers aspects.
Entraînement des modèles de récompense avec des critiques
Base de référence sans critiques
On entraîne des modèles de récompense qui reçoivent une invitée et une réponse pour produire un score numérique. Pour cette base de référence sans critiques, on utilise une fonction de perte de classement binaire, qui aide à mesurer le comportement du RM avec l'ensemble d'entraînement.
RM avec critiques
Une fois qu'on a les critiques générées par les LLMs, on améliore les données d'entraînement avec ces critiques. On concatène les critiques avec chaque réponse pour créer de nouvelles paires de préférence, qui forment un ensemble d'entraînement enrichi en critiques.
On entraîne les RMs critiques en utilisant ces paires de données enrichies. Durant la phase de test, on demande également des critiques en utilisant les mêmes LLMs sur l'ensemble de test, ce qui nous permet d'évaluer les performances en utilisant cet ensemble de test enrichi en critiques. Pour la comparaison, on regarde les performances des RMs entraînés sans critiques.
Configuration expérimentale
Dans cette section, on expose les jeux de données utilisés pour la recherche, les LLMs utilisés pour générer les critiques, les modèles pré-entraînés pour les RMs, et les spécificités de l'entraînement.
Jeux de données
Pour entraîner nos RMs, on a rassemblé un jeu de données de préférences humaines comprenant 5 000 exemples de conversations ouvertes et multi-tours entre utilisateurs et chatbots. Chaque entrée a une invitée et deux réponses, ainsi qu'une étiquette d'un annotateur humain indiquant laquelle des deux réponses était meilleure. Une échelle de trois points mesure la note de préférence.
Lors de l'évaluation, on utilise des RMs entraînés pour attribuer des scores aux deux réponses pour chaque invite de l'ensemble de test. La précision du test sert de métrique pour évaluer la performance des RMs, où on calcule la précision en fonction de la fréquence à laquelle la réponse choisie obtient un score plus élevé que celle rejetée.
On évalue les RMs sur divers jeux de données de référence couvrant un large éventail de compétences, y compris la conversation, le respect des instructions, le codage et les tâches de sécurité.
Générateur de critiques LLM
En évaluant les effets des critiques, on a sélectionné une variété de LLMs avec différentes architectures, tailles et données d'entraînement. On a établi un pool de six modèles pour la génération de critiques.
Étant donné les données de préférence d'entraînement et de test, on demande à chaque modèle de créer des critiques pour les deux ensembles. On s'assure que les données d'entraînement et de test contiennent des critiques générées par le même modèle pour maintenir la cohérence.
Modèles pré-entraînés pour l'initialisation des RMs
Pour examiner les effets des modèles pré-entraînés initiaux sur les RMs, on explore différents points de contrôle de modèles de tailles et de données d'entraînement variées. Cela inclut des modèles qui ont subi une fine-tuning supplémentaire.
Détails de l'entraînement
Pour entraîner les RMs dans nos expériences, on fixe une taille de lot de 32 et exécute un epoch avec 155 étapes au total. On a constaté que l'entraînement prolongé a tendance à provoquer un surajustement. On entraîne tous les paramètres du modèle, y compris les poids pré-entraînés et la couche finale. On utilise une décroissance cosinusoïdale pour le taux d'apprentissage et l'optimiseur Adam.
Dans nos expériences, on a remarqué que les RMs commençant à partir de LLaMA2-7B-Base sont sensibles aux hyperparamètres lorsqu'on utilise des données enrichies avec des critiques. On suspecte que cela soit dû à la taille relativement petite du modèle, le rendant plus vulnérable à des distributions de critiques diverses.
Résultats d'évaluation
On entraîne les RMs avec des données de préférence enrichies par des critiques synthétiques générées par divers modèles. Ici, on partage les résultats clés concernant l'utilisation de critiques pour entraîner les RMs.
Les critiques synthétiques améliorent-elles la performance des RMs ?
Nos résultats d'évaluation indiquent que l'ajout de critiques améliore généralement la précision des tests des RMs par rapport à la base de référence sans critiques, démontrant l'efficacité des critiques synthétiques. Les critiques de haute qualité améliorent notablement la performance des RMs, en particulier pour les modèles démarrant de modèles pré-entraînés moins performants et dans des situations de manque de données.
On observe une corrélation positive entre la qualité des critiques et la performance des RMs. Des critiques solides donnent généralement des scores moyens plus élevés dans divers ensembles de données. On a aussi vu que les critiques bénéficient de manière significative aux RMs partant de modèles de base moins capables, soulignant encore leur valeur.
Quels impacts les critiques ont-elles sur les RMs à mesure que l'échelle d'entraînement augmente ?
On a réalisé d'autres expériences pour analyser comment les RMs entraînés avec des critiques se comportent à mesure que l'échelle d'entraînement augmente. En préparant des ensembles de données d'entraînement sans critiques à différentes tailles, on a généré des critiques synthétiques pour ces ensembles et entraîné des RMs pour comparer leurs performances contre les modèles sans critiques.
Nos résultats suggèrent que les critiques améliorent l'efficacité des données, en particulier dans des contextes à faible quantité de données. Quand il y a beaucoup de données, les deux méthodes atteignent des performances comparables, montrant que les critiques jouent un rôle crucial pour tirer le meilleur parti de données limitées.
Dans le cadre de cet examen, on constate que la performance s'améliore de manière significative sur les tâches difficiles lorsque les critiques sont utilisées, mettant en avant leur capacité à soutenir un raisonnement complexe.
Analyse détaillée
On a remarqué que la performance des RMs sur le sous-ensemble Chat a tendance à être plus basse. Pour comprendre cela mieux, on a répété nos expériences en se concentrant uniquement sur ce sous-ensemble. On a trouvé qu'après que le RM ait reçu 10 000 paires, il a atteint des scores de précision très élevés.
En revanche, quand on regarde les tâches de raisonnement, qui sont plus difficiles, les RMs entraînés avec des critiques surpassent systématiquement la base de référence d'une marge notable, montrant leur robustesse contre des exemples difficiles.
Comparaison avec le RM juge génératif
Pour confirmer la capacité de nos RMs entraînés, on a comparé les RMs basés sur des classificateurs partant de Command R-35B avec un RM génératif conditionné par des critiques. En demandant au RM génératif de produire un score pour chaque paire invite-réponse, on a pu voir comment sa performance se compare à celle de l'approche basée sur le classificateur.
Notre analyse a indiqué que les RMs basés sur des classificateurs surpassent généralement la référence du juge génératif, validant l'efficacité de notre modèle. Le juge génératif a bien fonctionné sur des tâches de conversation décontractée, mais a peiné avec des raisonnements plus complexes et des exemples délicats.
Conclusion
On présente une nouvelle approche accessible pour améliorer les modèles de récompense dans le cadre du RLHF en intégrant des critiques synthétiques. En guidant les LLMs à générer des critiques des réponses et en entraînant les RMs à attribuer des scores basés sur ces critiques, on améliore considérablement la performance des RMs sur des tests de référence.
Nos expériences confirment que les avantages des critiques sont particulièrement notables dans des situations à ressources limitées et avec des modèles pré-entraînés moins performants. Les critiques sont générées automatiquement, éliminant le besoin d'un effort humain extensif, ce qui en fait une solution économique pour développer des modèles de récompense compétitifs.
Alors que la recherche continue, on prévoit d'explorer davantage des méthodes de génération de critiques et leur potentiel pour améliorer les capacités de raisonnement des LLMs. Bien que l'on se concentre sur l'évaluation des RMs directement par rapport aux benchmarks existants, les travaux futurs peuvent impliquer l'optimisation des LLMs avec ces RMs enrichis par des critiques.
En résumé, notre étude montre que les critiques synthétiques peuvent améliorer efficacement la performance des modèles de récompense, ouvrant la voie à un entraînement de modèles de langage plus efficace et efficace.
Titre: Improving Reward Models with Synthetic Critiques
Résumé: Reward models (RMs) play a critical role in aligning language models through the process of reinforcement learning from human feedback. RMs are trained to predict a score reflecting human preference, which requires significant time and cost for human annotation. Additionally, RMs tend to quickly overfit on superficial features in the training set, hindering their generalization performance on unseen distributions. We propose a novel approach using synthetic natural language critiques generated by large language models to provide additional feedback, evaluating aspects such as instruction following, correctness, and style. This offers richer signals and more robust features for RMs to assess and score on. We demonstrate that high-quality critiques improve the performance and data efficiency of RMs initialized from different pretrained models, reducing the reliance on costly human annotations. Furthermore, incorporating critiques improves both the interpretability and robustness of RM training.
Auteurs: Zihuiwen Ye, Fraser Greenlee-Scott, Max Bartolo, Phil Blunsom, Jon Ander Campos, Matthias Gallé
Dernière mise à jour: 2024-10-18 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2405.20850
Source PDF: https://arxiv.org/pdf/2405.20850
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.