Les étiquettes de préférence douce améliorent l'entraînement des modèles de langage
Les étiquettes de préférence souples améliorent l'alignement des modèles avec les choix humains.
― 7 min lire
Table des matières
Ces dernières années, les grands modèles de langage (LLM) sont devenus super populaires dans plein d'applications, comme les chatbots, la génération de contenu, et d'autres tâches qui demandent de comprendre et de créer du texte ressemblant à celui des humains. Mais y a un gros défi : s'assurer que ces modèles soient bien alignés avec les préférences humaines. Cet article parle d'une approche qui propose des manières plus douces de labeliser les préférences et qui montre comment ça peut améliorer l'entraînement des modèles.
Le problème avec les préférences binaires
La plupart des méthodes existantes pour entraîner les LLM partent du principe que les préférences humaines sont binaires, c'est-à-dire qu'elles classifient les résultats en "bon" ou "mauvais". Bien que ça puisse sembler simple, ça ne capture pas la complexité des vraies opinions humaines. Les gens ont souvent des préférences variées pour différentes options, et traiter ces opinions comme binaires peut faire perdre des infos précieuses. Ça peut amener les modèles à rater les nuances qui caractérisent les choix humains.
Le besoin de labels de préférences doux
Pour régler ce problème, l'idée des labels de préférences doux a été introduite. Au lieu de simplement dire qu'une réponse est meilleure ou pire qu'une autre, les labels doux expriment une gamme de préférences. Par exemple, au lieu de dire qu'une réponse est acceptable ou inacceptable, tu pourrais indiquer qu'une réponse est préférée par rapport à une autre d'un certain pourcentage. Cette approche reflète mieux comment les humains pensent et ressentent les différentes réponses.
Amélioration de l’optimisation des préférences directes
La technique appelée optimisation des préférences directes (DPO) a été utilisée pour entraîner des modèles avec ces préférences binaires. Cependant, DPO a souvent du mal face à la complexité des préférences humaines. En intégrant des labels de préférences doux dans DPO, on peut améliorer la façon dont les modèles apprennent des retours.
Incorporation des moyennes géométriques
Une des idées principales est d'utiliser des moyennes géométriques pendant le processus d'entraînement. La moyenne géométrique permet de peser la probabilité de sortie de différentes réponses en fonction de leurs labels doux. Ça veut dire que si deux réponses sont également préférées, le modèle ne va pas se fixer trop sur l'une plutôt que l'autre. Au lieu de ça, il peut apprendre à distinguer les réponses de manière plus nuancée, ce qui aide à éviter le surajustement à un type de label.
Réalisation d'expériences
Pour valider ces idées, des expériences ont été menées avec divers ensembles de données, y compris Reddit TL;DR et les ensembles de données utiles et inoffensives d'Anthropic. L'objectif était de voir si les modèles entraînés avec des labels de préférences doux performeraient mieux que ceux s'appuyant uniquement sur des labels binaires.
Résultats des expériences
Les résultats étaient prometteurs. Les modèles qui appliquaient des labels de préférences doux ont constamment surpassé ceux qui se basaient uniquement sur des labels binaires. Particulièrement, quand les données étaient dominées par des labels modestement confiants, les modèles ont réussi à générer des réponses plus alignées avec les préférences humaines.
Comprendre les résultats
Les résultats de ces expériences soulignent l'importance des labels doux pour créer des modèles qui peuvent mieux capturer les subtilités des préférences humaines. Utiliser des moyennes géométriques aide à créer une approche plus équilibrée pour la génération de réponses, minimisant le surajustement.
Traiter le décalage objectif
Un gros problème avec beaucoup de modèles précédents était qu'ils n'alignaient pas assez leur génération de sortie avec les préférences fournies. Même si un modèle performait bien par rapport à l'objectif donné, il ne générerait pas toujours des réponses que les gens trouvaient préférables. En utilisant des labels de préférences doux avec des moyennes géométriques, on réduit ce décalage, ce qui entraîne des sorties mieux alignées avec ce que les utilisateurs trouvent utile ou acceptable.
Le rôle du feedback AI
Dans beaucoup de scénarios, utiliser l'IA pour générer du feedback pour entraîner des modèles a des avantages par rapport à se baser uniquement sur des évaluateurs humains. L'IA peut fournir des évaluations constantes et évolutives, ce qui peut être plus facile à gérer. Ce feedback peut être intégré dans le processus d'entraînement, fournissant un flux constant de labels de préférences doux.
Simuler les préférences humaines avec l'IA
Pour simuler les préférences humaines, les chercheurs ont entraîné des modèles sur des ensembles de données étiquetées et utilisé des modèles d'IA comme PaLM 2-L pour générer du feedback sur les sorties. Ce processus impliquait de créer des prompts pour que l'IA évalue des paires de réponses, déterminant laquelle était plus préférable selon divers critères.
Distribution des préférences diverses
Quand on crée des données d'entraînement pour des modèles, il est essentiel de prendre en compte les distributions de préférences diverses. Dans beaucoup de cas, les ensembles de données peuvent montrer une distribution à longue traîne, où quelques réponses reçoivent la majorité des préférences tandis que beaucoup d'autres n'en reçoivent presque pas. En générant des données d'entraînement qui sont plus uniformément distribuées, on peut créer un ensemble de labels doux plus riche qui peut améliorer la compréhension des préférences sous-jacentes.
Traiter les biais dans les préférences
L'introduction de labels de préférences doux vient aussi avec une mise en garde. Si les labels générés sont biaisés, ça peut poser des problèmes sur la façon dont les modèles performe. S'assurer que les labels générés sont aussi impartiaux que possible est crucial pour créer des modèles qui reflètent vraiment les diverses préférences humaines.
Conclusion
Incorporer des labels de préférences doux dans l'entraînement des grands modèles de langage crée une voie pour un meilleur alignement avec les préférences humaines. En allant au-delà des labels binaires vers des représentations plus nuancées des choix, on peut créer des modèles qui sont non seulement plus efficaces mais aussi plus en phase avec ce que les utilisateurs veulent. Utiliser des moyennes géométriques aide à minimiser les problèmes liés au surajustement et au décalage objectif, entraînant des sorties de meilleure qualité.
Bien que les résultats des expériences soient encourageants, il reste du travail à faire. Une enquête plus approfondie sur la façon dont différents types de préférences peuvent être mieux représentés et intégrés dans les processus d'entraînement continuera à améliorer notre compréhension et notre capacité à aligner les modèles avec les valeurs humaines. C'est une direction importante pour la recherche future qui contribuera à la sophistication croissante des technologies d'IA et de leurs applications dans le monde réel.
Titre: Geometric-Averaged Preference Optimization for Soft Preference Labels
Résumé: Many algorithms for aligning LLMs with human preferences assume that human preferences are binary and deterministic. However, human preferences can vary across individuals, and therefore should be represented distributionally. In this work, we introduce the distributional soft preference labels and improve Direct Preference Optimization (DPO) with a weighted geometric average of the LLM output likelihood in the loss function. This approach adjusts the scale of learning loss based on the soft labels such that the loss would approach zero when the responses are closer to equally preferred. This simple modification can be easily applied to any DPO-based methods and mitigate over-optimization and objective mismatch, which prior works suffer from. Our experiments simulate the soft preference labels with AI feedback from LLMs and demonstrate that geometric averaging consistently improves performance on standard benchmarks for alignment research. In particular, we observe more preferable responses than binary labels and significant improvements where modestly-confident labels are in the majority.
Auteurs: Hiroki Furuta, Kuang-Huei Lee, Shixiang Shane Gu, Yutaka Matsuo, Aleksandra Faust, Heiga Zen, Izzeddin Gur
Dernière mise à jour: 2024-12-30 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2409.06691
Source PDF: https://arxiv.org/pdf/2409.06691
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.