Aligner des modèles de langue avec les préférences des utilisateurs
Une nouvelle méthode pour entraîner des modèles afin de mieux correspondre aux attentes des utilisateurs.
― 9 min lire
Table des matières
Les modèles de langage (LMs) sont des outils qui peuvent générer du texte en fonction de ce qu'on leur donne. Ils peuvent aider à écrire, répondre à des questions, résumer des infos, et plein d'autres trucs. Un truc super important, c'est d'aligner ces modèles de langage avec les préférences des utilisateurs. Ça veut dire qu'il faut s'assurer que quand le modèle génère du texte, ce texte correspond aux attentes et aux préférences des gens qui l'utilisent.
Mais il y a un petit souci. Les préférences sont souvent données à un niveau plus général, pour des phrases entières ou des paragraphes, alors que les modèles travaillent à un niveau plus petit, en se concentrant sur des mots ou des tokens individuels. Cette différence de focalisation peut rendre plus difficile l'amélioration des modèles en fonction des retours des utilisateurs.
Dans cet article, on va expliquer comment on peut mieux aligner les modèles de langage avec les préférences des utilisateurs en changeant la manière dont on les entraîne. On va décrire une nouvelle méthode qui relie les retours plus larges sur les préférences aux petites étapes que le modèle prend en générant du texte.
Le Problème
Quand les utilisateurs évaluent un texte généré par un modèle de langage, ils pensent souvent au tableau d'ensemble : ce texte a-t-il du sens dans son ensemble ? Ils peuvent comparer deux textes plus longs et dire lequel est mieux. Cependant, les modèles apprennent à générer du texte en regardant des parties plus petites, token par token. Cette différence de focale peut créer des défis pour entraîner les modèles efficacement.
Ce problème est un peu comme dans les jeux où le retour vient à la fin, pas pendant le jeu. Dans un jeu d'entraînement classique, si les actions d'un joueur ne reçoivent un retour qu'après qu'il a fini, il devient difficile pour lui de savoir ce qu'il a bien ou mal fait. De même, quand les modèles de langage ne reçoivent des retours que sur le texte final et pas sur chaque partie, ça peut les embrouiller pendant l'entraînement.
Beaucoup de méthodes actuelles essaient d'ajuster les modèles de langage en fonction des préférences des utilisateurs en ajoutant des règles ou des filtres externes. Cependant, ces méthodes ne fonctionnent pas toujours bien parce qu'elles ne s'alignent pas avec la manière dont le modèle traite l'info.
Une Nouvelle Approche
Pour aborder ce problème, on propose une nouvelle méthode d'entraînement qui va créer un système de guidage. Cette approche va lier les préférences des utilisateurs, fournies à un niveau plus large, avec l'entraînement étape par étape du modèle, qui se concentre sur les tokens.
Notre méthode comprend deux grandes étapes :
Apprendre à Guider : On va créer un système qui traduit les préférences des utilisateurs en guidage au niveau des tokens. Ça veut dire que pour chaque mot que le modèle génère, il aura une idée plus claire de comment choisir le meilleur mot suivant en fonction de ce que veulent les utilisateurs.
Entraîner le Modèle de Langage : Après avoir appris ce guidage, on va entraîner le modèle de langage en utilisant ce nouveau guidage. On va ajuster le modèle étape par étape pendant qu'il génère du texte pour s'assurer qu'il reste sur la bonne voie avec les préférences des utilisateurs.
Apprendre le Guidage au Niveau des Tokens
Dans notre première étape, on se concentre sur la compréhension de comment guider efficacement le modèle de langage. On va regarder plusieurs textes générés et voir lesquels les utilisateurs préfèrent en général. Au lieu de juste leur demander de choisir entre deux options, on va recueillir une liste de plusieurs textes et voir l'ordre dans lequel ils les préfèrent.
On va développer un moyen d'assigner des scores à des tokens individuels en fonction de cet ordre de préférence. Par exemple, si un texte est aimé plus qu'un autre, on doit récompenser les mots qui ont contribué à cette préférence. Ce système de scoring nous donne une compréhension plus claire de ce qui rend un texte préféré.
L'utilisation d'un système de scoring nous permet de capturer l'idée que certains mots sont plus importants que d'autres pour rendre le texte attrayant. Ça veut dire que le guidage qu'on fournit va se concentrer sur les mots les plus impactants plutôt que de traiter chaque mot de manière égale.
Entraîner le Modèle de Langage
Une fois qu'on a un bon système de scoring en place, la prochaine étape est d'entraîner le modèle de langage. On veut utiliser le guidage qu'on a appris pour aider le modèle à faire de meilleurs choix.
Deux Méthodes d'entraînement
On va présenter deux approches pour entraîner le modèle de langage :
Sans Données Supervisées : Quand on n'a pas d'exemples spécifiques à partir desquels apprendre, on peut utiliser le guidage au niveau des tokens qu'on a développé. Le modèle va générer du texte basé sur une idée initiale, et il va ajuster ses choix en fonction des scores assignés à chaque mot. De cette façon, le modèle apprend de son propre processus de génération.
Avec Données Supervisées : Quand on a des exemples de ce à quoi ressemble un bon texte, on peut améliorer l'apprentissage en pondérant l'entraînement du modèle vers les tokens les plus importants comme l'indique notre système de scoring. Ça aide le modèle à se concentrer sur les mots les plus pertinents tout en apprenant à partir d'exemples étiquetés.
Évaluation et Résultats
On a testé notre nouvelle méthode sur deux tâches importantes : générer des invites pour la classification et résumer des textes. Dans les deux cas, on voulait voir si notre méthode pouvait aider le modèle à mieux performer par rapport aux méthodes existantes.
Tâche de Génération d'Invites
Dans la première tâche, on a utilisé notre méthode pour générer des invites pour classifier des textes. L'objectif était de produire des phrases qui dirigeraient un modèle de langage à classer précisément le texte entrant. On voulait s'assurer que les invites créées étaient pertinentes et efficaces.
En testant sur plusieurs jeux de données, notre méthode a montré une précision compétitive dans tous les tests. On a remarqué que notre modèle a généré des invites qui étaient non seulement efficaces mais aussi très alignées avec les préférences des utilisateurs. L'utilisation de scoring pour les tokens importants a aidé à créer des invites plus pertinentes.
Tâche de Résumé de texte
Dans la deuxième tâche, on a appliqué notre méthode pour résumer des textes. Ici, le but était de prendre des articles ou documents longs et de les distiller en résumés plus courts et plus digestes, en touchant les points clés.
Encore une fois, notre méthode a bien fonctionné. Les résumés générés avec notre technique reflétaient des infos de haute qualité, avec des scores montrant qu'ils répondaient efficacement aux préférences des utilisateurs.
Les Avantages de Notre Méthode
Les avantages de notre méthode sont significatifs. En reliant directement les préférences plus larges à l'entraînement étape par étape des modèles de langage, on arrive à fournir un guidage plus utile. Cela entraîne plusieurs avantages clés :
Meilleure Alignement avec les Préférences des Utilisateurs : Notre approche permet une connexion plus claire entre les retours des utilisateurs et les décisions du modèle. Cela donne des résultats qui correspondent mieux à ce que veulent les utilisateurs.
Performance Améliorée avec des Données Limitées : La capacité à apprendre à partir d'exemples limités et à produire quand même des sorties de qualité est un avantage crucial, surtout dans les cas où il est difficile de rassembler de grands ensembles de données.
Flexibilité dans l'Apprentissage : Nos deux méthodes d'entraînement - une qui fonctionne sans exemples et une qui le fait - signifient que notre approche peut être adaptée à différents scénarios et besoins.
Travail Futur
En regardant vers l'avenir, il y a plusieurs possibilités excitantes pour bâtir sur ce travail. On vise à affiner nos méthodes, en cherchant comment on peut intégrer d'autres types de retours des utilisateurs.
On espère aussi combiner notre approche avec des méthodes d'apprentissage par renforcement, ce qui permettrait des possibilités d'entraînement encore plus dynamiques.
De plus, appliquer notre méthode à d'autres tâches, comme les systèmes de dialogue, pourrait ouvrir de nouvelles avenues pour rendre les modèles de langage plus interactifs et conviviaux.
Conclusion
En résumé, on a présenté une nouvelle façon d'aligner les modèles de langage avec les préférences des utilisateurs grâce à un processus d'entraînement novateur. En se concentrant sur le pont entre les retours de haut niveau et les choix de tokens détaillés, on peut créer des modèles qui comprennent et réagissent mieux à ce que veulent les utilisateurs.
Cette approche améliore non seulement la qualité de la génération de texte, mais fournit aussi un cadre flexible qui peut être adapté à diverses applications dans le domaine du traitement du langage naturel. En avançant, on est excités par les améliorations et les adaptations potentielles qui peuvent être faites en utilisant cette base.
Titre: Preference-grounded Token-level Guidance for Language Model Fine-tuning
Résumé: Aligning language models (LMs) with preferences is an important problem in natural language generation. A key challenge is that preferences are typically provided at the *sequence level* while LM training and generation both occur at the *token level*. There is, therefore, a *granularity mismatch* between the preference and the LM training losses, which may complicate the learning problem. In this paper, we address this issue by developing an alternate training process, where we iterate between grounding the sequence-level preference into token-level training guidance, and improving the LM with the learned guidance. For guidance learning, we design a framework that extends the pairwise-preference learning in imitation learning to both variable-length LM generation and the utilization of the preference among multiple generations. For LM training, based on the amount of supervised data, we present two *minimalist* learning objectives that utilize the learned guidance. In experiments, our method performs competitively on two distinct representative LM tasks -- discrete-prompt generation and text summarization.
Auteurs: Shentao Yang, Shujian Zhang, Congying Xia, Yihao Feng, Caiming Xiong, Mingyuan Zhou
Dernière mise à jour: 2023-10-09 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.00398
Source PDF: https://arxiv.org/pdf/2306.00398
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://anonymous.4open.science/r/token_level_reward_learning-5445
- https://github.com/Shentao-YANG/Preference_Grounded_Guidance
- https://github.com/Shentao-YANG/Preference
- https://github.com/mingkaid/rl-prompt
- https://github.com/huggingface/datasets/issues/617#issuecomment-691615081
- https://github.com/CarperAI/trlx/blob/0c5246f64e5e0ecb5fb2de65d440b122c792caf8/trlx/orchestrator/ppo_orchestrator.py#L224
- https://github.com/salesforce/CASPI
- https://github.com/mingkaid/rl-prompt/blob/24ff3e6a81bbd39e4d9ccaaaee41885bc5058682/rlprompt/modules/sql_module.py#L125
- https://github.com/mingkaid/rl-prompt/blob/24ff3e6a81bbd39e4d9ccaaaee41885bc5058682/rlprompt/trainers/trainer.py#L158