Simple Science

La science de pointe expliquée simplement

# Informatique # Calcul et langage # Intelligence artificielle # Apprentissage automatique

Améliorer les grands modèles de langage : un nouveau cadre

Une nouvelle façon d'améliorer le suivi des instructions dans les modèles de langage.

Jiale Cheng, Xiao Liu, Cunxiang Wang, Xiaotao Gu, Yida Lu, Dan Zhang, Yuxiao Dong, Jie Tang, Hongning Wang, Minlie Huang

― 8 min lire


Révolutionner Révolutionner l'entraînement des modèles de langue instructions. compétences des LLM à suivre des Une nouvelle méthode améliore les
Table des matières

Ces dernières années, les grands modèles linguistiques (LLMs) sont devenus super populaires. On les utilise dans plein d'applis, comme des chatbots, des assistants d'écriture, et plus encore. Mais une des compétences cruciales que ces modèles devraient avoir, c'est de suivre les instructions à la lettre. Cette capacité peut faire la différence entre raconter une belle histoire ou balancer une réponse complètement à côté. Le truc pour améliorer le suivi des instructions, c'est d'aider ces modèles à comprendre les nuances de ce qu'on leur demande.

Le défi du suivi des instructions

Imagine que tu demandes à un pote d’écrire une histoire qui se termine par "Et ils vécurent heureux jusqu'à la fin des temps." Ton pote, lui, écrit une histoire d'horreur où tout le monde se fait manger par un monstre. C'est ce qui se passe quand les LLMs ne suivent pas bien les instructions : ils peuvent pondre des réponses qui ne sont pas du tout dans le bon sens. Ces erreurs peuvent causer de la confusion, mener à des malentendus, et parfois même créer des problèmes de sécurité.

Le défi, c'est que quand on entraîne ces modèles, ils construisent des réponses basées sur des données, mais ils peuvent se laisser distraire par des détails qui n'ont rien à voir avec les instructions. Par exemple, ils peuvent se concentrer plus sur le style ou la longueur d'une réponse au lieu du contenu réel demandé. Pour résoudre ce souci, les chercheurs cherchent des moyens plus efficaces d'entraîner les modèles à suivre des instructions détaillées.

Le rôle de l'apprentissage par préférence

L'apprentissage par préférence, c'est un peu comme entraîner un chien avec des friandises : tu récompenses le modèle quand il fait bien. Dans ce cas, les chercheurs créent des paires de réponses : une qui suit bien l'instruction et une autre qui ne le fait pas. Le modèle apprend de ces comparaisons. Mais ce processus peut être bancal si le modèle apprend à partir de réponses qui sont trop différentes l'une de l'autre. Ça peut brouiller les pistes et rendre plus difficile pour le modèle de se concentrer sur ce qui compte vraiment dans l'instruction.

Une nouvelle approche : auto-jeu avec recherche d'arbre

Pour régler ce problème, un nouveau cadre appelé auto-jeu avec raffinement par recherche d'arbre a été proposé. Ce cadre est conçu pour aider les LLMs à améliorer leur capacité à suivre les instructions de manière plus structurée. Plutôt que de simplement choisir au hasard des réponses du modèle, ce cadre encourage le modèle à jouer contre lui-même d'une manière qui améliore ses sorties.

Comment ça marche

Dans cette méthode, le modèle assume deux rôles : acteur et affuteur. L'acteur génère des réponses aux instructions données, tandis que l'affuteur critique ces réponses. Quand l'acteur ne suit pas l'instruction correctement, l'affuteur intervient, en signalant ce qui a mal tourné. Ce processus aide à créer des paires de réponses plus axées sur ce qui doit être corrigé, minimisant les distractions.

Le côté recherche d'arbre entre en jeu en permettant au modèle d'explorer différentes manières d'améliorer ses réponses. Imagine que c'est comme essayer différents chemins dans un labyrinthe. Certains chemins peuvent mener à des cul-de-sac, mais d'autres pourraient te mener tout droit à la sortie. En évaluant systématiquement ces chemins, le modèle peut trouver de meilleures réponses et apprendre de ses erreurs.

Construire un ensemble de données de haute qualité

Un des plus grands défis dans l'entraînement des LLMs pour des tâches de suivi d'instructions, c'est le manque de données de qualité. Pour y remédier, les chercheurs ont créé un ensemble de données spécial constitué de formulations d'instructions complexes. Ils ont commencé par filtrer un grand ensemble de données conversationnelles pour extraire un ensemble diversifié de formulations initiales. Après ce processus, ils se sont retrouvés avec un ensemble de 50 000 formulations initiales.

Ensuite, une taxonomie a été créée pour assurer que les types d'instructions étaient variés et bien équilibrés. Comme ça, quand le modèle est entraîné, il est exposé à un large éventail d'instructions, garantissant une expérience d'apprentissage complète. En incorporant des formulations plus complexes, le modèle peut mieux comprendre les instructions délicates et les nuances.

Le Processus d'entraînement itératif

Une fois l'ensemble de données prêt, le processus d'entraînement itératif a commencé. Chaque itération consiste à générer des réponses, à collecter celles qui ne suivaient pas les instructions, et à les affiner en utilisant la méthode de recherche d'arbre. Ce cycle continu permet au modèle d'améliorer constamment ses performances au fil du temps.

L'entraînement progresse efficacement à travers trois étapes principales :

  1. Génération de réponses : L'acteur génère des réponses aux formules.
  2. Critique et affinement : L'affuteur évalue les réponses, identifiant celles qui n'ont pas suivi correctement les instructions.
  3. Apprentissage et amélioration : Le modèle utilise le retour pour ajuster ses réponses et s'améliorer.

Résultats et évaluation

Les résultats de ce cadre d'entraînement sont prometteurs. Des tests sur différents benchmarks ont montré que le modèle s'est significativement amélioré dans sa capacité à suivre les instructions. Par exemple, après trois itérations d'entraînement, le modèle a surpassé GPT-4-Turbo sur des benchmarks d'évaluation spécifiques.

De plus, le modèle a aussi maintenu ses performances globales sur des tâches générales, ce qui signifie qu'améliorer sa capacité à suivre des instructions n'a pas nuit à ses autres compétences. Il peut toujours répondre à des questions de culture générale et générer du code sans soucis.

L'importance des paires de raffinement

À mesure que l'entraînement progresse, la création de paires de raffinement devient cruciale. Ces paires affinées soulignent les différences clés qui mènent à un bon suivi des instructions. En comparant des réponses qui se ressemblent beaucoup, le modèle peut apprendre à pinpoint exactement ce qui a bien ou mal marché, plutôt que de se perdre dans un océan de variations sans rapport.

Pour illustrer ce concept, pense à un jeu de "téléphone", où un message est transmis de personne à personne. Si chaque personne interprète le message différemment, il peut facilement se déformer, menant à un message final qui ressemble à peine à l'original. Cependant, si tout le monde se concentre sur la clarification du message original, il peut être préservé et transmis avec précision. Dans ce cas, les paires de raffinement servent à clarifier les instructions originales pour le modèle.

Défis et directions futures

Bien que le nouveau cadre ait montré des améliorations significatives, des défis demeurent. D'une part, la qualité des réponses générées peut varier énormément. Une réponse qui fonctionne bien pour une formulation peut ne pas convenir à une autre. Des efforts constants seront nécessaires pour affiner continuellement l'ensemble de données et s'attaquer aux complexités du suivi des instructions.

En outre, la capacité du modèle à généraliser son apprentissage reste préoccupante. Peut-il appliquer ce qu'il apprend dans un contexte à un autre ? L'espoir est qu'avec des itérations et des raffinements continus, le modèle sera mieux équipé pour gérer une plus large gamme d'instructions, garantissant qu'il peut fournir des réponses précises et pertinentes dans différents scénarios.

Conclusion

Alors que les grands modèles linguistiques deviennent de plus en plus intégrés dans la vie quotidienne et diverses applications, affiner leurs capacités de suivi des instructions est plus important que jamais. Le cadre d'auto-jeu avec raffinement par recherche d'arbre représente un pas en avant significatif dans ce domaine. En aidant les modèles à apprendre de leurs erreurs et en les encourageant à se concentrer sur ce qui compte vraiment dans les instructions, on peut espérer avoir des LLMs plus fiables et efficaces dans un avenir proche.

Avec la recherche et le développement continu, qui sait ? Peut-être qu'un jour, on aura des LLMs capables non seulement d'écrire l'histoire parfaite, mais aussi de nous faire rire aux larmes - sans aucun twist d'horreur, bien sûr !

Source originale

Titre: SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models

Résumé: Instruction-following is a fundamental capability of language models, requiring the model to recognize even the most subtle requirements in the instructions and accurately reflect them in its output. Such an ability is well-suited for and often optimized by preference learning. However, existing methods often directly sample multiple independent responses from the model when creating preference pairs. Such practice can introduce content variations irrelevant to whether the instruction is precisely followed (e.g., different expressions about the same semantic), interfering with the goal of teaching models to recognize the key differences that lead to improved instruction following. In light of this, we introduce SPaR, a self-play framework integrating tree-search self-refinement to yield valid and comparable preference pairs free from distractions. By playing against itself, an LLM employs a tree-search strategy to refine its previous responses with respect to the instruction while minimizing unnecessary variations. Our experiments show that a LLaMA3-8B model, trained over three iterations guided by SPaR, surpasses GPT-4-Turbo on the IFEval benchmark without losing general capabilities. Furthermore, SPaR demonstrates promising scalability and transferability, greatly enhancing models like GLM-4-9B and LLaMA3-70B. We also identify how inference scaling in tree search would impact model performance. Our code and data are publicly available at https://github.com/thu-coai/SPaR.

Auteurs: Jiale Cheng, Xiao Liu, Cunxiang Wang, Xiaotao Gu, Yida Lu, Dan Zhang, Yuxiao Dong, Jie Tang, Hongning Wang, Minlie Huang

Dernière mise à jour: Dec 16, 2024

Langue: English

Source URL: https://arxiv.org/abs/2412.11605

Source PDF: https://arxiv.org/pdf/2412.11605

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires

Apprentissage automatique Évaluation des intervalles de confiance pour l'erreur de généralisation en apprentissage automatique

Une étude complète comparant les méthodes pour estimer les intervalles de confiance dans les modèles d'apprentissage automatique.

Hannah Schulz-Kümpel, Sebastian Fischer, Thomas Nagler

― 15 min lire