Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Améliorer la communication AI avec ChatGLM-RLHF

ChatGLM-RLHF améliore les interactions avec l'IA grâce à des retours humains et des méthodes d'entraînement avancées.

― 7 min lire


L'IA devient plusL'IA devient plusintelligente avec lesretours.l'IA en utilisant les retours humains.ChatGLM-RLHF optimise les réponses de
Table des matières

ChatGLM est un service d'IA qui utilise une technologie avancée pour communiquer et comprendre le langage. Il est basé sur une collection de grands modèles de langage et est gratuit à utiliser. Ce document discute de la façon dont ChatGLM a été amélioré pour mieux correspondre à ce que les gens veulent quand ils interagissent avec lui. Un nouveau système appelé ChatGLM-RLHF a été créé. Il utilise l'apprentissage par renforcement basé sur les retours humains, ce qui signifie que l'IA apprend de la façon dont les gens réagissent à ses réponses.

Le système ChatGLM-RLHF

ChatGLM-RLHF se compose de trois parties principales : la collecte de données sur ce que les gens aiment, l'entraînement d'un modèle de récompense et l'optimisation de la façon dont l'IA répond en fonction de ces données.

Collecte des préférences humaines

La première étape de ce système consiste à rassembler des informations sur ce que les utilisateurs préfèrent. Cela implique d'obtenir des retours des personnes qui utilisent l'IA. Une méthode appelée comparaison par paires est utilisée, où les utilisateurs regardent deux réponses de l'IA et choisissent celle qu'ils préfèrent. Cela aide à garantir que les données collectées sont fiables et reflètent de vraies préférences humaines.

Pour aider à guider les utilisateurs lors de ces choix, des critères spécifiques sont définis. Ces critères examinent divers aspects, comme l'utilité, la sécurité et la fluidité des réponses. De cette manière, les utilisateurs peuvent prendre des décisions éclairées lorsqu'ils choisissent la réponse qu'ils préfèrent.

Après avoir collecté ces informations, un processus de filtrage est mis en place pour éliminer les réponses incohérentes ou indésirables. Cela garantit que l'ensemble de données utilisé pour entraîner l'IA est propre et précis.

Entraînement du modèle de récompense

Une fois les données de préférence humaine collectées, l'étape suivante consiste à entraîner un modèle de récompense. Ce modèle agit comme un arbitre, décidant quelles réponses sont plus alignées avec ce que les utilisateurs veulent vraiment.

Au cours de ce processus d'entraînement, des techniques sont développées pour éviter les biais qui pourraient conduire à des évaluations injustes. Par exemple, si les utilisateurs ont tendance à préférer les réponses plus longues, cela pourrait fausser le modèle en faveur de la longueur plutôt que de la qualité. Pour contrer cela, une méthode appelée "Équilibrage de Longueur Basé sur des Seaux" est introduite, où les réponses sont regroupées en fonction de leur longueur pour s'assurer que l'évaluation se concentre sur la qualité de la réponse et pas seulement sur sa longueur.

Optimisation des politiques

Avec le modèle de récompense en place, la dernière étape est de l'utiliser pour optimiser la façon dont l'IA génère des réponses. Cela se fait en utilisant des algorithmes d'apprentissage par renforcement, qui aident l'IA à apprendre à faire de meilleurs choix en fonction des retours qu'elle reçoit.

Dans ce processus, le modèle génère des réponses pour différents prompts et utilise ensuite le modèle de récompense pour évaluer ces réponses. Cela aide à guider le modèle à s'améliorer en maximisant les récompenses qu'il reçoit pour produire des réponses de haute qualité.

Défis rencontrés

Construire un système pratique comme ChatGLM-RLHF s'accompagne de nombreux défis.

Biais dans les annotations humaines

L'un des principaux défis est de s'assurer que les annotations humaines collectées pour l'entraînement sont fiables. Le biais dans ces annotations peut conduire à des erreurs dans la façon dont l'IA est entraînée, affectant la performance globale.

Un autre problème concerne l'inclination du modèle de récompense à repérer des raccourcis ou des schémas qui ne reflètent pas de vraies préférences. Par exemple, si le modèle apprend à favoriser les réponses plus longues, il peut ne pas se concentrer sur ce qui rend vraiment une réponse utile ou précise.

Stabilité dans l'entraînement

Un autre défi est de maintenir la stabilité pendant l'entraînement du modèle de récompense. La variabilité dans les scores que le modèle attribue peut conduire à des résultats d'entraînement incohérents. Pour atténuer cela, un nouveau composant de perte est introduit pour aider à stabiliser le processus d'entraînement, garantissant que le modèle de récompense évalue de manière cohérente les réponses.

Oubli de capacité

Au fur et à mesure que l'IA subit un entraînement, il peut y avoir une réduction involontaire de sa capacité à effectuer des tâches spécifiques qu'elle gérait bien auparavant. Ce phénomène, connu sous le nom d'oubli de capacité, peut survenir lors de la transition de l'entraînement supervisé à l'apprentissage par renforcement. Pour contrer cela, le système incorpore une perte de prédiction du prochain token comme méthode de régularisation supplémentaire, aidant à conserver les capacités originales de l'IA.

Résultats expérimentaux

L'efficacité du système ChatGLM-RLHF est démontrée à travers des expériences impliquant des évaluations automatiques et humaines.

Améliorations observées

Dans les comparaisons avec l'itération précédente de ChatGLM, des améliorations substantielles dans l'alignement des réponses avec les préférences humaines sont notées. Le modèle ChatGLM-RLHF a obtenu en moyenne 15 % de victoires en plus dans les tâches d'alignement, soulignant l'efficacité du nouveau système.

Métriques de performance

Pour l'évaluation automatique, les chercheurs ont utilisé une série d'évaluations pour mesurer comment l'IA a performé dans différentes tâches. Dans l'ensemble, les résultats indiquaient que le nouveau système était capable de produire des réponses non seulement plus alignées avec les préférences des utilisateurs, mais aussi de meilleure qualité dans plusieurs domaines clés.

Évaluation humaine

L'évaluation humaine a révélé que les utilisateurs trouvaient le nouveau modèle nettement meilleur pour comprendre les instructions et fournir des réponses pertinentes. Les annotateurs ont pu voir des distinctions claires dans la performance entre le modèle précédent et le modèle amélioré ChatGLM-RLHF.

Conclusion

ChatGLM-RLHF représente un pas en avant significatif dans l'alignement des réponses de l'IA avec les préférences humaines. Grâce à une collecte soignée des retours humains, à l'entraînement d'un modèle de récompense efficace et à l'optimisation des politiques de réponse, le système est capable de produire des sorties de haute qualité, pertinentes et qui répondent aux attentes des utilisateurs.

À mesure que l'IA continue d'évoluer, ces méthodes serviront de cadre de référence pour le développement de systèmes qui peuvent mieux comprendre et répondre aux besoins humains. En mettant l'accent sur les retours des utilisateurs et en abordant les défis rencontrés lors du développement, il est possible de créer une IA qui est non seulement intelligente mais aussi véritablement utile et alignée avec nos valeurs.

Ce travail ouvre la voie à de futures avancées dans la technologie de l'IA, garantissant qu'au fur et à mesure que l'IA devient plus capable, elle devient également plus en phase avec ce que les utilisateurs désirent vraiment.

Source originale

Titre: ChatGLM-RLHF: Practices of Aligning Large Language Models with Human Feedback

Résumé: ChatGLM is a free-to-use AI service powered by the ChatGLM family of large language models (LLMs). In this paper, we present the ChatGLM-RLHF pipeline -- a reinforcement learning from human feedback (RLHF) system -- designed to enhance ChatGLM's alignment with human preferences. ChatGLM-RLHF encompasses three major components: the collection of human preference data, the training of the reward model, and the optimization of policies. Throughout the process of integrating ChatGLM-RLHF into production, we encountered and addressed several unprecedented challenges. We introduce the strategies to mitigate reward variance for stabilized large-scale training, implement model parallelism with fused gradient-descent, and design regularization constraints to avoid catastrophic forgetting in LLMs. Experiments show that ChatGLM-RLHF brings significant improvements in alignment tasks compared to the supervised fine-tuned (SFT) version of ChatGLM. For instance, it achieves on average 15\% more wins against ChatGLM-SFT in Chinese alignment tasks. The work presents our practices of aligning LLMs with human preferences, offering insights into the challenges and solutions in RLHF implementations.

Auteurs: Zhenyu Hou, Yilin Niu, Zhengxiao Du, Xiaohan Zhang, Xiao Liu, Aohan Zeng, Qinkai Zheng, Minlie Huang, Hongning Wang, Jie Tang, Yuxiao Dong

Dernière mise à jour: 2024-04-03 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2404.00934

Source PDF: https://arxiv.org/pdf/2404.00934

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires