Aligner les LLMs ouverts avec l'évaluation humaine
Une nouvelle méthode améliore la performance des LLM dans les évaluations personnalisées avec peu de données.
Javad Seraj, Mohammad Mahdi Mohajeri, Mohammad Javad Dousti, Majid Nili Ahmadabadi
― 7 min lire
Table des matières
- Contributions
- Travaux Connexes
- Jugement Efficace en Données
- Curatation et Augmentation des Données
- Semence pour le Dataset de Préférence
- Approche de Création de Données Naïve
- Approche de Pool de Feedback
- Approche d'Échantillonnage Efficace
- Configuration de l'Expérience
- Configuration d'Évaluation
- Résultats
- Conclusion
- Source originale
- Liens de référence
L'évaluation automatique avec des grands modèles de langage (LLMs) est un sujet super actuel. Cependant, évaluer des tâches peut être subjectif et influencé par différents facteurs, ce qui rend l'adaptation difficile. Pas mal d'études montrent que les meilleurs LLMs propriétaires s'en sortent bien par rapport aux évaluateurs humains, mais ils ont souvent du mal à s'ajuster aux préférences au fil du temps. Cet ajustement est nécessaire pour une évaluation personnalisée.
Il y a eu plein de tentatives d'utiliser des LLMs ouverts comme évaluateurs, mais beaucoup d'entre elles passent à côté du problème de travailler avec peu de données. Le jugement personnalisé vient souvent de situations avec peu de points de données, ce qui est courant dans la vie réelle.
Cet article propose une méthode d'Augmentation de données pour choisir un échantillon plus efficace à partir de données limitées afin d'aligner un LLM ouvert avec les préférences humaines. Les résultats montrent environ 7% d'amélioration de la corrélation de Pearson avec un juge de référence par rapport à la base, et une amélioration de 30% par rapport au modèle de base en raisonnement mathématique.
Le processus d'évaluation humaine est subjectif et peut varier énormément selon l'humeur de l'évaluateur. Par exemple, les notes des étudiants peuvent changer d'un semestre à l'autre, reflétant l'humeur ou la situation du prof. Cette variabilité doit être prise en compte quand on essaie de modéliser ou de mimer le comportement d'un évaluateur.
Les Évaluations automatiques font souvent face à des limitations à cause de la petite quantité de feedback généralement disponible. Ça rend important de chercher des méthodes d'entraînement efficaces pour les évaluations dans des situations de données limitées.
Cet article montre comment aligner un LLM ouvert avec un évaluateur de référence dans un contexte de manque de données, en se concentrant sur le jugement personnalisé pour des tâches comme les maths et la réponse à des questions générales.
L'évaluation basée sur les LLM est devenue une manière évolutive et rentable d’évaluer à la fois les textes générés par des machines et par des humains. Les LLMs fournissent un feedback avec un score, indiquant la qualité.
Des études précédentes utilisant des LLMs propriétaires comme évaluateurs ont montré une forte corrélation avec les jugements humains, une meilleure rapidité, et un rapport coût-efficacité. Ces modèles s'en sortent plutôt bien dans des jugements statiques, où le scoring est basé sur des critères fixes. Cependant, personnaliser ces modèles pour des préférences spécifiques d'évaluateurs est compliqué, et ils manquent souvent de jugement dynamique.
Le jugement dynamique signifie la capacité d'un évaluateur à apprendre à partir de peu d'échantillons et à ajuster les politiques d’évaluation au fil du temps, ce qui est crucial pour une évaluation personnalisée. Ce travail présente une manière efficace d’aligner un LLM ouvert avec un évaluateur de référence dans un cadre de données limitées.
L'objectif est d'ajuster le jugement du LLM pour qu'il corresponde à celui du juge humain. La méthode proposée montre environ 9% et 7% de corrélation de Pearson en plus pour les évaluations de maths et de questions générales, respectivement. Ça montre que choisir des données plus efficaces aide l'approche à surpasser les méthodes de base.
Contributions
- Proposition d'une méthode pour simplifier le jugement dynamique pour les LLMs ouverts, ce qui est un défi qui n'a pas encore été pleinement abordé.
- Introduction d'une technique pour augmenter les données visant à améliorer la capacité de raisonnement du modèle d'évaluation en utilisant la méthode de la chaîne de pensée (CoT).
- Introduction d'une méthode pour sélectionner des instances efficaces à partir des jugements de référence, en se concentrant sur la réduction des biais dans le modèle aligné.
Travaux Connexes
Création de Données Naïve
Différentes méthodes sont utilisées pour la création de données de préférence. L'approche de création de données naïve utilise un feedback direct d'un juge de référence.
LLM Comme Juge
Utiliser des LLMs comme juges a gagné en attention pour leur capacité à imiter la précision d'évaluation humaine. Beaucoup utilisent des modèles propriétaires comme GPT-4, qui ont montré un fort accord avec les évaluations humaines.
Alignement des Préférences Humaines
Les LLMs sont super pour générer du texte mais galèrent avec le suivi des instructions et l'alignement avec les attentes humaines. Le Fine-Tuning Supervisé (SFT) est devenu une méthode clé pour cet alignement. Plusieurs méthodes ont émergé basées sur le renforcement par le feedback humain (RLHF).
Alignement Efficace en Données
La taille et la qualité des données ont un impact majeur sur le temps et le coût d'entraînement des LLMs. Une utilisation efficace des données peut réduire les itérations d'entraînement. Certaines études se concentrent sur l'amélioration de la qualité des données en filtrant les données de moindre qualité.
Jugement Efficace en Données
Cette section présente une approche pour aligner un LLM avec un juge de référence. Bien que le focus soit sur le texte généré par des machines, ça pourrait aussi s'étendre au texte humain.
Curatation et Augmentation des Données
Les tâches d'évaluation nécessitent de solides compétences en raisonnement pour garantir des décisions justes et précises. Cependant, des études ont montré que les LLMs comme Llama-3.1-8B-Instruct ne sont pas très efficaces en tant qu'évaluateurs.
Semence pour le Dataset de Préférence
En commençant avec un dataset de questions et réponses, le feedback et les scores d'un juge de référence sont collectés. Ce dataset de semence vise à améliorer la performance de jugement du LLM.
Approche de Création de Données Naïve
Dans cette méthode, le LLM de base génère des feedbacks et des scores pour les réponses. Le feedback généré est supposé de moindre qualité par rapport à celui du juge de référence.
Approche de Pool de Feedback
Plusieurs paires de feedbacks et scores sont générées pour chaque réponse en utilisant le LLM de base, qui exploite ses capacités de raisonnement. Ça permet au LLM de produire de meilleurs feedbacks.
Approche d'Échantillonnage Efficace
Cette méthode sélectionne des échantillons plus efficaces du juge de référence. Au lieu d'utiliser tous les feedbacks, un sous-ensemble est choisi en fonction de la similitude.
Configuration de l'Expérience
Décrit la taille des données créées et des datasets d'alignement extraits des datasets de feedback. Les résultats montrent une meilleure alignement avec le juge de référence.
Configuration d'Évaluation
La configuration expérimentale pour évaluer les LMs évaluateurs implique l'utilisation de Pearson, Spearman, et Kendall-Tau pour les métriques de performance par rapport à l'évaluateur de référence. Les résultats sont comparés à travers trois méthodes, soulignant l'importance de la stratégie d'échantillonnage de données choisie.
Résultats
Les résultats montrent que l'approche proposée donne des améliorations significatives en alignement avec les évaluateurs humains. Cependant, l'étude est limitée par la disponibilité des données et se concentre sur des tâches spécifiques, ce qui peut affecter son applicabilité plus large.
Conclusion
Bien que les LLMs aient du potentiel pour l'évaluation automatique, les personnaliser pour des tâches subjectives dans des situations de données limitées reste un défi. Les méthodes proposées montrent des améliorations significatives et un potentiel pour mieux aligner les LLMs avec les évaluations humaines. Les travaux futurs pourraient se concentrer sur l'expansion de la gamme de tâches et l'augmentation de la diversité des données pour une meilleure généralisabilité.
Source originale
Titre: Optimizing Alignment with Less: Leveraging Data Augmentation for Personalized Evaluation
Résumé: Automatic evaluation by large language models (LLMs) is a prominent topic today; however, judgment and evaluation tasks are often subjective and influenced by various factors, making adaptation challenging. While many studies demonstrate the capabilities of state-of-the-art proprietary LLMs in comparison to human evaluators, they often struggle to adapt to reference evaluators over time, a requirement for achieving personalized judgment. Additionally, numerous works have attempted to apply open LLMs as judges or evaluators, but these efforts frequently overlook the limitations of working with scarce data. Personalized judgment is inherently associated with limited data scenarios, which are common in many real-world problems. Our work aims to present a data augmentation technique to select a more effective sample from limited data in order to align an open LLM with human preference. Our work achieves approximately 7% improvements in Pearson correlation with a reference judge over the baseline,and 30% improvement over the base model (Llama3.1-8B-Instruct) in the mathematical reasoning evaluation task. demonstrating that augmenting selecting more effective preference data enables our approach to surpass baseline methods.
Auteurs: Javad Seraj, Mohammad Mahdi Mohajeri, Mohammad Javad Dousti, Majid Nili Ahmadabadi
Dernière mise à jour: 2024-12-10 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2412.07429
Source PDF: https://arxiv.org/pdf/2412.07429
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.