Évaluer les modèles de langue à travers la collaboration
Un nouveau cadre évalue les modèles de langage sur l'intelligence émotionnelle et la créativité.
― 9 min lire
Table des matières
- Le défi des Tâches subjectives
- Le cadre du Conseil des Modèles de Langage
- Comment fonctionne le conseil
- Avantages du CML
- Problèmes d'accord humain et d'évaluation
- Test de l'intelligence émotionnelle
- Les avantages de la participation diversifiée
- L'importance de la longueur des réponses
- Évaluer les juges
- Analyser les retours des participants humains
- Comparaison avec d'autres méthodes d'évaluation
- Variations dans la qualité de jugement
- Comprendre les préférences dans les réponses
- Aperçus de la composition du conseil
- Considérations futures et applications
- Conclusion
- Source originale
- Liens de référence
La croissance rapide des grands modèles de langage (LLMs) crée un besoin de moyens efficaces pour les tester et les comparer. Les Évaluations traditionnelles ont souvent du mal avec des tâches qui nécessitent une touche personnelle, comme l'Intelligence Émotionnelle ou l'écriture créative. Ces tâches dépendent d'opinions et de sentiments personnels, ce qui les rend difficiles à catégoriser ou à noter. Pour résoudre ce problème, on introduit une nouvelle approche appelée le Conseil des Modèles de Langage (CML). Cette méthode réunit un groupe de LLMs pour travailler de manière coopérative, permettant une évaluation plus équilibrée de leurs capacités.
Tâches subjectives
Le défi desBeaucoup de tâches impliquant des sentiments humains, de créativité et de persuasion n'ont pas de Réponses clairement bonnes ou mauvaises. Différentes personnes peuvent avoir des opinions différentes sur ce qui constitue une bonne réponse. Cette inconsistance rend difficile la création d'une méthode standard pour évaluer ces modèles. Des études passées ont montré que même les experts ne s'accordent pas toujours sur ces tâches subjectives. Par exemple, lors de l'évaluation de la qualité d'un argument persuasive, les gens réagissent souvent différemment au même texte. Avec des juges humains qui ne sont pas souvent d'accord, les classements traditionnels peuvent être trompeurs.
Le cadre du Conseil des Modèles de Langage
Le CML offre une manière structurée d'évaluer les LLMs sur des tâches subjectives. Cette approche implique un processus en trois étapes :
Créer un ensemble de tests : Les membres du conseil contribuent également à développer un ensemble de tâches.
Collecter les réponses : Chaque membre du conseil répond aux tâches.
Évaluer les réponses : Le conseil agit comme un jury, examinant et notant les réponses collectivement.
En permettant à tous les membres du conseil de participer, la méthode privilégie l'équité et réduit l'influence des biais individuels.
Comment fonctionne le conseil
Le CML comprend un groupe diversifié des derniers LLMs. Pour une étude récente, le conseil était composé de 20 modèles différents, qui devaient répondre à des scénarios liés à l'intelligence émotionnelle. Le conseil visait à voir dans quelle mesure ces LLMs pouvaient gérer des dilemmes interpersonnels, comme répondre à des situations où quelqu'un se sent bouleversé ou confus.
Avantages du CML
L'approche collaborative du CML a conduit à des classements plus distincts et fiables par rapport aux évaluations par des LLMs individuels. Elle s'est également alignée de plus près avec les jugements humains que de nombreux autres tests standard. Au lieu de se fier à un seul modèle pour juger les autres, le conseil a utilisé un mélange d'opinions pour parvenir à un consensus, ce qui en fait une méthode d'évaluation plus équilibrée.
Problèmes d'accord humain et d'évaluation
Les juges humains ont leurs défis. Dans des études précédentes, l'accord humain sur des tâches subjectives a été faible. Même les experts peuvent avoir des désaccords significatifs lorsqu'il s'agit de qualifier du contenu ou de donner des évaluations. Par exemple, lors de la révision de commentaires toxiques en ligne ou de la détermination de la véracité d'articles d'actualité, les experts ont souvent des opinions divergentes. Ces désaccords mettent en lumière les complexités de l'évaluation subjective et l'importance d'une approche plus nuancée.
Test de l'intelligence émotionnelle
Il y a un intérêt croissant à évaluer l'intelligence émotionnelle des LLMs. L'intelligence émotionnelle fait référence à la capacité d'une personne à reconnaître et à répondre aux sentiments des autres. Cependant, évaluer cette capacité reste délicat en raison de sa nature subjective. Des études montrent que l'intelligence émotionnelle ne corrèle pas toujours avec les mesures d'intelligence conventionnelles, ce qui entraîne des conclusions variées sur les deux.
Pour mieux évaluer l'intelligence émotionnelle des LLMs, le CML a utilisé un ensemble de tests comprenant 100 scénarios chargés émotionnellement. Ces scénarios ont été développés en récits plus détaillés par les membres du conseil. Chaque LLM du conseil a généré des réponses à ces scénarios, permettant une évaluation approfondie de leurs capacités d'intelligence émotionnelle.
Les avantages de la participation diversifiée
L'utilisation d'une gamme diversifiée de LLMs dans un cadre collaboratif a aidé à minimiser les biais et à élargir les perspectives lors du processus d'évaluation. Cette variété signifie qu'aucune des idiosyncrasies d'un modèle unique ne pouvait dominer les résultats. L'apport collectif du conseil a amélioré la qualité de l'ensemble de tests et a créé un terrain de jeu plus équitable pour tous les modèles impliqués.
L'importance de la longueur des réponses
Une observation intéressante des évaluations était la variation dans la longueur des réponses. Bien que le conseil ait fixé une limite de 250 mots pour les réponses, certains modèles ont produit des réponses beaucoup plus courtes, ce qui pourrait ne pas traiter entièrement les complexités des scénarios. Cela a indiqué un domaine d'amélioration potentiel pour ces LLMs, soulignant l'équilibre entre la brièveté et l'exhaustivité des réponses.
Évaluer les juges
La qualité des juges LLM a influencé de manière significative l'évaluation globale. Certains modèles ont montré une plus grande cohérence et fiabilité dans leur jugement. L'approche du conseil a conduit à des scores reflétant la gamme d'opinions plutôt que simplement le point de vue d'un seul modèle. Évaluer les juges a aidé à s'assurer que ceux avec des méthodes de notation fiables étaient prioritaires, menant à de meilleurs classements globaux.
Analyser les retours des participants humains
En plus des évaluations des LLMs, les participants humains ont également fourni des retours précieux sur les scénarios et les réponses. Une étude impliquant des évaluateurs humains a révélé que les individus valorisaient l'intelligence émotionnelle, les actions proposées dans les réponses et la clarté par rapport à d'autres traits. Les participants ont trouvé les meilleures réponses claires, actions concrètes et émotionnellement conscientes. Ces retours ont été cruciaux pour comprendre ce qui constitue une réponse efficace dans des scénarios d'intelligence émotionnelle.
Comparaison avec d'autres méthodes d'évaluation
Bien que le CML vise à exceller dans des tâches hautement subjectives, il ne cherche pas à remplacer entièrement les méthodes de classement existantes. Au lieu de cela, il sert d'approche complémentaire. Les évaluations traditionnelles manquent souvent de nuances que le conseil peut capturer. En comparant les résultats du CML avec des évaluations courantes, il devient clair que le conseil offre un regard plus approfondi sur les capacités des modèles, en particulier dans des domaines subjectifs.
Variations dans la qualité de jugement
Au sein du conseil, la gamme des qualités de jugement variait considérablement. Certains modèles étaient plus fiables que d'autres, conduisant à des différences dans leur capacité à distinguer entre les divers LLMs. Cette inconsistance a fourni des idées sur la manière d'améliorer le processus de jugement global. En examinant quels modèles performaient bien, le conseil pouvait apporter des ajustements pour atteindre un meilleur équilibre et une meilleure équité.
Comprendre les préférences dans les réponses
Un objectif clé de l'étude était de découvrir ce qui rend une réponse préférée par rapport à une autre dans des scénarios émotionnels. Pour cela, un échantillon d'explications provenant des juges LLM a été examiné pour identifier des raisons communes à leurs préférences. Les résultats ont suggéré que des réponses pratiques, claires et détaillées étaient préférées. Cela s'aligne avec les attentes en matière d'intelligence émotionnelle, qui valorise des conseils pratiques et des détails spécifiques.
Aperçus de la composition du conseil
La sélection des LLMs pour le conseil était basée sur plusieurs critères, y compris leur popularité dans la communauté IA et leur performance sur d'autres benchmarks. Assurer une variété de modèles-allant de petits à grands et de différentes organisations-permettait d'avoir une vue d'ensemble de l'intelligence émotionnelle à travers différentes capacités.
Considérations futures et applications
Le CML ouvre de nouvelles possibilités pour évaluer les LLMs de manières qui peuvent être adaptées à différentes tâches. Les informations obtenues par ce cadre pourraient encourager d'autres recherches dans d'autres domaines subjectifs au-delà de l'intelligence émotionnelle. L'approche pourrait s'ajuster pour s'adapter à divers domaines, garantissant que les évaluations restent pertinentes et cohérentes.
Conclusion
Le CML représente une avancée significative vers une meilleure évaluation des modèles de langage dans des tâches subjectives. En favorisant une participation égale et un jugement collectif, il offre une manière plus juste et plus nuancée d'évaluer les capacités des LLMs. Ce cadre promet non seulement d'évaluer l'intelligence émotionnelle, mais aussi d'autres évaluations subjectives à l'avenir. Les résultats du conseil démontrent l'efficacité de cette approche innovante et fournissent une base pour des recherches continues dans le domaine.
La capacité à travailler ensemble permet au CML de produire des classements qui sont plus alignés avec le jugement humain que les méthodes traditionnelles, mettant en avant sa valeur dans le développement continu des modèles de langage. Alors que le paysage de l'IA continue d'évoluer, des cadres comme le CML aideront à garantir que les évaluations restent pertinentes et reflètent les complexités inhérentes à la communication humaine.
Le CML invite à une nouvelle ère d'évaluation de l'IA, en se concentrant sur la construction de modèles qui non seulement excellent dans les tâches, mais se connectent également avec les utilisateurs sur un niveau humain. En continuant à affiner cette approche, nous pouvons favoriser des modèles qui sont non seulement avancés technologiquement, mais qui résonnent aussi profondément avec les besoins émotionnels et pratiques des personnes avec lesquelles ils interagissent.
Alors que la communauté de recherche avance, les insights obtenus grâce au CML peuvent guider le développement futur des outils d'IA, en veillant à ce qu'ils soient plus centrés sur l'humain et socialement conscients. Le parcours d'évaluation des modèles de langage à travers un conseil démocratique ne fait que commencer, et son impact potentiel sur l'interaction de l'IA avec la société sera profond.
Titre: Language Model Council: Democratically Benchmarking Foundation Models on Highly Subjective Tasks
Résumé: As Large Language Models (LLMs) continue to evolve, the search for efficient and meaningful evaluation methods is ongoing. Many recent evaluations use LLMs as judges to score outputs from other LLMs, often relying on a single large model like GPT-4o. However, using a single LLM judge is prone to intra-model bias, and many tasks - such as those related to emotional intelligence, creative writing, and persuasiveness - may be too subjective for a single model to judge fairly. We introduce the Language Model Council (LMC), where a group of LLMs collaborate to create tests, respond to them, and evaluate each other's responses to produce a ranking in a democratic fashion. Unlike previous approaches that focus on reducing cost or bias by using a panel of smaller models, our work examines the benefits and nuances of a fully inclusive LLM evaluation system. In a detailed case study on emotional intelligence, we deploy a council of 20 recent LLMs to rank each other on open-ended responses to interpersonal conflicts. Our results show that the LMC produces rankings that are more separable and more robust, and through a user study, we show that they are more consistent with human evaluations than any individual LLM judge. Using all LLMs for judging can be costly, however, so we use Monte Carlo simulations and hand-curated sub-councils to study hypothetical council compositions and discuss the value of the incremental LLM judge.
Auteurs: Justin Zhao, Flor Miriam Plaza-del-Arco, Benjie Genchel, Amanda Cercas Curry
Dernière mise à jour: 2024-10-21 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.08598
Source PDF: https://arxiv.org/pdf/2406.08598
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://arxiv.org/abs/1803.09010
- https://github.com/Sahandfer/EmoBench/blob/master/data/EA/data.json
- https://www.prolific.com/
- https://platform.openai.com/docs/api-reference
- https://docs.mistral.ai/api/
- https://docs.together.ai/docs/inference-rest
- https://cloud.google.com/vertex-ai/docs/reference/rest
- https://docs.cohere.com/reference/chat
- https://docs.anthropic.com/en/api/messages
- https://huggingface.co/datasets/llm-council/emotional_application
- https://huggingface.co/docs/datasets/en/loading
- https://creativecommons.org/licenses/by/4.0/
- https://llm-council.com
- https://chat.lmsys.org/
- https://github.com/lm-sys/arena-hard-auto
- https://www.llm-council.com