Une nouvelle méthode pour classer les modèles de langue
Présentation d'une nouvelle méthode pour classer les modèles de langue sans avoir besoin de réponses de référence.
― 13 min lire
Table des matières
- Défis dans l'évaluation des LLMs
- Notre approche
- Analyse de l'approche triplet
- Travaux connexes
- Méthodes proposées pour classer les LLMs
- Classement Triplet Glouton (GTR)
- Classement Triplet Complet (FTR)
- Conditions de succès
- Complexité temporelle des méthodes proposées
- Résultats expérimentaux
- Tâches de résumé
- Évaluation à choix multiples
- Génération de dialogues
- Défis et limitations
- Considérations éthiques
- Directions futures
- Conclusion
- Source originale
- Liens de référence
Évaluer et classer les grands modèles de langage (LLMs) devient de plus en plus important alors que ces modèles sont largement utilisés. Les méthodes traditionnelles d'évaluation reposent souvent sur des retours humains, ce qui peut coûter cher et être difficile à obtenir, ou elles utilisent des modèles pour s'évaluer les uns les autres, ce qui peut mener à des résultats peu fiables. Dans cet article, on présente une nouvelle manière de classer les LLMs sans avoir besoin de réponses de référence ou de vérité de terrain.
Notre approche est inspirée de la façon dont les experts et les personnes bien informées peuvent souvent faire la différence entre un novice et une personne plus capable. On propose de créer des groupes de trois modèles, où chaque modèle évalue les deux autres. En faisant cela, chaque modèle peut probablement identifier lequel est le plus faible. On a ensuite analysé cette idée et établi des conditions pour qu'elle fonctionne avec succès.
On a développé deux méthodes pour classer les LLMs basées sur cette approche triplet. On a testé ces méthodes sur diverses tâches, y compris la résumé, les questions à choix multiples et les dialogues. Nos résultats ont montré que nos méthodes pouvaient trouver des Classements de manière fiable qui correspondent étroitement aux vrais classements, même sans données de référence. Cela suggère une manière utile d'évaluer les modèles sans avoir besoin de beaucoup de ressources.
Défis dans l'évaluation des LLMs
La croissance rapide des capacités des LLMs a créé des défis pour évaluer leur performance. Pour mesurer comment un LLM se débrouille, on a besoin de prompts d'entrée, des réponses des modèles à ces prompts, et d'une manière de mesurer combien le modèle a bien performé.
Une méthode commune de benchmarking implique d'utiliser des ensembles de données qui viennent avec à la fois des prompts d'entrée et des réponses de référence, permettant aux métriques automatisées d'évaluer les réponses du modèle. Cependant, ces benchmarks peuvent être sensibles à de petits changements, et l'amélioration rapide des LLMs peut rapidement rendre un benchmark obsolète. Bien qu'il soit plus facile d'obtenir des étiquettes de référence pour des tâches de classification ou des questions à choix multiples, obtenir des étiquettes dans des tâches génératives est plus compliqué. De plus, les benchmarks qui se concentrent sur des métriques spécifiques peuvent parfois échouer à capturer à quel point un LLM performe réellement.
Pour aborder ces problèmes, l'idée d'utiliser les LLMs comme juges gagne en popularité. Cela signifie que les LLMs sont utilisés comme des substituts pour évaluer les sorties basées sur des préférences humaines, qui sont souvent trop complexes à saisir avec des métriques simples. Cependant, cette méthode peut être problématique, car les LLMs peuvent avoir des biais, et il peut être difficile de choisir quel LLM devrait être le juge.
Notre approche
Dans notre recherche, on a examiné des situations où l'on ne sait pas quels LLMs peuvent être considérés comme des juges de confiance. On a mis en place un système avec un groupe de LLMs et un ensemble de données de prompts. Notre but est de classer ces modèles en fonction de leur performance sur une tâche choisie, sans supposer de qualité préalable à leur égard ou nécessiter des réponses de référence.
Notre méthode consiste à examiner trois modèles à la fois. Chaque modèle évalue les autres, ce qui nous permet de décider lequel est jugé comme le plus faible. Utiliser seulement deux modèles ne donnerait pas des résultats fiables parce qu'on commence sans aucune hypothèse sur leur qualité. Notre méthode triplet est basée sur l'idée qu'un expert peut généralement faire la différence entre une personne informée et un novice. Ce concept est au cœur des deux méthodes que nous proposons.
Le processus de jugement des LLMs ne doit pas se limiter à de simples comparaisons entre deux réponses. On peut aussi utiliser des métriques de traitement du langage naturel (NLP) comme ROUGE ou BERT Score pour trouver les réponses qui sont les plus proches de la réponse du modèle juge. Contrairement aux systèmes de recommandation, où les objets sont recommandés en fonction des préférences des utilisateurs, ici, les LLMs se classent les uns les autres sans avoir besoin d'entrées extérieures.
Analyse de l'approche triplet
On a approfondi la recherche sur la méthode triplet et établi des conditions qui aident à expliquer quand elle est susceptible de réussir. Chaque modèle dans un triplet a son propre score de performance en fonction de la manière dont il répond aux prompts. On analyse les conditions suffisantes où un modèle est susceptible d'être évalué comme le pire par les deux autres modèles qui le jugent.
Tout d'abord, on note que lorsque les modèles génèrent des réponses, il est important que leurs réponses incorrectes ne se chevauchent pas trop. Si deux modèles répondent à un prompt de manière incorrecte de la même façon, ils peuvent ne pas s'aider mutuellement à identifier un modèle plus faible. Cependant, s'ils font des erreurs différentes, il y a plus de chances que le modèle avec la performance globale la plus faible soit identifié comme le plus faible.
Le degré de chevauchement entre les réponses correctes variera en fonction des capacités des modèles. Plus un modèle est bon pour répondre correctement aux prompts, mieux il peut aider à identifier un modèle de moindre performance. Cette méthode semble prometteuse surtout dans des contextes où les réponses peuvent être longues-comme résumer des textes-car des réponses plus longues fournissent souvent des sorties plus variées.
Travaux connexes
Le benchmarking est un sujet essentiel pour les chercheurs travaillant avec les LLMs. L'évaluation des LLMs est perçue comme un défi critique qui nécessite une attention urgente. Bien qu'il existe des benchmarks de performance, il n'y a pas de solution universelle. D'autres dimensions de l'évaluation, comme la confiance et la sécurité, sont également critiques, abordant des problèmes tels que le biais, les stéréotypes et les considérations éthiques. Les benchmarks complets incluent désormais à la fois des métriques de performance et de sécurité, et les résultats sont partagés sur divers tableaux de classement.
Pour des tâches avec des étiquettes binaires ou des questions à choix multiples, la précision est couramment utilisée comme métrique. Certains chercheurs soulignent l'importance de prendre en compte l'incertitude dans l'évaluation de la performance des LLMs. Pour les tâches génératives, des métriques comme BLEU ou ROUGE comparent le texte généré à des textes de référence. D'autres méthodes comme l'Inférence de Langage Naturel (NLI) nécessitent une compréhension nuancée, et diverses bibliothèques permettent d'utiliser plusieurs métriques ensemble.
Les préférences humaines pour les réponses des modèles se concentrant sur l'utilité et la sécurité sont collectées dans des ensembles de données spécifiques. D'autres collections significatives, comme les Conversations OpenAssistant, impliquent des Évaluations humaines des réponses. Bien que recueillir des retours humains soit souvent coûteux, les LLMs ont été utilisés pour juger de la qualité des modèles comme des substituts pour les évaluations humaines.
Méthodes proposées pour classer les LLMs
Basé sur notre approche triplet, on propose deux méthodes pour classer les LLMs lorsque la vérité de terrain est absente. La première est une approche gloutonne, et la seconde méthode considère tous les triplets pour établir un classement plus large.
Classement Triplet Glouton (GTR)
Dans GTR, on prend un groupe de modèles, un ensemble de prompts, et une méthode d'évaluation pour comparer les réponses des modèles. Le processus consiste à identifier le modèle le plus faible d'un ensemble de trois à chaque tour. En commençant avec un triplet aléatoire, GTR identifie le pire modèle, l'enlève, et ajoute un autre modèle jusqu'à identifier les deux meilleurs modèles. Ce processus continue jusqu'à ce qu'il reste moins de trois modèles. Finalement, l'un des deux meilleurs modèles de la première course est sélectionné, et on finalise les classements basés sur les résultats.
Grâce à cette méthode, tous les modèles finissent par recevoir un classement en identifiant et en éliminant progressivement les modèles les plus faibles.
Classement Triplet Complet (FTR)
FTR commence également avec un ensemble de modèles, des prompts, et une fonction d'évaluation. Cependant, elle examine tous les triplets possibles pour dériver des scores de réputation pour chaque modèle en fonction de la fréquence à laquelle ils sont notés positivement. Ces scores aident à classer les modèles lors des tours suivants jusqu'à ce que leurs réputations se stabilisent. Les scores finaux informent alors les classements des modèles.
Bien que GTR soit efficace pour identifier les meilleurs modèles, FTR offre une vue plus complète basée sur toutes les données disponibles à travers les modèles.
Conditions de succès
Identifier les conditions suffisantes pour que notre méthode triplet fonctionne efficacement est crucial. On commence avec un triplet de modèles et analyse comment leur performance sur des tâches affecte leurs classements. Lors de l'évaluation des modèles, il est bénéfique que les modèles ne soient pas d'accord sur leurs réponses incorrectes ; de cette façon, ils peuvent s'aider mutuellement à faire des évaluations précises.
On s'attend à un chevauchement minimal dans les réponses incorrectes, particulièrement dans des tâches génératives longues. Si nos attentes concernant les modèles sont correctes, les meilleurs et les plus faibles modèles devraient se démarquer nettement, permettant une identification efficace dans les évaluations triplet.
Dans des scénarios pratiques, le degré de précision entre les modèles peut faire une différence significative dans les résultats de classement. Si la capacité des modèles à générer des réponses similaires est trop proche, il peut être difficile de distinguer les Performances de manière adéquate.
Complexité temporelle des méthodes proposées
Pour l'approche GTR, identifier les deux meilleurs modèles dans chaque évaluation de triplet signifie utiliser une structure de boucle qui entraîne une complexité temporelle de O(n). Pendant ce temps, FTR évalue toutes les comparaisons entre triplets ; par conséquent, sa complexité temporelle est plus étendue, menant à O(n^3) dans des scénarios avec un plus grand nombre de modèles.
Résultats expérimentaux
On a testé à la fois GTR et FTR dans trois contextes : des tâches de résumé, des scénarios à choix multiples, et la génération de dialogues. Pour benchmarker la performance, on a conçu une nouvelle méthode basée sur la détermination de la réponse la plus courante parmi les réponses de tous les modèles.
Tâches de résumé
On a évalué les deux méthodes avec deux ensembles de données de résumé : CNN/Daily Mail et XSUM. On a recueilli des réponses des LLMs pour mesurer comment les méthodes capturaient les classements par rapport aux données de référence. Nos résultats ont montré que GTR et FTR surperformaient constamment la méthode de la réponse la plus courante, particulièrement à mesure que la taille de l'ensemble de données augmentait.
Évaluation à choix multiples
Pour des scénarios à choix multiples, on a créé des ensembles de données simulant une précision connue parmi les modèles. Les résultats ont montré que la performance variait selon le nombre de réponses possibles ; nos méthodes ont généralement eu du mal lorsque le nombre de réponses potentielles était faible. Cependant, à mesure que les ensembles de réponses s'élargissaient, nos méthodes se sont révélées compétitives.
Génération de dialogues
Notre expérience de dialogue impliquait de comparer plusieurs variantes finement adaptées visant à optimiser les valeurs morales. On a découvert que notre méthode FTR pouvait classer avec précision les modèles basés sur les préférences humaines, identifiant correctement les meilleurs et les pires modèles.
Défis et limitations
Malgré le succès de nos méthodes, des défis demeurent. De fortes corrélations entre les réponses incorrectes dans les tâches à choix multiples peuvent entraver l'efficacité de nos évaluations. C'est particulièrement vrai dans des contextes où les sorties possibles sont limitées, comme des réponses oui/non.
De plus, on a principalement conduit nos expériences en anglais, ce qui peut limiter l'applicabilité large de nos résultats. Les jugements moraux portés dans nos évaluations de dialogues étaient subjectifs, suggérant que différents annotateurs humains pourraient donner des classements différents.
Considérations éthiques
Notre travail vise à améliorer la fiabilité des évaluations des LLMs en réduisant la nécessité d'efforts humains pour créer des ensembles de données de référence. Cela pourrait alléger certains fardeaux psychologiques qui découlent de l'évaluation de contenus potentiellement nuisibles. Cependant, il est essentiel de se rappeler que nos classements devraient servir d'estimations approximatives. Une supervision humaine est toujours nécessaire pour confirmer la qualité des modèles utilisés dans les applications.
Directions futures
Il y a beaucoup de domaines passionnants pour de futures recherches. Un de ces domaines est d'incorporer des informations supplémentaires, comme des classements partiels parmi des modèles de familles similaires. Cela pourrait ouvrir de nouvelles méthodes variées, y compris des approches bayésiennes, pour mieux gérer l'incertitude.
De plus, explorer des ensembles plus importants pour les comparaisons dans chaque tour, tout en étant conscient des coûts computationnels, pourrait donner des aperçus intéressants. Développer des variantes plus efficaces de GTR pourrait également s'avérer précieux. Enfin, nos méthodes pourraient trouver des applications au-delà des LLMs, comme dans l'évaluation d'évaluateurs humains non experts ou l'exploration de tâches complexes dans des recommandations algorithmiques.
Conclusion
Alors que les LLMs continuent d'évoluer, des méthodes fiables pour l'évaluation sont cruciales. Notre approche triplet proposée, qui permet de classer sans nécessiter la vérité de terrain, offre une solution prometteuse. En tirant parti des LLMs pour s'évaluer les uns les autres et en établissant des méthodes qui minimisent la dépendance aux ensembles de données de référence, on peut faire des pas vitaux vers des pratiques d'évaluation plus fiables.
Titre: Ranking Large Language Models without Ground Truth
Résumé: Evaluation and ranking of large language models (LLMs) has become an important problem with the proliferation of these models and their impact. Evaluation methods either require human responses which are expensive to acquire or use pairs of LLMs to evaluate each other which can be unreliable. In this paper, we provide a novel perspective where, given a dataset of prompts (viz. questions, instructions, etc.) and a set of LLMs, we rank them without access to any ground truth or reference responses. Inspired by real life where both an expert and a knowledgeable person can identify a novice our main idea is to consider triplets of models, where each one of them evaluates the other two, correctly identifying the worst model in the triplet with high probability. We also analyze our idea and provide sufficient conditions for it to succeed. Applying this idea repeatedly, we propose two methods to rank LLMs. In experiments on different generative tasks (summarization, multiple-choice, and dialog), our methods reliably recover close to true rankings without reference data. This points to a viable low-resource mechanism for practical use.
Auteurs: Amit Dhurandhar, Rahul Nair, Moninder Singh, Elizabeth Daly, Karthikeyan Natesan Ramamurthy
Dernière mise à jour: 2024-06-10 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2402.14860
Source PDF: https://arxiv.org/pdf/2402.14860
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.