Mesurer la variance dans les benchmarks des modèles de langage
Cet article examine des méthodes pour évaluer la variance dans les benchmarks d'évaluation des modèles de langue.
― 10 min lire
Table des matières
- Le Rôle des Bancs
- Variance dans les Bancs
- Ce qu’on Vise à Atteindre
- Modèles et Bancs Analyzes
- Mesurer la Variance
- Métriques Clés
- Observations sur la Variance
- Comparer les Métriques Discrètes et Continues
- Le Défi MMLU
- S'attaquer à la Variance avec l'Analyse d'Items
- Les Limites de la Théorie de Réponse à l’Item
- Travaux Connexes
- Recommandations Pratiques
- Conclusion
- Source originale
- Liens de référence
Les bancs d'évaluation sont super importants pour mesurer à quel point les grands Modèles de langage (LLMs) fonctionnent bien et pour montrer comment ces modèles s'améliorent. Au début, ces bancs servaient à montrer les forces et les faiblesses des modèles déjà prêts. Maintenant, ils aident aussi à prendre des décisions sur les méthodes d'entraînement. Même s'ils sont très utilisés, on mesure rarement combien de variations il y a dans ces bancs, ce qui est important pour savoir si les différences dans les résultats ont du sens.
Cet article discute de différentes manières de mesurer la Variance dans les bancs d'évaluation. On regarde la variance causée par différentes graines dans l'initialisation des modèles et comment l'entraînement est stable dans le temps. En testant plein de modèles, certains disponibles publiquement et d'autres entraînés de zéro, on donne des estimations pratiques pour différentes mesures de variance et on propose des suggestions pour de meilleures pratiques. On examine aussi les avantages et inconvénients des mesures de performance continues contre discrètes et on suggère des façons de comprendre et réduire la variance.
Le Rôle des Bancs
Les datasets d'évaluation de référence sont essentiels pour prouver les progrès des grands modèles de langage. Quand un nouveau modèle sort, il est généralement accompagné de scores issus des bancs habituels pour montrer comment il se compare aux anciens modèles. Ces bancs jouent un rôle majeur dans la revendication des avancées et le titre de "dernier cri". Beaucoup de choix de développement sont basés sur leur impact sur ces bancs importants, ce qui souligne leur importance dans les itérations des modèles.
Cependant, malgré leur signification, les scores des bancs sont souvent traités comme un seul chiffre, et une analyse plus profonde de ces scores est rare. On sait bien que les scores peuvent être affectés par la manière dont les questions sont formulées, la distribution des réponses, ou même les symboles utilisés dans les configurations à choix multiples. Pourtant, la plupart des rapports de recherche ne publient qu'un score unique par banc sans expliquer comment il a été obtenu. De plus, les statistiques d'importance sont rarement publiées, rendant difficile la confiance dans les résultats d'évaluation. Ce manque de clarté rend difficile la comparaison des modèles de manière efficace durant le développement.
Variance dans les Bancs
Pour s'attaquer à la question, on examine la variance dans les scores de bancs à une échelle plus grande que les études précédentes. On analyse 13 jeux de données référentiels avec des données de Performances issues de 280 modèles, y compris des modèles publics entièrement entraînés et un lot entraîné de zéro, ne différant que par les graines aléatoires.
Ce qu’on Vise à Atteindre
Notre étude vise à atteindre trois objectifs principaux :
- Fournir un guide détaillé sur les niveaux de variance attendus pour différents bancs dans des conditions variées.
- Offrir des conseils pratiques pour réduire la variance, notamment pour les modèles de petite échelle traitant de tâches de choix importantes.
- Avertir contre l'utilisation de méthodes issues des tests standardisés humains, comme l'analyse d'items, car on a trouvé qu'elles étaient inefficaces pour réduire la variance.
Ce travail met en lumière le problème souvent ignoré de la variance des bancs, quantifie ses effets et montre des façons pratiques de la gérer.
Modèles et Bancs Analyzes
Dans notre recherche, on compare les résultats des bancs à travers de nombreux modèles entraînés dans différentes conditions. On a analysé plus de 280 modèles, dont dix modèles basés sur l'architecture Llama-2-7B. Ceux-ci ont été entraînés de zéro avec un mélange spécifique de données de pré-entraînement, assurant que toutes les exécutions étaient identiques à part les graines utilisées pour l'initialisation.
Chaque modèle a été entraîné sur 210 milliards de tokens, avec 21 instantanés d'entraînement sauvegardés pour chaque modèle. On a aussi inclus 41 modèles intermédiaires et entièrement entraînés basés sur à la fois Llama-1 et Llama-2, tous entraînés sur le même mélange de données. Enfin, on a utilisé 32 modèles disponibles publiquement, créant une gamme diversifiée d'architectures et de tailles de modèles.
En ce qui concerne les bancs, on a utilisé 13 bancs NLP bien établis à grande échelle couvrant diverses tâches, de la connaissance générale à un raisonnement complexe et au codage. Cette approche nous a donné une base solide pour explorer la variance dans les scores de performance à travers différents modèles.
Mesurer la Variance
Au départ, on se concentre sur combien de variance existe entre différents modèles et jeux de données. On développe diverses Métriques pour quantifier cette variance. Par exemple, on s'intéresse à la variance causée par des changements dans la graine du modèle à travers des configurations similaires. Cela nous permet de distinguer si un coup de pouce de performance est dû à un meilleur ensemble de données d'entraînement ou juste à des différences dans les graines aléatoires.
Métriques Clés
On calcule les métriques suivantes :
- Moyenne des Graines : La performance moyenne des modèles utilisant la métrique après l'entraînement.
- Variance des Graines : La dispersion des scores de performance entre les modèles définis par leurs graines.
- Intervalles de Confiance : Un moyen de montrer la plage où l'on s'attend à ce que les vrais scores de performance se situent.
- Monotonie : Mesure à quel point les scores s'améliorent de manière cohérente durant l'entraînement.
Utiliser ces métriques permet d'avoir une vision plus claire de la façon dont la variance se comporte à travers différents bancs.
Observations sur la Variance
On plonge plus profondément dans la variance observée dans nos modèles de graines. Nos résultats à travers différents bancs montrent que les scores peuvent rester proches du hasard même après un entraînement significatif. Certains bancs montrent une haute variance à cause d'échantillons de test limités, tandis que d'autres montrent une variance plus faible mais nécessitent toujours une interprétation prudente lors de la comparaison des modèles.
Fait intéressant, on découvre que de légers changements dans la façon de poser les tâches peuvent réduire significativement la variance dans les modèles, surtout les plus petits. Par exemple, traiter des tâches de choix comme des tâches d'achèvement peut conduire à des résultats plus stables. En revanche, les méthodes empruntées à la littérature sur les tests humains ne se sont pas révélées efficaces pour réduire la variance dans les évaluations des modèles de langage.
Comparer les Métriques Discrètes et Continues
Durant notre analyse, on compare les métriques continues aux discrètes. Les métriques continues ont tendance à avoir un meilleur Rapport Signal / Bruit (RSB), ce qui les rend plus fiables pour contraster différents modèles. Cette observation suggère que l'utilisation de mesures continues peut offrir des perspectives plus claires lors des évaluations de modèles, aidant à bâtir de meilleures lois d'échelle pour des tâches en aval.
Le Défi MMLU
On explore le Multiple-choice Language Understanding Benchmark (MMLU) pour mettre en lumière les problèmes avec les bancs établis. En comparant deux approches pour le MMLU (standard et cloze), on découvre que le format cloze mène à une variance de graines plus faible et à une stabilité accrue. Cela suggère que des méthodes moins conventionnelles peuvent donner de meilleures insights durant les premiers entraînements des modèles.
S'attaquer à la Variance avec l'Analyse d'Items
Dans un effort pour réduire la variance, on applique des concepts d'analyse d'items, une méthode utilisée dans les tests standardisés pour évaluer l'efficacité des questions individuelles. Cette approche nous permet d'examiner des métriques spécifiques, comme la difficulté des items et leur discrimination.
La difficulté des items indique à quel point les modèles performent sur différents items, tandis que la discrimination des items évalue à quel point les items individuels peuvent différencier les performances des modèles. Bien que cela offre un cadre d'évaluation, on trouve que les scores de discrimination des items peuvent ne pas fournir beaucoup d'informations utiles sur les évaluations des modèles de langage.
Les Limites de la Théorie de Réponse à l’Item
On examine aussi la Théorie de Réponse à l'Item (TRI), une approche statistique initialement axée sur les scores de tests humains. Des applications récentes ont suggéré que cette méthode pourrait aider à analyser et regrouper les échantillons d'évaluation pour les modèles. Cependant, nos découvertes indiquent que l'utilisation des méthodes TRI pourrait entraîner une variance plus élevée, ce qui pourrait compliquer les comparaisons entre modèles.
Travaux Connexes
De nombreuses études soulignent les lacunes dans l'évaluation des bancs, avec diverses suggestions d'amélioration. Cette recherche s'appuie sur des travaux précédents en mettant l'accent sur l'importance de quantifier la variance à travers plusieurs dimensions et en suggérant des techniques pour l'atténuer.
Recommandations Pratiques
Basé sur nos découvertes, on encourage les chercheurs et praticiens à :
- Considérer la Variance : Toujours prendre en compte la variance lors de l'évaluation des modèles par rapport aux bancs.
- Utiliser des Métriques Continues : Favoriser des mesures de performance continues pour de meilleures comparaisons.
- Essayer des Formats Alternatifs : Lorsque c'est applicable, formuler des tâches de manière moins conventionnelle pour réduire le bruit.
- Se Méfier des Méthodes de Tests Standardisés : Les méthodes issues des tests standardisés humains peuvent ne pas bien s'appliquer aux évaluations des modèles de langage.
Conclusion
Alors que les grands modèles de langage deviennent de plus en plus répandus, comprendre leurs capacités à travers des bancs d'évaluation devient de plus en plus essentiel. Cet article met en avant l'importance de mesurer la variance dans les scores des bancs. En analysant diverses approches et en identifiant des pratiques efficaces, on vise à améliorer la fiabilité des évaluations et des comparaisons des modèles, contribuant finalement à des décisions plus éclairées dans le développement et le déploiement des modèles.
À travers ce travail, on espère susciter un plus grand intérêt et des recherches sur les stratégies de réduction de la variance qui peuvent améliorer l'évaluation globale des modèles de langue, conduisant à des avancées plus efficaces et fiables dans le domaine.
Titre: Quantifying Variance in Evaluation Benchmarks
Résumé: Evaluation benchmarks are the cornerstone of measuring capabilities of large language models (LLMs), as well as driving progress in said capabilities. Originally designed to make claims about capabilities (or lack thereof) in fully pretrained models, evaluation benchmarks are now also extensively used to decide between various training choices. Despite this widespread usage, we rarely quantify the variance in our evaluation benchmarks, which dictates whether differences in performance are meaningful. Here, we define and measure a range of metrics geared towards measuring variance in evaluation benchmarks, including seed variance across initialisations, and monotonicity during training. By studying a large number of models -- both openly available and pretrained from scratch -- we provide empirical estimates for a variety of variance metrics, with considerations and recommendations for practitioners. We also evaluate the utility and tradeoffs of continuous versus discrete performance measures and explore options for better understanding and reducing this variance. We find that simple changes, such as framing choice tasks (like MMLU) as completion tasks, can often reduce variance for smaller scale ($\sim$7B) models, while more involved methods inspired from human testing literature (such as item analysis and item response theory) struggle to meaningfully reduce variance. Overall, our work provides insights into variance in evaluation benchmarks, suggests LM-specific techniques to reduce variance, and more generally encourages practitioners to carefully factor in variance when comparing models.
Auteurs: Lovish Madaan, Aaditya K. Singh, Rylan Schaeffer, Andrew Poulton, Sanmi Koyejo, Pontus Stenetorp, Sharan Narang, Dieuwke Hupkes
Dernière mise à jour: 2024-06-14 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.10229
Source PDF: https://arxiv.org/pdf/2406.10229
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.