Nouvelle approche pour évaluer les modèles de langue de manière équitable
Une nouvelle méthode aborde la contamination des données dans les tests des modèles linguistiques.
― 7 min lire
Table des matières
Les grands modèles de langage (LLMs) ont montré une capacité remarquable à accomplir une large gamme de tâches linguistiques. Cependant, alors que ces modèles excellent dans les tests standard, des préoccupations émergent concernant une éventuelle fuite de données provenant de l'entraînement. Cela est appelé le problème de la Contamination des données. Cela se produit lorsque les modèles ont pu voir des parties ou la totalité des références sur lesquelles ils sont ensuite testés, soulevant des doutes sur leur véritable performance. Cet article discute d'une nouvelle approche pour rendre le test des modèles linguistiques plus équitable et plus fiable.
Le problème de la contamination des données
La contamination des données se produit lorsqu'un modèle apprend à partir des mêmes données contre lesquelles il est ensuite évalué. Les normes traditionnelles gardent leurs données de test secrètes pour éviter ces problèmes. Les chercheurs soumettent les réponses de leurs modèles à ces tests pour évaluation, mais cette procédure peut être lente et ne permet pas une analyse détaillée des erreurs.
Cela soulève une question cruciale : comment pouvons-nous évaluer équitablement les capacités d'un modèle ? Si un modèle a réellement appris à résoudre des problèmes, il devrait bien fonctionner sur de nouvelles variantes de ces problèmes. Pour résoudre cela, un nouvel ensemble de normes avec des ajustements de variables dynamiques a été créé, permettant une meilleure évaluation des modèles linguistiques.
La solution proposée : VarBench
Le nouvel ensemble de normes, appelé VarBench, vise à fournir une évaluation équitable et précise des modèles linguistiques. L'idée est de changer les variables dans les questions de test pour créer des problèmes frais et uniques à chaque fois. Cela signifie que les modèles sont évalués sur leur capacité à s'adapter et à résoudre de nouvelles instances, plutôt que de compter sur des réponses mémorisées.
Comment VarBench fonctionne
- Extraction de variables : Chaque question de test est examinée pour trouver les variables-éléments clés qui peuvent changer, comme des nombres ou des noms.
- Plages de valeurs : Chaque variable se voit attribuer une plage de valeurs possibles, permettant de créer différentes versions de la question.
- Échantillonnage de nouvelles valeurs : Pour chaque évaluation de test, de nouvelles valeurs sont sélectionnées au hasard parmi ces plages, produisant des instances de questions uniques.
Cette approche a été appliquée à quatre ensembles de données : GSM8K pour des problèmes mathématiques, ARC pour des défis de raisonnement, CommonsenseQA pour le raisonnement de bon sens, et TruthfulQA pour des problèmes à choix multiples. L'objectif était de mesurer les véritables compétences des modèles de langage et d'aborder le problème de contamination en veillant à ce que les évaluations soient basées sur du contenu frais.
Les ensembles de données
GSM8K
GSM8K est un ensemble de données populaire contenant des problèmes de mots mathématiques destinés aux élèves d'école primaire. Il comprend environ 8 500 questions, dont une partie réservée aux tests. Les problèmes nécessitent la compréhension et l'application d'opérations arithmétiques de base.
ARC
Le AI2 Reasoning Challenge (ARC) est conçu pour tester les compétences en raisonnement. Il comprend des questions à choix multiples sur divers sujets qui nécessitent la capacité d'inférer et de raisonner à travers les choix.
CommonsenseQA
CommonsenseQA implique des questions nécessitant un raisonnement de bon sens pour sélectionner la réponse correcte parmi plusieurs choix. Cela teste la compréhension par un modèle des connaissances et du raisonnement quotidiens.
TruthfulQA
TruthfulQA comprend des questions ouvertes et des questions à choix multiples, se concentrant sur la capacité d'un modèle à générer des réponses précises et véridiques basées sur les contextes fournis.
Tester la performance des modèles
Dans la nouvelle évaluation, divers LLM open source et closed source ont été testés en utilisant à la fois les ensembles de données originaux et les nouvelles versions de VarBench créées. Les résultats ont mis en évidence une chute significative des performances lors de l'utilisation des ensembles de données perturbées par des variables, suggérant que de nombreux modèles ont pu compter sur des données mémorisées provenant des normes originales.
Résultats
Les évaluations ont montré des performances variées entre différents modèles. Notamment, de grands modèles comme GPT-4o et GPT-3.5 Turbo ont montré différents niveaux de précision. Les résultats suggèrent que, bien que certains modèles fonctionnent bien sur des questions familières, ils rencontrent des difficultés lorsqu'ils sont confrontés à des variations nécessitant un véritable raisonnement.
Comprendre les résultats
Raisonnement mathématique
En ce qui concerne les problèmes mathématiques, les modèles ont montré une chute de performance notable sur le nouvel ensemble de données par rapport au GSM8K original. Cela indique que de nombreux modèles pourraient ne pas comprendre véritablement le raisonnement mathématique mais avoir plutôt mémorisé les schémas des données d'entraînement.
Raisonnement verbal
En revanche, la baisse de performance pour les tâches de raisonnement verbal, comme celles dans ARC et TruthfulQA, était moins prononcée. Cela peut suggérer que ces modèles peuvent mieux généraliser à de nouvelles questions en raisonnement verbal qu'aux tâches mathématiques.
Erreurs communes observées
Alors que les modèles tentaient de résoudre les nouvelles variantes de problèmes, différents types d'erreurs ont été identifiés. Par exemple, de nombreux modèles ont répondu correctement aux questions originales mais ont échoué lorsqu'ils étaient confrontés à des variables ajustées. Cette discrepancy souligne la nécessité d'améliorer les capacités de raisonnement.
Types d'erreurs
- Erreurs logiques : Les modèles qui suivent un processus de raisonnement logique peuvent avoir du mal avec de nouvelles valeurs de variables qui changent le contexte du problème.
- Erreurs de calcul : Certains modèles ont commis des erreurs de calcul lorsque les nombres ont été modifiés, indiquant un manque de véritable compréhension mathématique.
- Ignorer le contexte : Un certain nombre de modèles n'ont pas pris en compte des informations essentielles fournies dans la question, menant à des conclusions incorrectes.
Investigations supplémentaires
Le rôle de l'invite
Pour évaluer les effets de différentes stratégies d'invite, plusieurs méthodes ont été testées. Celles-ci incluaient la variation du nombre d'exemples d'invites fournis au modèle avant de répondre. Les résultats ont montré que, bien que certaines méthodes aient amélioré les performances, la tendance générale indiquait que les modèles avaient encore du mal à s'adapter aux nouvelles formulations de variables.
Implications futures
Les résultats suggèrent que les modèles linguistiques pourraient nécessiter un développement supplémentaire pour améliorer leurs capacités de raisonnement, en particulier en mathématiques. À mesure que les techniques d'apprentissage avancent, il est vital de s'assurer que les modèles apprennent véritablement des concepts plutôt que de mémoriser simplement des données.
Conclusion
VarBench est un pas prometteur vers un test plus fiable des modèles linguistiques. En introduisant des perturbations de variables dans les évaluations de référence, nous pouvons mieux évaluer les véritables capacités d'un modèle. Cette méthode diminue le risque que la performance soit gonflée en raison de la contamination des données.
À mesure que de plus en plus de recherches sont menées dans ce domaine, VarBench pourrait conduire à de nouveaux développements dans la compréhension de la manière dont les modèles linguistiques apprennent, garantissant que les modèles futurs puissent véritablement raisonner et s'adapter à de nouvelles informations. Le chemin pour améliorer et valider les modèles linguistiques est en cours, et des efforts continus devraient, espérons-le, aboutir à des systèmes plus robustes et capables à l'avenir.
Titre: VarBench: Robust Language Model Benchmarking Through Dynamic Variable Perturbation
Résumé: As large language models achieve impressive scores on traditional benchmarks, an increasing number of researchers are becoming concerned about benchmark data leakage during pre-training, commonly known as the data contamination problem. To ensure fair evaluation, recent benchmarks release only the training and validation sets, keeping the test set labels closed-source. They require anyone wishing to evaluate his language model to submit the model's predictions for centralized processing and then publish the model's result on their leaderboard. However, this submission process is inefficient and prevents effective error analysis. To address this issue, we propose to variabilize benchmarks and evaluate language models dynamically. Specifically, we extract variables from each test case and define a value range for each variable. For each evaluation, we sample new values from these value ranges to create unique test cases, thus ensuring a fresh evaluation each time. We applied this variable perturbation method to four datasets: GSM8K, ARC, CommonsenseQA, and TruthfulQA, which cover mathematical generation and multiple-choice tasks. Our experimental results demonstrate that this approach provides a more accurate assessment of the true capabilities of language models, effectively mitigating the contamination problem.
Auteurs: Kun Qian, Shunji Wan, Claudia Tang, Youzhi Wang, Xuanming Zhang, Maximillian Chen, Zhou Yu
Dernière mise à jour: 2024-06-26 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.17681
Source PDF: https://arxiv.org/pdf/2406.17681
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://ai.google.dev/gemma/terms
- https://cloud.google.com/products/gemini?hl=en
- https://huggingface.co/mistralai/Mistral-7B-v0.3
- https://huggingface.co/HuggingFaceH4/zephyr-7b-beta
- https://huggingface.co/theBodhiTree/theBodhiTree-Zephyr-Gamma-7b
- https://huggingface.co/01-ai/Yi-1.5-6B
- https://huggingface.co/01-ai/Yi-1.5-9B
- https://huggingface.co/meta-llama/Meta-Llama-3-8B
- https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct
- https://huggingface.co/SeaLLMs/SeaLLM-7B-v2.5
- https://huggingface.co/microsoft/Phi-3-mini-4k-instruct
- https://huggingface.co/deepseek-ai/deepseek-math-7b-base
- https://platform.openai.com/docs/models/gpt-3-5-turbo
- https://platform.openai.com/docs/models/gpt-4o
- https://huggingface.co/datasets/openai/gsm8k
- https://huggingface.co/datasets/tau/commonsense_qa
- https://huggingface.co/datasets/truthfulqa/truthful_qa
- https://huggingface.co/datasets/allenai/ai2_arc
- https://twitter.com/lucy3_li/status/1797864667857199179
- https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/qbetterk/VarBench