Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Évaluer les modèles de langue avec le benchmark Xiezhi

Xiezhi propose une nouvelle façon d'évaluer les modèles de langue sur divers sujets.

― 6 min lire


Xiezhi : Évaluation desXiezhi : Évaluation desLLM de nouvellegénérationde langue avec des benchmarks étendus.Révolutionner l'évaluation des modèles
Table des matières

Alors que les grands modèles de langage (LLMs) continuent de s'améliorer, le besoin de méthodes efficaces pour évaluer leurs performances grandit. Les benchmarks traditionnels peuvent ne pas suffire pour mesurer leurs capacités avec précision. Xiezhi a été créé pour évaluer directement à quel point les LLMs comprennent et appliquent des connaissances dans divers sujets. Cet article vise à expliquer pourquoi de tels benchmarks sont nécessaires et comment Xiezhi fonctionne.

Le besoin de nouveaux benchmarks

La montée rapide des modèles de langage comme ChatGPT et GPT-4 montre des résultats impressionnants dans la compréhension et la génération de texte humain. Cependant, il y a un écart dans l'évaluation appropriée de leurs connaissances dans des Domaines spécifiques. Les benchmarks existants manquent souvent de profondeur ou deviennent vite obsolètes. À mesure que les modèles deviennent plus performants, on a besoin de meilleurs benchmarks qui peuvent suivre le rythme.

Limitations des benchmarks existants

La plupart des benchmarks actuels ont été construits sur des questions limitées et testent souvent uniquement la mémoire simple. Ça veut dire que les LLMs peuvent montrer de bons résultats juste en devinant ou en mémorisant. De plus, beaucoup des benchmarks disponibles ne couvrent pas assez de tâches diverses pour tester pleinement l'étendue de ce que ces modèles peuvent faire. Plus d'options sont nécessaires pour montrer les réelles capacités de ces modèles.

Approcher le défi

Pour relever ce défi, Xiezhi prévoit d'introduire un système de benchmark plus complet. Il vise à inclure un large éventail de disciplines, avec un nombre énorme de questions pour bien challenger ces modèles. En structurant correctement l'évaluation, on peut recueillir des données plus éclairantes sur le fonctionnement de ces modèles.

Aperçu de Xiezhi

Xiezhi est conçu pour évaluer des connaissances à travers divers domaines. Il comprend des questions à Choix multiples sur 516 sujets différents regroupés en 13 catégories. Le benchmark totalise 249 587 questions, ce qui en fait la suite d'évaluation la plus vaste à ce jour. L'objectif principal est de tester à quel point les LLMs comprennent et utilisent des connaissances de domaine en répondant à ces questions.

Structure de Xiezhi

Les 516 sujets dans Xiezhi sont classés en 13 thèmes principaux, dont la philosophie, l'économie, le droit, l'éducation, la littérature, l'histoire, la science, l'ingénierie, l'agriculture, la médecine, la science militaire, la gestion et les arts. Cette large gamme aide à identifier les forces et faiblesses de différents modèles dans divers domaines de connaissance.

Collecte de questions

Les questions pour Xiezhi ont été collectées à partir de plusieurs examens éducatifs en Chine, couvrant des tests allant de l'école élémentaire jusqu'au niveau des diplômes supérieurs. Ces questions sont soigneusement sélectionnées pour s'assurer qu'elles sont pertinentes et utiles pour mesurer les connaissances des LLMs.

Xiezhi inclut aussi des ensembles de données supplémentaires-Xiezhi-Specialty et Xiezhi-Interdiscipline. Xiezhi-Specialty comprend des questions qui nécessitent des connaissances d'une seule discipline, tandis que Xiezhi-Interdiscipline inclut des questions qui s'appuient sur des connaissances de plusieurs domaines.

Conception de l'évaluation

Format à choix multiples

Pour renforcer l'évaluation, Xiezhi utilise un format à choix multiples avec 50 options de réponse pour chaque question. Les Évaluations précédentes n'incluaient que quatre options. Cette gamme plus large réduit la probabilité de réponses correctes par simple chance et offre une mesure plus précise des capacités des LLMs.

Classement des réponses

Au lieu de simplement vérifier si une réponse est correcte, Xiezhi classe les réponses possibles en fonction de leur probabilité générative. Cette méthode permet une évaluation plus nuancée de la façon dont les LLMs comprennent et peuvent appliquer des connaissances de domaine.

Paramètres d'évaluation

Xiezhi évalue les LLMs dans divers contextes : 0-shot, 1-shot et 3-shot. Dans le 0-shot, aucun exemple n'est donné ; dans le 1-shot, un exemple est fourni ; et dans le 3-shot, trois exemples sont montrés pour aider à guider le modèle. Cette flexibilité aide à comprendre comment les modèles se comportent dans différents contextes d'apprentissage.

Résultats et conclusions

Des expériences utilisant 47 LLMs différents révèlent des aperçus intéressants sur leurs capacités.

Performance dans différents domaines

Les résultats montrent que les LLMs excellent dans certains domaines, comme la science, l'ingénierie et la médecine, surpassant souvent des experts humains. Cependant, ils ont du mal dans des domaines comme l'économie, le droit et la littérature, où la performance humaine reste supérieure.

Différences entre les modèles

Xiezhi met aussi en évidence les différences de performance entre divers modèles. Certains modèles, en particulier ceux basés sur des architectures plus avancées, ont montré de meilleurs résultats dans plusieurs catégories par rapport à des modèles plus simples.

Importance d'une évaluation complète

Xiezhi n'est pas juste un ensemble de questions ; il offre une manière détaillée de mesurer les performances des LLMs. Cette évaluation complète permet aux chercheurs d'identifier des forces et faiblesses spécifiques dans différents modèles. Comprendre ces nuances peut guider des améliorations futures dans la conception et l'entraînement des modèles.

Développement continu et orientations futures

À mesure que le domaine des modèles de langage continue d'évoluer, les benchmarks comme Xiezhi doivent aussi s'adapter. Les mises à jour futures viseront à élargir la couverture des sujets et à ajouter plus de questions, garantissant que l'évaluation reste pertinente.

Élargir le champ des connaissances

Pour améliorer la pertinence de Xiezhi, plus de disciplines, de contextes culturels et de langues pourraient être inclus dans les mises à jour futures. En intégrant des perspectives diverses, l'évaluation deviendrait encore plus complète.

Collecter les retours de la communauté

Les chercheurs et éducateurs sont encouragés à contribuer au développement de Xiezhi. Des efforts collaboratifs peuvent mener à un benchmark encore plus robuste, reflétant une plus large gamme de connaissances et de compétences nécessaires dans l'environnement d'information rapide d'aujourd'hui.

Conclusion

Xiezhi représente une avancée significative dans l'évaluation des modèles de langage. En fournissant un ensemble riche et diversifié de questions et une méthode d'évaluation fiable, il établit les bases pour des aperçus plus profonds sur la façon dont ces modèles comprennent et appliquent des connaissances. Grâce au développement continu et à l'implication de la communauté, Xiezhi peut évoluer pour relever les défis posés par la technologie linguistique en progrès, garantissant que les évaluations des LLM sont aussi complètes et précises que possible.

Source originale

Titre: Xiezhi: An Ever-Updating Benchmark for Holistic Domain Knowledge Evaluation

Résumé: New Natural Langauge Process~(NLP) benchmarks are urgently needed to align with the rapid development of large language models (LLMs). We present Xiezhi, the most comprehensive evaluation suite designed to assess holistic domain knowledge. Xiezhi comprises multiple-choice questions across 516 diverse disciplines ranging from 13 different subjects with 249,587 questions and accompanied by Xiezhi-Specialty and Xiezhi-Interdiscipline, both with 15k questions. We conduct evaluation of the 47 cutting-edge LLMs on Xiezhi. Results indicate that LLMs exceed average performance of humans in science, engineering, agronomy, medicine, and art, but fall short in economics, jurisprudence, pedagogy, literature, history, and management. We anticipate Xiezhi will help analyze important strengths and shortcomings of LLMs, and the benchmark is released in~\url{https://github.com/MikeGu721/XiezhiBenchmark}.

Auteurs: Zhouhong Gu, Xiaoxuan Zhu, Haoning Ye, Lin Zhang, Jianchen Wang, Yixin Zhu, Sihang Jiang, Zhuozhi Xiong, Zihan Li, Weijie Wu, Qianyu He, Rui Xu, Wenhao Huang, Jingping Liu, Zili Wang, Shusen Wang, Weiguo Zheng, Hongwei Feng, Yanghua Xiao

Dernière mise à jour: 2024-03-11 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2306.05783

Source PDF: https://arxiv.org/pdf/2306.05783

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Liens de référence

Plus d'auteurs

Articles similaires