Défis dans la performance des modèles linguistiques petits sur les QCM
Une étude montre que les petits modèles de langage galèrent avec les questions à choix multiples.
― 8 min lire
Table des matières
Les grands modèles de langage (LLMs) deviennent super courants dans plein de domaines, surtout avec l’essor des versions open-source. Des modèles plus petits peuvent s’intégrer dans des appareils comme des ordinateurs portables et des téléphones, et ils sont souvent utilisés pour différentes tâches. Cependant, il n’y a pas eu d’examen approfondi sur la façon dont ces modèles fonctionnent bien, surtout quand il s'agit de répondre à des Questions à choix multiple (MCQs). Dans cette étude, on se concentre sur la façon dont ces modèles gèrent les MCQs, qui sont largement utilisés pour tester les connaissances dans plein de domaines.
Ce qu'on a trouvé
On a examiné 26 petits modèles open-source et on a découvert que 65 % d'entre eux ne comprennent pas comment répondre aux MCQs. Seuls quelques modèles ont choisi les bonnes Réponses parmi les options données. De plus, 70 % des modèles qu’on a testés avaient des réponses qui dépendaient de l'ordre des choix plutôt que des choix eux-mêmes. C'est inquiétant, vu à quel point ces modèles sont utilisés pour les tests MCQ.
Contexte sur les grands modèles de langage
Les LLMs ont gagné en popularité grâce à leur capacité à réaliser plein de tâches. Bien qu’ils soient entraînés principalement pour prédire ce qui vient ensuite dans une phrase, ils sont maintenant utilisés pour discuter, faire des recherches et même dans des produits. Beaucoup d'efforts ont été fournis pour rendre ces modèles plus petits et améliorer leurs Performances.
Dans le contexte des LLMs, les MCQs sont utilisés pour évaluer leurs capacités. Ces questions peuvent aider à déterminer la position d’un modèle sur divers sujets ou évaluer sa performance sur des tests standardisés. Cependant, répondre aux MCQs est souvent plus difficile pour les modèles que ça n’en a l’air. Une compétence cruciale pour réussir est la capacité à réduire les choix à une seule réponse correcte. Notre analyse montre que beaucoup de modèles ont du mal avec ça.
MCQs et leurs défis
Les MCQs peuvent être formulées de plusieurs manières, et la bonne approche pour évaluer les modèles peut varier. Bien que ça semble simple, les MCQs peuvent être difficiles pour les modèles. On a analysé les réponses de 26 petits modèles et constaté que beaucoup ont mal performé quand il s'agit de résoudre ces questions. Plus de la moitié des modèles n’ont pas compris la tâche ou ont eu du mal à sélectionner une réponse appropriée.
On a utilisé un ensemble de données avec six sujets différents ayant des déclarations avec des niveaux de vérité variés. Chaque déclaration était étiquetée avec une vérité fondamentale indiquant si elle était vraie, fausse ou inconnue. Par exemple, toutes les conspirations sont fausses et tous les faits sont vrais. Cette étiquetage est important quand on formule les questions.
Recherches connexes
Les MCQs sont souvent utilisés dans les benchmarks pour évaluer la performance des LLMs. Ces benchmarks classent les modèles selon la manière dont ils répondent aux questions. Par exemple, le classement Open LLM classe les modèles en utilisant des ensembles de données contenant des questions à choix multiple. Cependant, de nombreuses études ont montré que les formats typiques de MCQs ne poussent pas toujours les LLMs à donner les bonnes réponses.
Certaines recherches précédentes soulignent que de légers changements dans la formulation des questions peuvent changer la réponse du modèle. D'autres ont trouvé que beaucoup de modèles ne répondent pas avec précision aux MCQs, particulièrement quand les questions sont ambiguës ou difficiles.
Notre objectif est de savoir si les modèles peuvent saisir ce que ça signifie de répondre à un MCQ. On cherche à déterminer si ces modèles comprennent la tâche au lieu de simplement bien performer sur des sujets ou ensembles de données spécifiques.
Configuration expérimentale
On a testé 26 petits modèles open-source en utilisant une approche standard pour poser des questions suivies d'options multiples. On s'est assuré que les modèles répondent seulement avec la lettre de leur réponse choisie. Les choix comprenaient 'Oui,' 'Non,' 'Dépend / Pas sûr,' et 'Préférer ne pas répondre.' Ce format a été utilisé pour garder la tâche simple.
On a posé la même question en utilisant cinq invites différentes pour voir comment les modèles ont réagi. Les modèles ont été choisis parmi des plateformes populaires et comprenaient un mélange de modèles ajustés par instructions et de modèles de base. En raison des limitations de ressources, tous les modèles n’ont pas été inclus, mais on visait un échantillon représentatif.
Évaluation des réponses des modèles
On a utilisé différentes méthodes pour évaluer les réponses des modèles. Une méthode impliquait d’extraire uniquement la réponse par lettre, tandis qu'une autre regardait les probabilités de chaque choix. En randomisant l’ordre des choix pour chaque modèle, on a pu déterminer s’ils dépendaient trop de l’ordre dans lequel les options étaient présentées.
En analysant les réponses, on a remarqué que beaucoup de modèles avaient tendance à choisir la première option qu'ils voyaient. Ça a conduit à des schémas trop simplifiés dans leurs réponses. On a identifié qu'un nombre significatif de modèles semblait avoir soit choisi seulement 'A', soit échoué à fournir une sortie valide.
Principales conclusions
De notre analyse, on a trouvé plusieurs points critiques :
Compréhension de la tâche : Beaucoup de modèles ne saisissent pas la nature des MCQs. Ils ont du mal à suivre les instructions et échouent souvent à fournir des réponses valides.
Dépendance à l'ordre des choix : Une grande partie des modèles montrait une dépendance à l’ordre des choix. Quand on a randomisé ces choix, beaucoup de modèles ont changé leurs réponses, indiquant que leurs réponses n’étaient pas fiables.
Réponses 'A' prédominantes : Un nombre significatif de modèles avait tendance à choisir 'A' peu importe son contenu. Ça pourrait venir d'un biais envers la première option ou d'une prévalence de 'A' dans les ensembles de données d'entraînement.
Variété limitée dans les réponses : Les modèles avaient du mal à fournir une gamme de réponses, beaucoup se contentant de phrases courantes ou générant des informations superflues plutôt que de sélectionner une réponse spécifique.
Pourquoi c'est important
La capacité à répondre correctement aux MCQs est essentielle, surtout que ces questions sont fréquemment utilisées pour évaluer la performance des LLMs. Beaucoup de ces modèles sont conçus pour être utiles, mais s'ils échouent à comprendre ou répondre de manière appropriée à un format de question simple, c'est préoccupant.
Les résultats suggèrent qu'il faut être prudent en utilisant ces modèles dans des contextes qui reposent sur les MCQs pour l'évaluation. Les utilisateurs devraient vérifier que les modèles peuvent effectivement comprendre et répondre aux MCQs avant de les utiliser pour des évaluations, des recherches ou d'autres applications.
Directions futures
Notre étude a jeté les bases pour de futures recherches. On prévoit d’explorer plus profondément les réponses de modèles spécifiques et de voir comment différents types de questions impactent la compréhension. En examinant diverses invites et catégories, on vise à révéler davantage sur les effets de la structure des questions sur la performance des modèles.
En regardant vers l’avenir, il sera essentiel de comparer de petits modèles avec des plus grands pour voir si la taille impacte la performance en MCQ. Comprendre comment améliorer les modèles pour aborder les limitations actuelles aidera leur développement futur.
Conclusion
En résumé, notre enquête sur la performance des petits modèles open-source sur les tâches de MCQ a mis en lumière des lacunes significatives. Beaucoup de modèles ont eu du mal avec la compréhension de base et ont montré une dépendance troublante à l'ordre des choix. Bien que certains modèles, notamment de la famille Mistral, aient affiché de meilleures performances, beaucoup d'autres n'ont pas atteint les standards attendus.
À mesure que ces modèles deviennent plus intégrés dans diverses applications, il est crucial d'examiner leurs capacités et de s'assurer qu'ils peuvent comprendre et répondre adéquatement à des tâches comme les MCQs. Cette compréhension aidera à guider le développement futur de modèles de langage plus fiables et efficaces.
Titre: A Study on Large Language Models' Limitations in Multiple-Choice Question Answering
Résumé: The widespread adoption of Large Language Models (LLMs) has become commonplace, particularly with the emergence of open-source models. More importantly, smaller models are well-suited for integration into consumer devices and are frequently employed either as standalone solutions or as subroutines in various AI tasks. Despite their ubiquitous use, there is no systematic analysis of their specific capabilities and limitations. In this study, we tackle one of the most widely used tasks - answering Multiple Choice Question (MCQ). We analyze 26 small open-source models and find that 65% of the models do not understand the task, only 4 models properly select an answer from the given choices, and only 5 of these models are choice order independent. These results are rather alarming given the extensive use of MCQ tests with these models. We recommend exercising caution and testing task understanding before using MCQ to evaluate LLMs in any field whatsoever.
Auteurs: Aisha Khatun, Daniel G. Brown
Dernière mise à jour: 2024-08-14 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2401.07955
Source PDF: https://arxiv.org/pdf/2401.07955
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.