Évaluation du suivi des instructions séquentielles dans les LLMs
Une nouvelle référence évalue dans quelle mesure les modèles de langage suivent plusieurs instructions de manière séquentielle.
― 5 min lire
Table des matières
- Défis dans l'évaluation du suivi des instructions
- Tâches dans la référence SIFo
- Modification de texte (TM)
- Réponse à des questions (QA)
- Mathématiques
- Suivi de règles de sécurité
- Résultats de l'évaluation des LLMs
- Tendances de performance
- Différences de performance des tâches
- Conclusion
- Travaux futurs
- Source originale
- Liens de référence
Suivre plusieurs instructions est une compétence clé pour les modèles de langage de grande taille (LLMs). Cependant, évaluer cette compétence pose des défis, notamment des connexions peu claires entre les instructions, l'effet de l'ordre des instructions sur la performance et le manque de tâches pouvant être vérifiées objectivement.
Pour relever ces défis, nous présentons une référence destinée à tester la capacité des modèles à gérer des tâches nécessitant le suivi d'étapes en séquence. Dans notre référence, l'efficacité de l'exécution de toutes les instructions peut être vérifiée en ne regardant que la dernière tâche. Cela permet une évaluation approfondie à travers quatre tâches : Modification de texte, réponse à des questions, Mathématiques et suivi de règles de sécurité.
Défis dans l'évaluation du suivi des instructions
Les méthodes actuelles d'évaluation des LLMs se concentrent souvent sur des instructions uniques ou manquent de cohérence lorsqu'il s'agit de plusieurs étapes. Cela peut rendre difficile l'évaluation des performances globales d'un modèle. Un autre problème est que l'ordre dans lequel les instructions sont données peut influencer la manière dont un modèle réagit, ce qui peut fausser les résultats. Enfin, de nombreuses tâches d'évaluation ne se prêtent pas facilement à une vérification claire.
Pour surmonter ces problèmes, notre référence met l'accent sur le suivi d'instructions séquentielles (SIFo). Dans cette configuration, chaque étape est liée à la précédente, ce qui permet une évaluation basée uniquement sur la dernière instruction. Ce design aide à garantir que les instructions s'enchaînent logiquement et réduit le biais introduit par leur ordre.
Tâches dans la référence SIFo
Modification de texte (TM)
Cette tâche examine la capacité du modèle à modifier du texte. Elle nécessite d'insérer, de remplacer ou de supprimer des mots dans un contexte spécifié. Le jeu de données pour cette tâche est créé à l'aide d'articles de Wikipédia et comprend de 3 à 6 instructions différentes pour chaque échantillon.
Réponse à des questions (QA)
La tâche QA teste la compréhension du langage. Le modèle doit d'abord récupérer des informations à partir d'un contexte pour répondre à une question, puis ajuster le contexte en fonction de cette réponse. Cela ajoute des couches de complexité et nécessite que le modèle traite plusieurs instructions dans un ordre logique.
Mathématiques
Dans la tâche de mathématiques, les modèles résolvent une séquence de problèmes, où chacun dépend de la réponse au précédent. Cette structure garantit que la logique des étapes précédentes est maintenue tout au long.
Suivi de règles de sécurité
Cette tâche implique un scénario où le modèle doit suivre des instructions de sécurité spécifiques. Les commandes dépendent des modifications antérieures des permissions ou des règles, ce qui ajoute une couche de complexité qui doit être naviguée correctement pour maintenir la précision.
Résultats de l'évaluation des LLMs
Nous avons évalué une variété de LLMs bien connus dans notre référence. Nos résultats indiquent que les modèles plus grands et plus récemment développés performaient mieux sur les tâches SIFo par rapport à leurs pairs plus petits et plus anciens. Cependant, tous les modèles ont rencontré des difficultés à suivre des séquences d'instructions, mettant en évidence des domaines à améliorer dans leur robustesse.
Tendances de performance
Pour toutes les tâches, nous avons noté un déclin constant de la performance à mesure que la complexité des tâches augmentait. Cela était particulièrement évident parmi les modèles open-source, qui ont eu beaucoup de mal avec les tâches, surtout dans les étapes ultérieures. En revanche, les modèles fermés plus avancés montraient une meilleure stabilité, bien qu'ils aient encore rencontré des défis pour maintenir leur précision à travers plusieurs étapes.
Différences de performance des tâches
Notre évaluation a révélé des niveaux de performance variés à travers les différentes tâches SIFo. Les modèles ont bien performé dans les tâches de mathématiques et de sécurité, tandis qu'ils ont rencontré plus de difficultés avec la modification de texte et les tâches de révision des connaissances dans la section QA. Ces disparités suggèrent que, bien que les modèles montrent des forces dans certains domaines, ils doivent s'améliorer dans d'autres.
Conclusion
Nous avons introduit SIFo comme une référence pour évaluer l'efficacité avec laquelle les LLMs peuvent suivre des instructions de manière séquentielle. En se concentrant sur des tâches logiquement connectées et objectivement vérifiables, nous pouvons mieux évaluer les capacités des modèles de langage modernes. Nos résultats soulignent la nécessité d'améliorations dans les compétences de suivi des instructions dans l'ensemble, surtout à mesure que nous nous dirigeons vers de futures avancées dans le modélisation du langage.
Travaux futurs
Il existe un potentiel d'élargir la référence SIFo pour inclure des tâches et des défis supplémentaires. Cela pourrait conduire à une évaluation plus complète des capacités de suivi d'instructions séquentielles dans les LLMs.
Nous espérons que cette référence contribuera à une compréhension plus approfondie de la manière dont les LLMs peuvent gérer des jeux d'instructions complexes et guider le développement de modèles plus performants à l'avenir.
Titre: The SIFo Benchmark: Investigating the Sequential Instruction Following Ability of Large Language Models
Résumé: Following multiple instructions is a crucial ability for large language models (LLMs). Evaluating this ability comes with significant challenges: (i) limited coherence between multiple instructions, (ii) positional bias where the order of instructions affects model performance, and (iii) a lack of objectively verifiable tasks. To address these issues, we introduce a benchmark designed to evaluate models' abilities to follow multiple instructions through sequential instruction following (SIFo) tasks. In SIFo, the successful completion of multiple instructions is verifiable by examining only the final instruction. Our benchmark evaluates instruction following using four tasks (text modification, question answering, mathematics, and security rules), each assessing different aspects of sequential instruction following. Our evaluation of popular LLMs, both closed-source and open-source, shows that more recent and larger models significantly outperform their older and smaller counterparts on the SIFo tasks, validating the benchmark's effectiveness. All models struggle with following sequences of instructions, hinting at an important lack of robustness of today's language models.
Auteurs: Xinyi Chen, Baohao Liao, Jirui Qi, Panagiotis Eustratiadis, Christof Monz, Arianna Bisazza, Maarten de Rijke
Dernière mise à jour: 2024-10-03 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.19999
Source PDF: https://arxiv.org/pdf/2406.19999
Licence: https://creativecommons.org/licenses/by-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://huggingface.co/dslim/bert-large-NER
- https://github.com/shin-ee-chen/SIFo
- https://www.anthropic.com/claude-3-model-card
- https://llama.meta.com/llama3/
- https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.2
- https://crfm.stanford.edu/helm/mmlu/latest/
- https://www.latex-project.org/help/documentation/encguide.pdf