Évaluation du suivi des instructions séquentielles dans les LLMs

Une nouvelle référence évalue dans quelle mesure les modèles de langage suivent plusieurs instructions de manière séquentielle.

2025-07-22T21:32:54+00:00 ― 5 min lire

Table des matières

Défis dans l'évaluation du suivi des instructions
Tâches dans la référence SIFo
Résultats de l'évaluation des LLMs
Conclusion
Travaux futurs
Source originale
Liens de référence

Suivre plusieurs instructions est une compétence clé pour les modèles de langage de grande taille (LLMs). Cependant, évaluer cette compétence pose des défis, notamment des connexions peu claires entre les instructions, l'effet de l'ordre des instructions sur la performance et le manque de tâches pouvant être vérifiées objectivement.

Pour relever ces défis, nous présentons une référence destinée à tester la capacité des modèles à gérer des tâches nécessitant le suivi d'étapes en séquence. Dans notre référence, l'efficacité de l'exécution de toutes les instructions peut être vérifiée en ne regardant que la dernière tâche. Cela permet une évaluation approfondie à travers quatre tâches : Modification de texte, réponse à des questions, Mathématiques et suivi de règles de sécurité.

Défis dans l'évaluation du suivi des instructions

Les méthodes actuelles d'évaluation des LLMs se concentrent souvent sur des instructions uniques ou manquent de cohérence lorsqu'il s'agit de plusieurs étapes. Cela peut rendre difficile l'évaluation des performances globales d'un modèle. Un autre problème est que l'ordre dans lequel les instructions sont données peut influencer la manière dont un modèle réagit, ce qui peut fausser les résultats. Enfin, de nombreuses tâches d'évaluation ne se prêtent pas facilement à une vérification claire.

Pour surmonter ces problèmes, notre référence met l'accent sur le suivi d'instructions séquentielles (SIFo). Dans cette configuration, chaque étape est liée à la précédente, ce qui permet une évaluation basée uniquement sur la dernière instruction. Ce design aide à garantir que les instructions s'enchaînent logiquement et réduit le biais introduit par leur ordre.

Tâches dans la référence SIFo

Modification de texte (TM)

Cette tâche examine la capacité du modèle à modifier du texte. Elle nécessite d'insérer, de remplacer ou de supprimer des mots dans un contexte spécifié. Le jeu de données pour cette tâche est créé à l'aide d'articles de Wikipédia et comprend de 3 à 6 instructions différentes pour chaque échantillon.

Réponse à des questions (QA)

La tâche QA teste la compréhension du langage. Le modèle doit d'abord récupérer des informations à partir d'un contexte pour répondre à une question, puis ajuster le contexte en fonction de cette réponse. Cela ajoute des couches de complexité et nécessite que le modèle traite plusieurs instructions dans un ordre logique.

Mathématiques

Dans la tâche de mathématiques, les modèles résolvent une séquence de problèmes, où chacun dépend de la réponse au précédent. Cette structure garantit que la logique des étapes précédentes est maintenue tout au long.

Suivi de règles de sécurité

Cette tâche implique un scénario où le modèle doit suivre des instructions de sécurité spécifiques. Les commandes dépendent des modifications antérieures des permissions ou des règles, ce qui ajoute une couche de complexité qui doit être naviguée correctement pour maintenir la précision.

Résultats de l'évaluation des LLMs

Nous avons évalué une variété de LLMs bien connus dans notre référence. Nos résultats indiquent que les modèles plus grands et plus récemment développés performaient mieux sur les tâches SIFo par rapport à leurs pairs plus petits et plus anciens. Cependant, tous les modèles ont rencontré des difficultés à suivre des séquences d'instructions, mettant en évidence des domaines à améliorer dans leur robustesse.

Tendances de performance

Pour toutes les tâches, nous avons noté un déclin constant de la performance à mesure que la complexité des tâches augmentait. Cela était particulièrement évident parmi les modèles open-source, qui ont eu beaucoup de mal avec les tâches, surtout dans les étapes ultérieures. En revanche, les modèles fermés plus avancés montraient une meilleure stabilité, bien qu'ils aient encore rencontré des défis pour maintenir leur précision à travers plusieurs étapes.

Différences de performance des tâches

Notre évaluation a révélé des niveaux de performance variés à travers les différentes tâches SIFo. Les modèles ont bien performé dans les tâches de mathématiques et de sécurité, tandis qu'ils ont rencontré plus de difficultés avec la modification de texte et les tâches de révision des connaissances dans la section QA. Ces disparités suggèrent que, bien que les modèles montrent des forces dans certains domaines, ils doivent s'améliorer dans d'autres.

Conclusion

Nous avons introduit SIFo comme une référence pour évaluer l'efficacité avec laquelle les LLMs peuvent suivre des instructions de manière séquentielle. En se concentrant sur des tâches logiquement connectées et objectivement vérifiables, nous pouvons mieux évaluer les capacités des modèles de langage modernes. Nos résultats soulignent la nécessité d'améliorations dans les compétences de suivi des instructions dans l'ensemble, surtout à mesure que nous nous dirigeons vers de futures avancées dans le modélisation du langage.

Travaux futurs

Il existe un potentiel d'élargir la référence SIFo pour inclure des tâches et des défis supplémentaires. Cela pourrait conduire à une évaluation plus complète des capacités de suivi d'instructions séquentielles dans les LLMs.

Nous espérons que cette référence contribuera à une compréhension plus approfondie de la manière dont les LLMs peuvent gérer des jeux d'instructions complexes et guider le développement de modèles plus performants à l'avenir.

Évaluation du suivi des instructions séquentielles dans les LLMs

Une nouvelle référence évalue dans quelle mesure les modèles de langage suivent plusieurs instructions de manière séquentielle.

#Défis dans l'évaluation du suivi des instructions

#Tâches dans la référence SIFo

#Modification de texte (TM)

#Réponse à des questions (QA)

#Mathématiques

#Suivi de règles de sécurité

#Résultats de l'évaluation des LLMs

#Tendances de performance

#Différences de performance des tâches

#Conclusion

#Travaux futurs

Liens de référence

Sujets référencés