Évaluation des défis de codage pour les modèles linguistiques

Un nouveau cadre évalue la difficulté des tâches de codage pour les grands modèles de langage.

Table des matières

Source originale

Les grands modèles de langage (LLMs) montrent un potentiel énorme dans le domaine de l'ingénierie logicielle, surtout quand on parle de Tâches liées au code, comme écrire et compléter du code. Évaluer ces LLMs se fait généralement à travers des métriques larges calculées à partir de benchmarks spécifiques. Bien que ces benchmarks donnent une idée générale de la performance des différents LLMs, ils ne montrent pas clairement comment chaque tâche de codage impacte les capacités du LLM.

Un aspect crucial est le niveau de Difficulté des tâches dans ces benchmarks, qui n'est pas représenté avec précision dans les scores utilisés pour mesurer la performance du modèle. Par exemple, un modèle qui a un score de 90 % sur un ensemble de tâches principalement simples peut être moins performant qu'un autre modèle qui a aussi un score de 90 % mais qui travaille sur des tâches plutôt difficiles. Pour combler cette lacune, des chercheurs ont développé un cadre nommé HardEval, conçu pour évaluer la difficulté des tâches pour les LLMs et créer de nouvelles tâches basées sur celles identifiées comme difficiles.

L'essence du cadre HardEval réside dans la génération d'une large variété de prompts pour une seule tâche à travers différents LLMs. Cela permet aux chercheurs d'obtenir un score de difficulté pour chaque tâche dans un benchmark. Par exemple, en utilisant deux benchmarks de génération de code appelés HumanEval+ et ClassEval, le cadre HardEval peut pointer de manière fiable les tâches les plus difficiles. La recherche a montré que seulement 21 % des tâches dans HumanEval+ et 27 % dans ClassEval étaient réellement difficiles pour les LLMs.

À partir de leur analyse de la difficulté des tâches, les chercheurs ont aussi identifié six sujets pratiques de tâches difficiles, qu'ils ont utilisés pour créer de nouvelles tâches difficiles. Contrairement aux méthodes existantes qui mesurent la performance globale des benchmarks, HardEval offre une évaluation plus précise des capacités des LLMs. Le score de difficulté de HardEval peut aider les chercheurs et praticiens à identifier des tâches difficiles dans les benchmarks actuels et à générer des tâches difficiles supplémentaires ciblant des sujets spécifiques, ce qui pourrait améliorer les LLMs.

Bien que cette recherche se concentre sur les tâches de génération de code, le cadre HardEval peut aussi s'appliquer à d'autres domaines comme la complétion de code ou les tâches de questions-réponses.

Les LLMs sont devenus populaires pour diverses tâches de codage dans l'ingénierie logicielle. Bien que la performance des LLMs dans la production de code pour différents langages de programmation-comme Python, Java et C-soit prometteuse, il est important de noter que le code généré par les LLMs peut encore avoir des défauts. Les chercheurs ont souligné que ce code généré est souvent sensible aux bugs et peut présenter des problèmes de sécurité et de qualité.

Typiquement, pour évaluer les LLMs dans les tâches de génération de code et comparer leurs performances, des benchmarks bien connus comme HumanEval, MBPP, CoderEval et ClassEval sont utilisés. Ces benchmarks sont généralement créés en confectionnant manuellement des tâches ou en extrayant des tâches de dépôts de code publics, comme ceux sur GitHub. Cependant, cette approche signifie que l'évaluation des capacités de génération de code des LLMs est indirecte et basée sur des caractéristiques générales plutôt que sur la difficulté spécifique des tâches individuelles.

Un exemple du benchmark HumanEval illustre ce problème. La tâche peut consister à implémenter une fonction appelée cycpattern_check, qui vérifie si le deuxième mot ou n'importe laquelle de ses rotations est une sous-chaîne du premier mot. Pour évaluer un LLM, ce prompt peut être exécuté, et son résultat peut être comparé à des tests prédéterminés pour vérifier la validité. Cependant, si la plupart des modèles échouent sur cette tâche, la question se pose : cette tâche est-elle vraiment difficile ?

Pour résoudre cette incertitude, le cadre HardEval trouve que cette tâche, une fois correctement évaluée, n'est pas particulièrement difficile. En reformulant légèrement le prompt ou en ajoutant un peu de contexte, les LLMs ont pu s'attaquer à la tâche efficacement. Ainsi, bien que le prompt original puisse être perçu comme difficile, la tâche sous-jacente ne l'est pas.

Pour guider leur recherche, les chercheurs ont défini plusieurs questions clés, qui ont aidé à former la base de leur étude. Le cadre HardEval améliore la compréhension de la manière d'évaluer et de reconnaître les tâches de programmation difficiles pour les LLMs.

HardEval construit ses évaluations sur des benchmarks existants, qui contiennent des ensembles de tâches représentées par des prompts uniques. Le cadre fait la différence entre une "tâche", qui représente la fonction de base à implémenter, et un "prompt", qui est simplement une manière d’énoncer cette tâche pour le LLM. Par exemple, la tâche pourrait être de calculer la suite de Fibonacci, tandis que les prompts pourraient varier considérablement dans la façon de demander la création de cette fonction, allant de descriptions simples à des instructions plus élaborées.

Le processus de HardEval se déroule en trois étapes principales. D'abord, le cadre identifie des transformations pour les prompts qui maintiennent l'essence de la tâche tout en variant la façon dont elle est présentée. Les chercheurs se sont concentrés sur deux types de transformations : reformulation et ajout de contexte. En utilisant ces transformations, les chercheurs génèrent plusieurs prompts pour chaque tâche.

Ensuite, ces prompts sont envoyés à différents LLMs pour générer du code. L'objectif ici est d'évaluer à quel point les LLMs performent avec différentes formulations de la même tâche. Le code généré est ensuite évalué en fonction de sa validité et de sa similarité avec des échantillons corrects.

Enfin, une fois les tâches difficiles identifiées, le cadre les analyse pour créer de nouvelles tâches ciblées basées sur des sujets similaires. En regroupant ces tâches en groupes partageant des éléments thématiques, les chercheurs peuvent générer de nouvelles tâches de codage qui sont probablement tout aussi difficiles.

Dans la première étape, le cadre se concentre sur la manière de produire différents prompts pour chaque tâche. L'idée est d'introduire de la variabilité sans changer le sens principal. Par exemple, simplifier ou élaborer les informations dans un prompt peut mener à des niveaux de difficulté variés. Les chercheurs ont établi trois niveaux de contexte à utiliser dans les prompts.

Le premier niveau contient uniquement les informations de base et une description générale. Le deuxième niveau inclut une explication plus détaillée de la fonction. Le troisième niveau va même plus loin, fournissant des références spécifiques comme des noms de variables et des descriptions de pseudo-algorithmes. Cette approche structurée offre une méthodologie claire pour générer des prompts qui peuvent influencer la performance des LLMs.

La deuxième étape majeure implique la mesure de la difficulté des tâches. Pour cela, les chercheurs utilisent plusieurs LLMs pour générer du code à partir des différents prompts. Chaque échantillon de code généré est ensuite évalué par rapport à des tests prédéfinis pour déterminer sa validité. Cette approche à double métrique mesure à la fois la validité fonctionnelle et la similarité du code généré avec un échantillon correct, offrant une vue d'ensemble complète de la difficulté d'une tâche.

En analysant le code généré à partir de prompts variés, le cadre cherche à établir un score de difficulté pour chaque tâche. Les résultats permettent aux chercheurs de classer les tâches comme faciles ou difficiles en fonction du niveau de succès atteint par les LLMs.

Une fois les tâches difficiles identifiées, la dernière étape consiste à générer de nouvelles tâches. Cela se fait par le biais de la modélisation de sujets, qui regroupe les tâches en fonction de leurs similarités. Le cadre permet de créer de nouvelles tâches soit en ajoutant des contraintes aux tâches difficiles existantes, soit en augmentant les tâches faciles avec des éléments de tâches difficiles.

Pour valider l'efficacité du cadre HardEval, les chercheurs ont mené des études sur deux benchmarks bien établis : HumanEval+ et ClassEval. Ces benchmarks couvrent une large gamme de tâches et de défis de codage, ce qui les rend adaptés pour évaluer la performance du cadre.

Dans leurs expériences, ils ont généré un total de 18 prompts différents pour chaque tâche. Ils ont utilisé cinq LLMs différents pour exécuter les tâches de codage basées sur ces prompts. Chaque échantillon de code généré a été évalué en utilisant le score de difficulté établi, ce qui a permis aux chercheurs de déterminer le niveau de difficulté de chaque tâche.

L'analyse a indiqué que 63 % des tâches dans HumanEval+ et 65 % dans ClassEval ont obtenu un score en dessous d'un certain seuil, suggérant que la majorité des tâches sont faciles. En revanche, seulement 21 % des tâches de HumanEval+ et 27 % des tâches de ClassEval ont été classées comme difficiles. Cela a mis en évidence l'efficacité du cadre pour distinguer les tâches de codage faciles des difficiles.

En examinant les tâches difficiles identifiées par HardEval, les chercheurs ont noté que les LLMs oublient souvent des parties importantes des tâches en raison d'instructions excessives ou peu claires. Cette négligence peut mener à des solutions incorrectes. Dans ce scénario, la métrique de similarité est devenue essentielle, car elle aide à évaluer à quel point le code incorrect ressemble aux codes corrects. Cela prouve encore que simplement évaluer un seul prompt est généralement insuffisant pour déterminer la difficulté d'une tâche.

Les chercheurs ont également considéré si certains types de tâches de programmation étaient intrinsèquement plus difficiles que d'autres. Les défis de codage qui nécessitent beaucoup d'informations pour décrire les opérations et les contraintes sont souvent perçus comme plus complexes. Leurs résultats ont montré que les tâches nécessitant des explications détaillées et la prise en compte des cas particuliers entraînent des évaluations de difficulté plus élevées.

Bien qu'ils soient basés sur le jugement humain, ils soutiennent que s'appuyer uniquement là-dessus peut ne pas refléter avec précision les capacités des LLMs. L'étude a trouvé que les évaluations humaines des tâches de compétition de code étaient faiblement corrélées avec les taux de réussite réels des tests pour les LLMs.

En conclusion, le cadre HardEval représente un progrès significatif dans l'évaluation de la difficulté des tâches de codage pour les LLMs. Il offre une nouvelle façon d'évaluer des défis de programmation individuels et de générer des tâches ciblées pour améliorer la performance des LLMs. Le cadre est adaptable, avec des applications potentielles s'étendant au-delà de la génération de code à d'autres tâches liées au codage.

Pour les recherches futures, l'équipe prévoit d'élargir les applications de HardEval à d'autres tâches de programmation, d'améliorer encore les méthodes utilisées pour générer de nouvelles tâches et d'établir des benchmarks avec des profils de difficulté souhaités. Ce travail forme la base d'améliorations continues dans l'utilisation des LLMs pour diverses activités de codage, offrant la possibilité d'affiner comment nous évaluons et étendons les capacités de ces modèles.

Évaluation des défis de codage pour les modèles linguistiques

Sujets référencés

Plus d'auteurs

Articles similaires