Évaluer les LLM en utilisant des interprètes de code pour des tâches de science des données

Un cadre pour évaluer les capacités des LLM dans les tâches liées aux données avec des interprètes de code.

Table des matières

Caractéristiques de Notre Benchmark
Métriques d'Évaluation
Résumé des Contributions
Travaux Connexes
Analyse des Erreurs et Autres Perspectives
Conclusion
Source originale
Liens de référence

Les grands modèles de langage (LLM) sont maintenant utilisés avec des outils externes pour gérer des Tâches complexes. Cependant, évaluer leurs capacités pose des défis, ce qui peut cacher leurs faiblesses. Dans cet article, on présente un cadre pour évaluer les LLM sur leur utilisation d'interpréteurs de code pour des tâches liées aux données. Notre cadre comprend un ensemble de données et deux modes d'évaluation. L'ensemble de données est créé avec l'aide des LLM et des humains, simulant des flux de travail réels à travers des sessions IPython interactives. Nos deux modes évaluent la performance des LLM avec et sans aide humaine. On a analysé 24 LLM en utilisant ce cadre, offrant des aperçus pour des améliorations futures.

Les agents basés sur des LLM, comme ToolLLM et LangChain, exploitent les compétences des LLM pour des tâches nécessitant des outils comme la navigation web et l'interprétation de code. Ces agents comptent sur les LLM pour créer des flux de travail efficaces. Pourtant, mesurer à quel point ces agents génèrent du code exécutable et utilisent des interpréteurs de code pose des problèmes, rendant difficile l'évaluation de leurs capacités.

Dans cette étude, on met l'accent sur l'évaluation des compétences des LLM à appliquer des interpréteurs de code pour résoudre des tâches en analyse de données, visualisation et apprentissage machine. Ces tâches nécessitent un suivi avancé des instructions, un raisonnement et des compétences en programmation.

Les benchmarks actuels, comme GSM8K et HumanEval, se concentrent principalement sur des tâches de maths ou de codage. Bien qu'utiles, ils ne capturent pas les compétences des LLM à développer des flux de travail complexes utilisant des interpréteurs de code dans des applications réelles.

Certaines récentes initiatives visent à combler cette lacune en créant de nouveaux benchmarks axés sur les maths et l'analyse de données. Cependant, beaucoup d'entre eux se concentrent sur des questions isolées ou offrent des aperçus limités sur la science des données.

Pour combler ces lacunes, on introduit un cadre d'évaluation détaillé avec un benchmark comportant une variété de tâches interconnectées et de méthodes d'évaluation. Ce benchmark utilise une approche coopérative LLM-humain unique, reflétant des flux de travail authentiques à l'aide de sessions IPython interactives et de questions connectées centrées sur des modules Python essentiels comme Matplotlib, Pandas et PyTorch. On utilise deux modes et un ensemble de métriques spécifiques pour divers résultats.

Caractéristiques de Notre Benchmark

Notre benchmark se compose de sessions interactives, d'une gamme de tâches sur différents modules Python et d'Évaluations approfondies. Le taux d'appel d'outil n'est pas inclus dans cet aperçu.

On a créé l'ensemble de données d'évaluation en identifiant d'abord dix bibliothèques Python largement utilisées en science des données. Ensuite, on a demandé à un LLM avancé de produire des instructions et du code au format Jupyter Notebook, structurant chaque notebook avec 10 à 15 étapes, de plus en plus complexes.

Pour minimiser les biais dans le contenu généré par les LLM, on a fait appel à des experts humains pour créer des tâches modèles basées sur des motifs communs observés dans le contenu généré par les LLM et les ressources en ligne. Ces tâches peuvent utiliser divers ensembles de données pour l'évaluation, garantissant diversité et qualité dans le benchmark.

Pour évaluer de manière complète la performance des LLM sur notre benchmark, on a établi deux modes d'évaluation : les modes de bout en bout et oracle.

Dans le mode de bout en bout, les LLM s'attaquent à un problème complet, suivant des instructions et générant du code, en affinant leur sortie en fonction des retours de l'interpréteur sur plusieurs questions connectées.

Le mode oracle simule un apprentissage guidé en fournissant au LLM le code correct lorsqu'il échoue. Ce retour aide le modèle à utiliser le bon exemple pour les tâches suivantes.

Métriques d'Évaluation

On introduit deux types de métriques : orientées processus (par exemple, taux d'appel d'outil, taux exécutable) et orientées résultat (par exemple, précision numérique, score de texte, score de visualisation). Ces métriques nous permettent d'analyser en profondeur la performance du modèle.

Avec notre cadre d'évaluation, on a analysé 19 LLM. Les résultats suggèrent que les LLM open-source ont du mal à travailler avec des bibliothèques comme PyTorch et TensorFlow, tandis que les meilleurs modèles open-source sont à 10 % derrière GPT-4.

Résumé des Contributions

On a établi un nouveau benchmark pour les agents utilisant des interpréteurs de code, en utilisant une approche coopérative LLM-humain avec des sessions interactives qui simulent la résolution de problèmes dans le monde réel.
On a développé des stratégies d'évaluation uniques incorporant des modes de bout en bout et oracle, ainsi que plusieurs métriques d'évaluation pour mesurer les capacités de codage des LLM.
Nos expériences avec 24 LLM ont montré que les modèles open-source sont significativement en retard par rapport à GPT-4, surtout pour les tâches de modélisation.

Travaux Connexes

Plusieurs cadres existent pour évaluer les capacités des LLM à invoquer des interpréteurs de code. Beaucoup de benchmarks évaluent le raisonnement, le codage et l'utilisation d'outils. Pourtant, aucun ne mesure efficacement les capacités des LLM dans des tâches de science des données, où le suivi des instructions et le codage sont essentiels.

CIBench vise à combler cette lacune en simulant de vrais flux de travail en science des données à travers des sessions IPython interactives et en se concentrant sur des modules Python largement utilisés. Nos modes et métriques d'évaluation permettent une vue holistique de la performance des LLM.

Analyse des Erreurs et Autres Perspectives

En analysant la performance des LLM, on a identifié des types d'erreurs courants, comme des erreurs de suivi des instructions, des erreurs d'hallucination, des erreurs de raisonnement et des erreurs de code de base. Cela met en évidence des limitations dans les capacités des LLM, soulignant des domaines à développer à l'avenir.

On a aussi observé qu'augmenter les essais pendant les évaluations améliorait la performance du modèle. Cela indique que les LLM peuvent apprendre des retours, renforçant leurs compétences en débogage.

Conclusion

On propose un benchmark, CIBench, pour évaluer l'utilisation par les LLM d'interpréteurs de code dans des tâches de science des données. Notre cadre d'évaluation complet simule des scénarios réels et met en lumière des domaines pour des améliorations futures des modèles.

Les insights recueillis de notre analyse suggèrent des directions pour améliorer les capacités des LLM, comme perfectionner la correction d'erreurs, renforcer la compréhension des interactions multi-tours et améliorer les compétences en raisonnement.

Évaluer les LLM en utilisant des interprètes de code pour des tâches de science des données

Caractéristiques de Notre Benchmark

Métriques d'Évaluation

Résumé des Contributions

Travaux Connexes

Analyse des Erreurs et Autres Perspectives

Conclusion

Liens de référence

Sujets référencés

Plus d'auteurs

Articles similaires

Évaluer les LLM en utilisant des interprètes de code pour des tâches de science des données

#Caractéristiques de Notre Benchmark

#Métriques d'Évaluation

#Résumé des Contributions

#Travaux Connexes

#Analyse des Erreurs et Autres Perspectives

#Conclusion

Liens de référence

Sujets référencés

Plus d'auteurs

Articles similaires

Caractéristiques de Notre Benchmark

Métriques d'Évaluation

Résumé des Contributions

Travaux Connexes

Analyse des Erreurs et Autres Perspectives

Conclusion