Cet article examine des méthodes pour évaluer la variance dans les benchmarks d'évaluation des modèles de langue.
― 10 min lire
La science de pointe expliquée simplement
Cet article examine des méthodes pour évaluer la variance dans les benchmarks d'évaluation des modèles de langue.
― 10 min lire
Une étude sur l'utilisation des LLMs pour juger d'autres LLMs et ses implications.
― 9 min lire
La contamination des données affecte la performance des modèles de langage et des méthodes d'évaluation.
― 7 min lire
Les tâches NLI sont-elles toujours pertinentes pour tester les grands modèles de langage ?
― 8 min lire