Dieuwke Hupkes

Cet article examine des méthodes pour évaluer la variance dans les benchmarks d'évaluation des modèles de langue.

2025-07-28T23:26:06+00:00 ― 10 min lire

Une étude sur l'utilisation des LLMs pour juger d'autres LLMs et ses implications.

2025-07-27T04:30:42+00:00 ― 9 min lire

La contamination des données affecte la performance des modèles de langage et des méthodes d'évaluation.

2025-05-29T09:48:09+00:00 ― 7 min lire

Les tâches NLI sont-elles toujours pertinentes pour tester les grands modèles de langage ?

2025-05-14T07:05:20+00:00 ― 8 min lire