MathBench évalue les capacités mathématiques des LLM à travers différentes étapes éducatives.
― 7 min lire
La science de pointe expliquée simplement
MathBench évalue les capacités mathématiques des LLM à travers différentes étapes éducatives.
― 7 min lire
DiveR-CT améliore le red teaming automatisé pour de meilleures évaluations de sécurité.
― 9 min lire
Une nouvelle approche améliore les modèles Transformer pour mieux traiter les longs textes.
― 7 min lire
Nouveau benchmark évalue comment les modèles vidéo-langue gèrent efficacement les inexactitudes.
― 8 min lire
Une nouvelle méthode aide les robots à naviguer et à s'orienter correctement pour les tâches.
― 8 min lire
Cette méthode améliore le raisonnement visuel en mettant en place une vérification à chaque étape du raisonnement.
― 9 min lire
Un cadre utilisant des jetons de mémoire améliore la compréhension et l'interaction vidéo.
― 9 min lire