Jan Wehner

Une nouvelle méthode aide à comprendre les systèmes de récompense de l'IA grâce à une analyse contrefactuelle.

2025-09-10T04:58:06+00:00 ― 9 min lire

Cet article examine les dangers du réglage précis nuisible dans les modèles linguistiques.

2025-09-04T00:03:12+00:00 ― 10 min lire

Une étude présente RepNoise pour protéger les grands modèles de langage contre le fine-tuning nuisible.

2025-08-08T06:18:36+00:00 ― 8 min lire