Eric Malmi

Une nouvelle méthode pour générer des données de préférence synthétiques améliore les modèles de récompense dans l'apprentissage par renforcement.

2025-09-15T07:33:00+00:00 ― 7 min lire