Utsav Singh

PIPER améliore l'apprentissage par renforcement en utilisant des retours basés sur les préférences pour gérer les récompenses rares.

2025-08-17T22:02:36+00:00 ― 8 min lire

LGR2 améliore la performance des tâches robotiques grâce à des instructions linguistiques et un apprentissage hiérarchique.

2025-07-31T10:25:18+00:00 ― 8 min lire

DIPPER optimise l'apprentissage des robots grâce aux retours humains, ce qui améliore la performance des tâches.

2025-07-28T05:00:06+00:00 ― 8 min lire

Une nouvelle méthode aide les robots à accomplir des tâches plus efficacement en décomposant les objectifs.

2025-06-01T13:48:24+00:00 ― 6 min lire