Rafael Rafailov

MOTO améliore l'apprentissage des robots en combinant l'entraînement hors ligne avec un ajustement en ligne.

2025-09-18T17:26:48+00:00 ― 7 min lire

Cette étude évalue des méthodes pour améliorer les grands modèles de langage en utilisant les données de préférence des utilisateurs.

2025-08-17T07:09:54+00:00 ― 7 min lire

Examiner la sur-optimisation dans les DAAs et son impact sur la performance des modèles.

2025-08-02T17:35:24+00:00 ― 10 min lire

Un nouveau modèle permet aux robots d'apprendre des tâches mieux en utilisant des entrées visuelles et linguistiques.

2025-07-29T08:31:12+00:00 ― 9 min lire

Une nouvelle méthode pour évaluer les valeurs diverses des utilisateurs dans les modèles de langage.

2025-07-07T16:18:18+00:00 ― 10 min lire