Archit Sharma

Présentation de SERL : Un nouveau cadre pour des tâches d'apprentissage robotique efficaces.

2025-09-13T13:48:42+00:00 ― 8 min lire

Cet article parle d'une méthode pour améliorer les LLMs en utilisant des retours verbaux sans sur-généralisation.

2025-09-07T11:16:00+00:00 ― 13 min lire

Une étude sur l'efficacité de RLAIF par rapport à l'affinage supervisé pour les modèles de langue.

2025-09-06T15:07:18+00:00 ― 11 min lire

Les robots apprennent à s'adapter et à accomplir des tâches dans différents domaines.

2025-08-27T22:43:48+00:00 ― 9 min lire

Les robots apprennent à s'adapter et à s'améliorer en recevant des retours humains en temps réel.

2025-08-27T22:28:00+00:00 ― 8 min lire

Un nouveau cadre aide les modèles de langage à apprendre de leurs erreurs dans la résolution de problèmes.

2025-08-23T19:58:48+00:00 ― 10 min lire

Cette étude évalue des méthodes pour améliorer les grands modèles de langage en utilisant les données de préférence des utilisateurs.

2025-08-17T07:09:54+00:00 ― 7 min lire

Cet article examine les facteurs clés de la qualité des ensembles de données de préférence pour améliorer l'entraînement des modèles de récompense.

2025-06-12T06:17:36+00:00 ― 9 min lire

Découvrez comment l'apprentissage par renforcement agnostique aux politiques change la prise de décision des machines.

2025-03-29T14:06:54+00:00 ― 8 min lire