Jiafei Lyu

SEABO génère des récompenses à partir de données d'experts, simplifiant l'apprentissage par imitation hors ligne.

2025-09-10T14:58:30+00:00 ― 7 min lire

Cet article parle des défis et des solutions pour améliorer la performance de l'apprentissage par renforcement visuel.

2025-09-05T23:46:56+00:00 ― 9 min lire

Une nouvelle méthode améliore l'adaptabilité de l'IA dans différents environnements.

2025-08-07T12:55:48+00:00 ― 8 min lire

DLLM combine l'apprentissage par renforcement avec des modèles de langue pour de meilleures performances sur les tâches.

2025-07-30T11:46:30+00:00 ― 8 min lire

SUMO améliore la prise de décision dans l'apprentissage par renforcement hors ligne en améliorant l'estimation de l'incertitude.

2025-06-23T02:28:00+00:00 ― 8 min lire