Kyungjae Lee

Présentation de RLRF : un cadre pour améliorer la performance des modèles de langue grâce à des retours détaillés.

2025-08-27T01:24:00+00:00 ― 8 min lire

Une nouvelle méthode renforce la sécurité dans l'apprentissage par renforcement grâce à la gestion des risques.

2025-08-06T01:14:54+00:00 ― 9 min lire

Cette étude examine l'utilisation de questions structurées pour améliorer les réponses des LLM.

2025-07-21T11:11:00+00:00 ― 5 min lire

Un aperçu de comment le RL distributionnel transforme la prise de décision en comprenant les distributions des résultats.

2025-06-24T05:55:32+00:00 ― 9 min lire