Alekh Agarwal

Une nouvelle méthode améliore l'apprentissage en utilisant des retours humains grâce à l'auto-jouabilité.

2025-09-18T06:54:48+00:00 ― 7 min lire

Une nouvelle méthode améliore la compilation des programmes, produisant des fichiers de sortie plus petits en utilisant des données passées.

2025-08-24T15:51:42+00:00 ― 8 min lire

Une nouvelle méthode améliore les modèles de langue en se concentrant sur les préférences des utilisateurs.

2025-08-05T06:25:12+00:00 ― 8 min lire

Présentation d'un cadre pour affiner les modèles de langue afin d'équilibrer plusieurs objectifs.

2025-07-09T01:44:54+00:00 ― 7 min lire

Enseigner aux machines à apprendre sans révéler les secrets d'experts, c'est super important pour la vie privée.

2025-05-20T22:00:18+00:00 ― 7 min lire