Shanghaoran Quan

Une méthode pour générer des données d'entraînement de qualité pour le fine-tuning des modèles de langage.

2025-08-06T19:33:00+00:00 ― 9 min lire

Explorer comment l'apprentissage des préférences améliore l'alignement des modèles de langage avec les attentes humaines.

2025-06-17T05:58:42+00:00 ― 11 min lire