Shanghaoran Quan

Un metodo per generare dati di addestramento di qualità per il fine-tuning dei modelli di linguaggio.

2025-08-06T19:33:00+00:00 ― 7 leggere min

Esplorare come l'apprendimento delle preferenze migliora l'allineamento dei modelli linguistici con le aspettative umane.

2025-06-17T05:58:42+00:00 ― 8 leggere min