Alizée Pace

Un nuovo metodo per generare dati di preferenza sintetici migliora i modelli di ricompensa nell'apprendimento per rinforzo.

2025-09-15T07:33:00+00:00 ― 5 leggere min

Un nuovo algoritmo combina l'apprendimento per rinforzo offline e il feedback delle preferenze per migliorare il processo decisionale.

2025-07-23T23:37:06+00:00 ― 10 leggere min