Un nuevo enfoque para entrenar modelos de recompensa que se alinean con las preferencias humanas.
― 7 minilectura
Ciencia de vanguardia explicada de forma sencilla
Un nuevo enfoque para entrenar modelos de recompensa que se alinean con las preferencias humanas.
― 7 minilectura