Un nuevo método para generar datos de preferencia sintéticos mejora los modelos de recompensa en el aprendizaje por refuerzo.
― 6 minilectura
Ciencia de vanguardia explicada de forma sencilla
Un nuevo método para generar datos de preferencia sintéticos mejora los modelos de recompensa en el aprendizaje por refuerzo.
― 6 minilectura
Un nuevo algoritmo combina el RL offline y la retroalimentación de preferencias para mejorar la toma de decisiones.
― 12 minilectura