Alizée Pace

A new method for generating synthetic preference data enhances reward models in reinforcement learning.

2025-09-15T07:33:00+00:00 ― 5 min read

A new algorithm combines offline RL and preference feedback for improved decision-making.

2025-07-23T23:37:06+00:00 ― 9 min read