Simple Science

Cutting edge science explained simply

Cutting edge science explained simply

Jiacai Liu

Optimization and Control Optimizing Strategies in Reinforcement Learning

An overview of policy gradient methods in reinforcement learning.

2025-08-06T14:34:38+00:00 ― 5 min read

Artificial Intelligence Advancing AI with Direct Advantage Policy Optimization

Learn how DAPO enhances language models for better reasoning and performance.

2025-01-27T03:55:21+00:00 ― 7 min read