Pierre Ablin

Analyzing the cost and efficiency of large language models in various tasks.

2025-09-12T16:52:36+00:00 ― 6 min read

This article discusses strategies to enhance hypergradient estimation in bilevel programming.

2025-09-04T02:49:06+00:00 ― 7 min read

AdEMAMix improves training efficiency by balancing recent and past gradients.

2025-06-09T23:48:12+00:00 ― 5 min read