Tian Ding

This article explores optimization challenges in Transformers and the effectiveness of Adam over SGD.

2025-09-03T21:48:54+00:00 ― 6 min read

Adam-mini reduces memory usage for training large language models while maintaining performance.

2025-07-24T23:19:06+00:00 ― 6 min read

A new approach to efficiently solve large-scale linear programming problems.

2025-07-20T19:42:52+00:00 ― 4 min read

MoFO helps large language models retain knowledge during fine-tuning without losing performance.

2025-07-05T01:30:00+00:00 ― 5 min read

Learn how PDQP-Net speeds up solving Convex Quadratic Programs.

2025-04-15T23:07:10+00:00 ― 6 min read