Yushun Zhang

Cet article explore les défis d'optimisation dans les Transformers et l'efficacité d'Adam par rapport à SGD.

2025-09-03T21:48:54+00:00 ― 7 min lire

Adam-mini réduit l'utilisation de la mémoire pour entraîner de grands modèles de langage tout en gardant de bonnes performances.

2025-07-24T23:19:06+00:00 ― 7 min lire

MoFO aide les grands modèles de langage à garder leur savoir pendant le fine-tuning sans perdre en performance.

2025-07-05T01:30:00+00:00 ― 6 min lire

Découvrez la performance des algorithmes efficaces sous des délais serrés.

2025-01-20T09:15:40+00:00 ― 9 min lire