Congliang Chen

Cet article explore les défis d'optimisation dans les Transformers et l'efficacité d'Adam par rapport à SGD.

2025-09-03T21:48:54+00:00 ― 7 min lire

Adam-mini réduit l'utilisation de la mémoire pour entraîner de grands modèles de langage tout en gardant de bonnes performances.

2025-07-24T23:19:06+00:00 ― 7 min lire

Une nouvelle approche améliore les réponses des modèles de langage et réduit le surapprentissage.

2025-06-20T07:19:00+00:00 ― 8 min lire

Un aperçu des méthodes d'optimisation bilatérales et de leur impact sur les modèles d'apprentissage automatique.

2025-04-25T03:43:30+00:00 ― 6 min lire