Yushun Zhang

Quest'articolo esplora le sfide di ottimizzazione nei Transformers e quanto sia efficace Adam rispetto a SGD.

2025-09-03T21:48:54+00:00 ― 6 leggere min

Adam-mini riduce l'uso della memoria per l'allenamento di grandi modelli di linguaggio mantenendo le prestazioni.

2025-07-24T23:19:06+00:00 ― 6 leggere min

MoFO aiuta i grandi modelli di linguaggio a mantenere la conoscenza durante il fine-tuning senza perdere prestazioni.

2025-07-05T01:30:00+00:00 ― 5 leggere min

Scopri come le prestazioni degli algoritmi possono essere efficienti sotto limiti di tempo rigorosi.

2025-01-20T09:15:40+00:00 ― 7 leggere min