Congliang Chen

Quest'articolo esplora le sfide di ottimizzazione nei Transformers e quanto sia efficace Adam rispetto a SGD.

2025-09-03T21:48:54+00:00 ― 6 leggere min

Adam-mini riduce l'uso della memoria per l'allenamento di grandi modelli di linguaggio mantenendo le prestazioni.

2025-07-24T23:19:06+00:00 ― 6 leggere min

Un nuovo approccio migliora le risposte dei modelli linguistici e riduce l'overfitting.

2025-06-20T07:19:00+00:00 ― 6 leggere min

Uno sguardo ai metodi di ottimizzazione bilivello e al loro impatto sui modelli di machine learning.

2025-04-25T03:43:30+00:00 ― 5 leggere min