Tian Ding

Quest'articolo esplora le sfide di ottimizzazione nei Transformers e quanto sia efficace Adam rispetto a SGD.

2025-09-03T21:48:54+00:00 ― 6 leggere min

Adam-mini riduce l'uso della memoria per l'allenamento di grandi modelli di linguaggio mantenendo le prestazioni.

2025-07-24T23:19:06+00:00 ― 6 leggere min

Un nuovo metodo per risolvere in modo efficiente problemi di programmazione lineare su larga scala.

2025-07-20T19:42:52+00:00 ― 5 leggere min

MoFO aiuta i grandi modelli di linguaggio a mantenere la conoscenza durante il fine-tuning senza perdere prestazioni.

2025-07-05T01:30:00+00:00 ― 5 leggere min

Scopri come PDQP-Net accelera la risoluzione dei Programmi Quadratici Convessi.

2025-04-15T23:07:10+00:00 ― 6 leggere min