Yushun Zhang

Este artículo explora los desafíos de optimización en Transformers y la efectividad de Adam sobre SGD.

2025-09-03T21:48:54+00:00 ― 7 minilectura

Adam-mini reduce el uso de memoria para entrenar modelos de lenguaje grandes sin sacrificar el rendimiento.

2025-07-24T23:19:06+00:00 ― 7 minilectura

MoFO ayuda a los modelos de lenguaje grandes a retener conocimiento durante el ajuste fino sin perder rendimiento.

2025-07-05T01:30:00+00:00 ― 6 minilectura

Descubre el rendimiento de algoritmos eficientes bajo límites de tiempo estrictos.

2025-01-20T09:15:40+00:00 ― 8 minilectura