Congliang Chen

Este artículo explora los desafíos de optimización en Transformers y la efectividad de Adam sobre SGD.

2025-09-03T21:48:54+00:00 ― 7 minilectura

Adam-mini reduce el uso de memoria para entrenar modelos de lenguaje grandes sin sacrificar el rendimiento.

2025-07-24T23:19:06+00:00 ― 7 minilectura

Un nuevo enfoque mejora las respuestas de los modelos de lenguaje y reduce el sobreajuste.

2025-06-20T07:19:00+00:00 ― 7 minilectura

Una mirada a los métodos de optimización bivalente y su impacto en los modelos de aprendizaje automático.

2025-04-25T03:43:30+00:00 ― 6 minilectura