Quentin Anthony

Un método para mejorar la eficiencia en modelos de Mezcla de Expertos.

2025-09-16T16:43:48+00:00 ― 6 minilectura

Aprende cómo mejorar la eficiencia del modelo transformer con un diseño amigable para GPU.

2025-09-14T12:03:48+00:00 ― 6 minilectura

BlackMamba combina modelos de espacio de estado y mezclas de expertos para hacer tareas de lenguaje de manera eficiente.

2025-09-12T17:55:48+00:00 ― 8 minilectura

Analizando los modelos GPT-NeoX y LLaMA para aplicaciones en ciencia de materiales.

2025-09-12T12:08:12+00:00 ― 8 minilectura

Zamba es un modelo de lenguaje híbrido que combina arquitecturas de espacio de estados y transformadores.

2025-08-06T22:42:36+00:00 ― 7 minilectura

Zyda, un conjunto de datos con 1.3 billones de tokens, mejora el entrenamiento de modelos de lenguaje.

2025-08-02T07:50:48+00:00 ― 7 minilectura

Tree Attention mejora la eficiencia en el procesamiento de secuencias largas para modelos de aprendizaje automático.

2025-07-01T04:01:00+00:00 ― 6 minilectura

Un estudio sobre cómo mejorar el intercambio de datos en el entrenamiento de modelos de transformers.

2025-06-25T22:08:36+00:00 ― 5 minilectura

Nuevas técnicas de compresión aceleran el entrenamiento de modelos de lenguaje grandes sin perder precisión.

2025-06-16T23:07:54+00:00 ― 7 minilectura

Los datasets de RedPajama buscan mejorar el entrenamiento de modelos de lenguaje a través de la transparencia y datos de calidad.

2025-05-17T21:13:20+00:00 ― 6 minilectura