Quentin Anthony

Um método pra melhorar a eficiência em modelos de Mistura de Especialistas.

2025-09-16T16:43:48+00:00 ― 6 min ler

Aprenda como melhorar a eficiência do modelo transformer com um design amigável para GPU.

2025-09-14T12:03:48+00:00 ― 6 min ler

BlackMamba combina modelos de espaço de estado e mistura de especialistas pra tarefas de linguagem de forma eficiente.

2025-09-12T17:55:48+00:00 ― 8 min ler

Analisando os modelos GPT-NeoX e LLaMA para aplicações em ciência dos materiais.

2025-09-12T12:08:12+00:00 ― 8 min ler

Zamba é um modelo de linguagem híbrido que combina arquiteturas de espaço de estados e transformadores.

2025-08-06T22:42:36+00:00 ― 7 min ler

Zyda, um conjunto de dados com 1,3 trilhão de tokens, melhora o treinamento de modelos de linguagem.

2025-08-02T07:50:48+00:00 ― 7 min ler

A Atenção em Árvore melhora a eficiência no processamento de sequências longas para modelos de aprendizado de máquina.

2025-07-01T04:01:00+00:00 ― 6 min ler

Um estudo sobre como melhorar o compartilhamento de dados no treinamento de modelos transformer.

2025-06-25T22:08:36+00:00 ― 5 min ler

Novas técnicas de compressão aceleram o treinamento de modelos de linguagem grandes sem perder a precisão.

2025-06-16T23:07:54+00:00 ― 6 min ler

Os conjuntos de dados RedPajama têm como objetivo melhorar o treinamento de modelos de linguagem através de transparência e dados de qualidade.

2025-05-17T21:13:20+00:00 ― 6 min ler