Um método pra melhorar a eficiência em modelos de Mistura de Especialistas.
― 6 min ler
Ciência de ponta explicada de forma simples
Um método pra melhorar a eficiência em modelos de Mistura de Especialistas.
― 6 min ler
Aprenda como melhorar a eficiência do modelo transformer com um design amigável para GPU.
― 6 min ler
BlackMamba combina modelos de espaço de estado e mistura de especialistas pra tarefas de linguagem de forma eficiente.
― 8 min ler
Analisando os modelos GPT-NeoX e LLaMA para aplicações em ciência dos materiais.
― 8 min ler
Zamba é um modelo de linguagem híbrido que combina arquiteturas de espaço de estados e transformadores.
― 7 min ler
Zyda, um conjunto de dados com 1,3 trilhão de tokens, melhora o treinamento de modelos de linguagem.
― 7 min ler
A Atenção em Árvore melhora a eficiência no processamento de sequências longas para modelos de aprendizado de máquina.
― 6 min ler
Um estudo sobre como melhorar o compartilhamento de dados no treinamento de modelos transformer.
― 5 min ler
Novas técnicas de compressão aceleram o treinamento de modelos de linguagem grandes sem perder a precisão.
― 6 min ler
Os conjuntos de dados RedPajama têm como objetivo melhorar o treinamento de modelos de linguagem através de transparência e dados de qualidade.
― 6 min ler