Deming Chen

Um novo método acelera a geração de texto em LLM usando cabeçotes de previsão adicionais.

2025-09-15T18:05:00+00:00 ― 5 min ler

Uma nova abordagem melhora o aprendizado federado ao lidar com clientes lentos de forma eficaz.

2025-09-13T01:18:12+00:00 ― 10 min ler

Um novo método reduz o tamanho do cache KV enquanto mantém um alto desempenho do modelo.

2025-08-17T07:17:48+00:00 ― 6 min ler

Esse artigo fala sobre as novidades recentes pra melhorar a eficiência em Modelos de Linguagem Grande.

2025-07-28T05:08:00+00:00 ― 7 min ler