Leyang Xue

Um novo sistema reduz a latência em modelos de Mistura de Especialistas enquanto controla os custos de memória.

2025-09-14T10:36:54+00:00 ― 5 min ler

Um novo sistema melhora a velocidade dos modelos de linguagem em várias aplicações.

2025-09-14T10:13:12+00:00 ― 7 min ler

Como a arquitetura Mixture-of-Experts melhora a performance em modelos de linguagem.

2025-03-31T03:49:57+00:00 ― 8 min ler