Qingye Meng

A Atenção Multi-Cabeça Componível de Forma Dinâmica melhora a eficiência e flexibilidade do Transformer.

2025-08-11T00:56:00+00:00 ― 9 min ler

Explorando como modelos de linguagem lidam com tarefas de raciocínio através da Recordação Associativa Generalizada.

2025-02-23T17:59:06+00:00 ― 8 min ler