O MathBench avalia as habilidades matemáticas dos LLMs em diferentes estágios educacionais.
― 6 min ler
Ciência de ponta explicada de forma simples
O MathBench avalia as habilidades matemáticas dos LLMs em diferentes estágios educacionais.
― 6 min ler
O DiveR-CT melhora o red teaming automatizado pra avaliações de segurança mais eficazes.
― 8 min ler
Uma nova abordagem melhora os modelos Transformer para lidar melhor com textos longos.
― 7 min ler
Novo benchmark avalia como modelos de vídeo-linguagem lidam com imprecisões de forma eficaz.
― 8 min ler
Um novo método ajuda os robôs a navegar e se orientar direitinho para as tarefas.
― 8 min ler
Esse método melhora o raciocínio visual ao implementar uma verificação em cada etapa do raciocínio.
― 8 min ler
Uma estrutura que usa tokens de memória melhora a compreensão e interação com vídeos.
― 8 min ler