Um novo conjunto de dados testa a capacidade da IA de raciocinar em situações da vida real.
― 7 min ler
Ciência de ponta explicada de forma simples
Um novo conjunto de dados testa a capacidade da IA de raciocinar em situações da vida real.
― 7 min ler
O DetectBench avalia LLMs pela capacidade de detectar evidências ocultas em tarefas de raciocínio.
― 6 min ler