Zhouhong Gu

Um novo conjunto de dados testa a capacidade da IA de raciocinar em situações da vida real.

2025-10-21T15:11:00+00:00 ― 7 min ler

Este estudo fala sobre os desafios de editar modelos de linguagem e de mitigar efeitos indesejados.

2025-08-30T04:11:12+00:00 ― 7 min ler

Essa abordagem melhora a extração de dados de páginas da web usando regras estruturadas.

2025-08-18T01:59:36+00:00 ― 6 min ler

Um novo teste de referência avalia as habilidades dos LLMs com formatos de dados estruturados.

2025-07-28T12:22:30+00:00 ― 7 min ler

O VCEval oferece uma maneira automatizada de avaliar a eficácia de cursos online.

2025-07-28T10:39:48+00:00 ― 6 min ler

O DetectBench avalia LLMs pela capacidade de detectar evidências ocultas em tarefas de raciocínio.

2025-07-27T05:02:18+00:00 ― 6 min ler

Um método novo melhora a detecção e explicação de notícias falsas.

2025-06-17T17:10:12+00:00 ― 8 min ler