Guiming Hardy Chen

La investigación revela sesgos significativos en las evaluaciones humanas y de LLM sobre las respuestas.

2025-09-07T05:12:36+00:00 ― 8 minilectura

Nuevos benchmarks revelan desafíos para los MLLMs en tareas del mundo real con contextos largos.

2025-08-15T10:16:00+00:00 ― 9 minilectura