Zilong Zheng

MathBench evalúa las habilidades matemáticas de los LLM en diferentes etapas educativas.

2025-08-09T21:32:48+00:00 ― 6 minilectura

DiveR-CT mejora el equipo rojo automatizado para mejores evaluaciones de seguridad.

2025-08-05T02:44:00+00:00 ― 8 minilectura

Un nuevo enfoque mejora los modelos Transformer para procesar mejor textos largos.

2025-07-24T22:15:54+00:00 ― 7 minilectura

Nuevo estándar evalúa cómo los modelos de lenguaje en video manejan las imprecisiones de manera efectiva.

2025-07-24T17:47:18+00:00 ― 8 minilectura

Un nuevo método ayuda a los robots a navegar y orientarse correctamente para las tareas.

2025-07-14T07:05:42+00:00 ― 8 minilectura

Este método mejora el razonamiento visual al implementar verificación en cada paso del razonamiento.

2025-07-02T15:49:48+00:00 ― 8 minilectura

Un marco que usa tokens de memoria mejora la comprensión y la interacción con videos.

2025-06-18T08:10:48+00:00 ― 8 minilectura