MathBench evalúa las habilidades matemáticas de los LLM en diferentes etapas educativas.
― 6 minilectura
Ciencia de vanguardia explicada de forma sencilla
MathBench evalúa las habilidades matemáticas de los LLM en diferentes etapas educativas.
― 6 minilectura
DiveR-CT mejora el equipo rojo automatizado para mejores evaluaciones de seguridad.
― 8 minilectura
Un nuevo enfoque mejora los modelos Transformer para procesar mejor textos largos.
― 7 minilectura
Nuevo estándar evalúa cómo los modelos de lenguaje en video manejan las imprecisiones de manera efectiva.
― 8 minilectura
Un nuevo método ayuda a los robots a navegar y orientarse correctamente para las tareas.
― 8 minilectura
Este método mejora el razonamiento visual al implementar verificación en cada paso del razonamiento.
― 8 minilectura
Un marco que usa tokens de memoria mejora la comprensión y la interacción con videos.
― 8 minilectura