Can Huang

Nuevo modelo mejora el seguimiento y reconocimiento de texto en contenido de video.

2025-09-18T07:18:30+00:00 ― 5 minilectura

El nuevo conjunto de datos Square-10M mejora significativamente las capacidades de respuesta a preguntas visuales de código abierto.

2025-08-18T02:31:12+00:00 ― 8 minilectura

Presentando un nuevo modelo que combina texto y diseño de manera eficiente para una mejor comprensión de documentos.

2025-07-20T12:48:00+00:00 ― 6 minilectura

ParGo mejora la comprensión de imágenes y texto al equilibrar vistas globales y parciales.

2025-06-23T01:16:54+00:00 ― 8 minilectura

Un nuevo enfoque mejora el análisis de video con sistemas de tokens dinámicos.

2025-03-16T21:09:54+00:00 ― 10 minilectura