Gengyuan Zhang

Un estudio sobre la capacidad de los VLMs para identificar tiempo y lugar a partir de imágenes.

2025-10-21T03:20:00+00:00 ― 11 minilectura

Un nuevo modelo mejora la precisión de recuperación de videos con múltiples eventos.

2025-10-05T17:44:42+00:00 ― 7 minilectura

Este artículo habla de un nuevo estándar para combinar imágenes y texto para encontrar eventos en videos.

2025-07-28T20:24:24+00:00 ― 10 minilectura

Este artículo habla sobre problemas de seguridad en los modelos de texto a imagen y propone soluciones.

2025-06-04T12:22:48+00:00 ― 8 minilectura