Arsha Nagrani

Uma nova abordagem melhora as tarefas de localização de vídeo usando modelos pré-treinados.

2025-10-06T08:21:36+00:00 ― 8 min ler

O AutoAD-Zero usa prompts visuais pra descrições de áudio mais rápidas e eficazes.

2025-07-09T04:15:00+00:00 ― 8 min ler

Um novo framework melhora a eficiência no processamento de dados visuais.

2025-07-05T12:25:42+00:00 ― 5 min ler

Uma visão geral dos avanços no reconhecimento de fala através do VoxCeleb Challenge.

2025-06-23T13:02:25+00:00 ― 5 min ler