Muhammad Ferjad Naeem

ProText melhora modelos de visão-linguagem usando dados só de texto pra lidar melhor com as tarefas.

2025-09-18T23:22:18+00:00 ― 7 min ler

O FocusCLIP melhora o reconhecimento de ações humanas usando mapas de calor e descrições em texto.

2025-08-30T15:06:54+00:00 ― 7 min ler

Avaliando as capacidades e desafios dos modelos avançados de entendimento de vídeo.

2025-08-13T12:42:36+00:00 ― 7 min ler

Uma nova abordagem baseada em difusão lida com várias tarefas de visão computacional de forma eficaz.

2025-07-22T13:31:00+00:00 ― 6 min ler