Can Huang

Novo modelo melhora o rastreamento e reconhecimento de texto em conteúdo de vídeo.

2025-09-18T07:18:30+00:00 ― 5 min ler

Novo conjunto de dados Square-10M dá um baita upgrade nas capacidades de perguntas visuais em código aberto.

2025-08-18T02:31:12+00:00 ― 7 min ler

Apresentando um novo modelo que junta texto e layout de um jeito eficiente pra entender documentos melhor.

2025-07-20T12:48:00+00:00 ― 5 min ler

ParGo melhora a compreensão de imagens e textos ao equilibrar visões globais e parciais.

2025-06-23T01:16:54+00:00 ― 8 min ler

Uma nova abordagem melhora a análise de vídeos com sistemas de tokens dinâmicos.

2025-03-16T21:09:54+00:00 ― 10 min ler