O CinePile desafia a compreensão de vídeos longos com 305.000 perguntas diversas.
― 7 min ler
Ciência de ponta explicada de forma simples
O CinePile desafia a compreensão de vídeos longos com 305.000 perguntas diversas.
― 7 min ler
A BIMM aprende conteúdo em vídeo imitando os caminhos do cérebro humano.
― 7 min ler
O JOSENet melhora a detecção em tempo real de violência em filmagens de vigilância usando métodos avançados.
― 9 min ler
Um novo método melhora a estimativa de movimento usando malhas de elementos finitos adaptativas.
― 5 min ler
Um estudo sobre reconhecer ações usando aprendizagem com poucos exemplos e dados multimodais.
― 6 min ler
Novos métodos melhoram a compreensão das máquinas sobre interações dinâmicas em conteúdo de vídeo.
― 8 min ler
O benchmark MLVU tem o objetivo de melhorar a compreensão de máquinas sobre vídeos longos.
― 7 min ler
Um novo método melhora a precisão na detecção de ações em cenas de vídeo que se sobrepõem.
― 8 min ler
Uma nova abordagem para segmentação de objetos em vídeo melhora a precisão ao limitar o uso de memória.
― 9 min ler
Um novo padrão pretende avaliar MLLMs na compreensão de vídeos sobre vários temas.
― 7 min ler
Um novo modelo melhora a compreensão de vídeos ao juntar codificadores de imagem e vídeo.
― 9 min ler
VANE-Bench melhora a detecção de anomalias em vídeos no meio do aumento de conteúdo de IA.
― 7 min ler
Um novo conjunto de dados pra melhorar a compreensão das narrativas em curtas-metragens.
― 8 min ler
Um novo benchmark foca na composicionalidade na compreensão de vídeos e em modelos de linguagem.
― 7 min ler
Apresentando um método pra classificar vídeos rapidão com base na análise dos primeiros quadros.
― 6 min ler
A VideoVista oferece uma avaliação completa para modelos de perguntas e respostas em vídeo.
― 7 min ler
Um novo método melhora o reconhecimento de ações em vídeos usando linguagem contextual.
― 9 min ler
Uma nova abordagem melhora a previsão de quadros de vídeo usando conhecimento de domínio.
― 7 min ler
Pesquisas mostram como o vídeo ajuda a melhorar o reconhecimento de fala em ambientes barulhentos.
― 6 min ler
DeepMoveSORT melhora a eficiência do rastreamento de objetos, especialmente em cenários de movimento complexo.
― 5 min ler
Um novo método melhora a gestão de dados de vídeo pra uma compreensão e eficiência melhores.
― 6 min ler
Uma nova abordagem melhora a precisão nas respostas a perguntas baseadas em vídeo.
― 7 min ler
Um novo método melhora o rastreamento de objetos gerenciando a memória de forma eficiente.
― 7 min ler
O FeatureSORT melhora a precisão e a flexibilidade do rastreamento em ambientes dinâmicos.
― 8 min ler
O VideoEval estabelece um novo padrão para avaliar modelos de vídeo de forma eficaz.
― 7 min ler
Um novo método melhora a compreensão da IA sobre conteúdo de vídeo.
― 6 min ler
O TrCAM-V oferece uma nova maneira de localizar objetos em vídeos usando informações mínimas.
― 7 min ler
Um novo método melhora a segmentação de objetos em vídeos com dados pouco rotulados.
― 6 min ler
Usando vídeos sem rótulo pra melhorar o reconhecimento de ações em vídeos longos.
― 7 min ler
Usando a tecnologia NeRF pra recriar cenas de crime a partir de vídeos.
― 6 min ler
Combinar áudio e informação visual melhora o reconhecimento de objetos em vídeos.
― 7 min ler
Esse estudo propõe um método novo de avaliação pra entender vídeo e texto.
― 7 min ler
ActionSwitch detecta ações em vídeos ao vivo sem precisar de informações de classe anteriores.
― 5 min ler
O LookupViT melhora as tarefas de reconhecimento visual através de um processamento de tokens eficiente.
― 7 min ler
Uma nova abordagem melhora a compreensão de vídeos longos, enfrentando desafios importantes.
― 6 min ler
O VAR usa análise de vídeo pra ajudar os árbitros em todos os níveis do futebol.
― 6 min ler
Usando tecnologia pra melhorar procedimentos médicos de emergência e dar suporte aos socorristas.
― 7 min ler
Um novo método melhora a compreensão de vídeos ao separar características dinâmicas e estáticas.
― 6 min ler
Um conjunto de dados que oferece insights sobre as interações de pedestres em cenários de trânsito.
― 7 min ler
Um novo benchmark melhora a compreensão dos modelos sobre vídeos longos e linguagem.
― 6 min ler