Desafio AIM 2024: Previsão de Saliencia em Vídeo
Times competem pra melhorar os métodos de previsão de atenção em vídeos.
Andrey Moskalenko, Alexey Bryncev, Dmitry Vatolin, Radu Timofte, Gen Zhan, Li Yang, Yunlong Tang, Yiting Liao, Jiongzhi Lin, Baitao Huang, Morteza Moradi, Mohammad Moradi, Francesco Rundo, Concetto Spampinato, Ali Borji, Simone Palazzo, Yuxin Zhu, Yinan Sun, Huiyu Duan, Yuqin Cao, Ziheng Jia, Qiang Hu, Xiongkuo Min, Guangtao Zhai, Hao Fang, Runmin Cong, Xiankai Lu, Xiaofei Zhou, Wei Zhang, Chunyu Zhao, Wentao Mu, Tao Deng, Hamed R. Tavakoli
― 6 min ler
Índice
O Desafio de Previsão de Saliência em Vídeos AIM 2024 teve como objetivo criar métodos que preveem quais partes do conteúdo em vídeo atraem a atenção das pessoas. Esses métodos são úteis em várias áreas, como Compressão de Vídeo, avaliação da qualidade do vídeo e entendimento de como as pessoas percebem imagens.
No centro desse desafio estava um novo conjunto de dados chamado AViMoS. Esse dataset contém 1500 vídeos, cada um com observações de mais de 70 pessoas, coletadas usando rastreamento de mouse. Essa abordagem foi verificada com dados de rastreamento ocular para garantir a confiabilidade. Mais de 30 equipes se inscreveram, e sete equipes enviaram seus resultados na rodada final. As soluções foram avaliadas usando medidas de qualidade padrão em um conjunto de teste separado.
O que é Previsão de Saliência?
Previsão de saliência é sobre replicar como o olho humano se move por uma cena visual. O objetivo é criar mapas mostrando onde uma pessoa provavelmente irá olhar, destacando áreas de interesse dentro de uma cena complexa. Mapas precisos podem ajudar em várias tarefas, como compressão de vídeo ou análise de como as pessoas respondem ao conteúdo visual.
Métodos de Previsão de Saliência
Os primeiros métodos de previsão de saliência dependiam de características visuais básicas, como cor e contraste. Essas técnicas usavam estatísticas de cenas naturais para criar mapas de saliência. Na previsão de saliência em vídeos, alguns métodos também analisavam o movimento das imagens ao longo do tempo para melhorar os resultados.
Recentemente, o Aprendizado Profundo melhorou significativamente a eficácia da previsão de saliência. Alguns desses métodos avançados também incluem dados de áudio para capturar melhor o que as pessoas acham envolvente nos vídeos.
Coleta de Dados de Saliência
Dados de rastreamento ocular são frequentemente usados para criar pontos de referência para a previsão de saliência. Em configurações experimentais, os espectadores assistem a vídeos enquanto um dispositivo rastreia para onde estão olhando. Os dados coletados ajudam a formar um mapa de saliência, combinando as fixações individuais em uma versão desfocada.
No entanto, coletar esses dados pode ser desafiador. Um número vasto de espectadores e conteúdo variado é necessário para tornar os conjuntos de dados representativos. Para resolver isso, os pesquisadores passaram a usar rastreamento de mouse para a coleta de dados, oferecendo uma solução mais escalável. Para o desafio atual, a metodologia incluía pedir aos participantes que se concentrassem nos vídeos enquanto os movimentos do mouse eram rastreados.
Fontes de Dados do Desafio
Os dados para o desafio vieram de duas fontes principais. A primeira foi uma seleção de 246 vídeos do conjunto de dados YouTube-UGC. O segundo conjunto incluiu 1254 vídeos de alta qualidade obtidos do Vimeo. Os vídeos foram escolhidos com base em critérios específicos, garantindo que fossem de alta qualidade e adequados para o desafio.
Depois de selecionados, os vídeos foram processados para garantir que atendiam aos padrões de qualidade necessários para o desafio. Isso incluía ajustar a resolução do vídeo e a qualidade do áudio. Os participantes então assistiram a clipes curtos desses vídeos enquanto seus movimentos de mouse eram monitorados para coletar dados de saliência.
Processo de Coleta de Dados de Saliência
A equipe utilizou métodos estabelecidos para coletar dados de saliência. Cada participante viu uma tela desfocada com uma área clara ao redor do cursor. Essa configuração incentivou-os a concentrar o mouse em áreas de interesse.
Os participantes foram avaliados quanto à resolução de seus equipamentos e testados para verificar sua capacidade de reagir rapidamente. Cada participante assistiu a uma seleção aleatória de vídeos, incluindo alguns vídeos de validação que foram usados para avaliar a confiabilidade dos dados coletados.
Para manter o engajamento, os participantes avaliaram cada vídeo que assistiram. Após todas as interações, os dados coletados foram refinados para garantir que coincidissem de perto com os dados obtidos de estudos de rastreamento ocular.
Resultados do Desafio
Os resultados do desafio destacaram o desempenho de várias equipes. Os métodos das equipes foram avaliados com base em várias métricas, incluindo a medição de quão de perto suas previsões correspondiam aos dados estabelecidos.
Os melhores métodos utilizaram arquiteturas modernas, muitas vezes baseadas em modelos Transformer. Por exemplo, a equipe em primeiro lugar usou um modelo específico que integrou características de diferentes resoluções de vídeo. Outras equipes também exploraram modelos de dupla ramificação que processavam informações de quadros de alta e baixa resolução.
Visão Geral das Soluções das Equipes
Equipe em Primeiro Lugar: Essa equipe propôs um novo modelo baseado em uma rede de aprendizado profundo que processa sequencialmente os dados de vídeo para gerar mapas de saliência precisos.
Equipe em Segundo Lugar: Essa equipe desenvolveu uma arquitetura única que reunia detalhes de contextos de vídeo de alta e baixa resolução. Eles integraram informações de forma eficaz para melhorar a precisão.
Equipe em Terceiro Lugar: Essa equipe utilizou múltiplas ramificações de decodificação para focar em diferentes partes da informação que contribuem para como as pessoas veem o conteúdo em vídeo.
Equipes Adicionais: Outras equipes também incorporaram dados de áudio junto com informações visuais para aprimorar seus métodos de previsão de saliência. Cada equipe tinha sua abordagem e arquitetura únicas adaptadas para enfrentar o desafio.
Conclusão
O Desafio de Previsão de Saliência em Vídeos AIM 2024 mostrou desenvolvimentos avançados na previsão de saliência em vídeos. Apesar do progresso significativo, a tarefa continua complexa e competitiva, com muitas soluções inovadoras sendo oferecidas.
O uso do conjunto de dados AViMoS e a colaboração entre as equipes ajudaram a destacar a importância de dados confiáveis no desenvolvimento de métodos eficazes de previsão de saliência. Essa área de pesquisa continua a evoluir, com potencial para novas aplicações em mídia e psicologia que poderiam se beneficiar de uma compreensão mais profunda de como os espectadores interagem com o conteúdo em vídeo.
Título: AIM 2024 Challenge on Video Saliency Prediction: Methods and Results
Resumo: This paper reviews the Challenge on Video Saliency Prediction at AIM 2024. The goal of the participants was to develop a method for predicting accurate saliency maps for the provided set of video sequences. Saliency maps are widely exploited in various applications, including video compression, quality assessment, visual perception studies, the advertising industry, etc. For this competition, a previously unused large-scale audio-visual mouse saliency (AViMoS) dataset of 1500 videos with more than 70 observers per video was collected using crowdsourced mouse tracking. The dataset collection methodology has been validated using conventional eye-tracking data and has shown high consistency. Over 30 teams registered in the challenge, and there are 7 teams that submitted the results in the final phase. The final phase solutions were tested and ranked by commonly used quality metrics on a private test subset. The results of this evaluation and the descriptions of the solutions are presented in this report. All data, including the private test subset, is made publicly available on the challenge homepage - https://challenges.videoprocessing.ai/challenges/video-saliency-prediction.html.
Autores: Andrey Moskalenko, Alexey Bryncev, Dmitry Vatolin, Radu Timofte, Gen Zhan, Li Yang, Yunlong Tang, Yiting Liao, Jiongzhi Lin, Baitao Huang, Morteza Moradi, Mohammad Moradi, Francesco Rundo, Concetto Spampinato, Ali Borji, Simone Palazzo, Yuxin Zhu, Yinan Sun, Huiyu Duan, Yuqin Cao, Ziheng Jia, Qiang Hu, Xiongkuo Min, Guangtao Zhai, Hao Fang, Runmin Cong, Xiankai Lu, Xiaofei Zhou, Wei Zhang, Chunyu Zhao, Wentao Mu, Tao Deng, Hamed R. Tavakoli
Última atualização: 2024-09-23 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2409.14827
Fonte PDF: https://arxiv.org/pdf/2409.14827
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.