Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Avanço na Antecipação de Ações em Vídeos em Primeira Pessoa

Novo método melhora a previsão de ações ao focar nas interações entre objetos.

― 6 min ler


Próximo Aumento dePróximo Aumento dePrevisão de Objeto Ativoações e objetos.O modelo GANO melhora a antecipação de
Índice

A antecipação de ações de curto prazo em vídeos que mostram vistas em primeira pessoa é sobre prever quais ações uma pessoa pode realizar em breve, além de identificar os objetos envolvidos e estimar quando a pessoa vai interagir com esses objetos. Essa tarefa é complicada por causa de fatores como o movimento da câmera, coisas bloqueando a visão e a natureza rápida desses ambientes. Existem muitas possíveis aplicações para essa tecnologia, especialmente em áreas como realidade aumentada, onde uma câmera é usada por alguém e captura suas ações em tempo real.

O campo da visão computacional fez avanços importantes em prever ações nesses vídeos em primeira pessoa, mas a maioria dos métodos focou em identificar rótulos de ações sem considerar os objetos relacionados a essas ações. Este artigo apresenta uma nova maneira de melhorar a antecipação de ações, focando nos objetos que vão estar ativos em seguida.

Importância dos Próximos Objetos Ativos

Os próximos objetos ativos são fundamentais para descobrir o que uma pessoa vai fazer a seguir em um vídeo. Esses objetos dão um contexto essencial, mostrando quais itens provavelmente vão estar envolvidos nas próximas ações. Por exemplo, se uma pessoa estica a mão para pegar uma xícara, essa xícara é o próximo objeto ativo. Saber disso ajuda a fazer previsões precisas sobre o que a pessoa provavelmente vai fazer a seguir.

Nosso método proposto se concentra em como usar atenção guiada para vincular as características dos objetos em movimento e os objetos em si. Essa combinação ajuda a entender melhor os movimentos e interações em vídeos em primeira pessoa. O método que apresentamos é chamado de Atenção Guiada para Próximos Objetos Ativos (GANO).

Método Proposto: GANO

O modelo GANO é projetado para prever quais objetos serão os próximos ativos, quais ações serão realizadas e quando essas ações vão acontecer. Ele usa uma rede baseada em transformers que combina informações de vídeos e detecções de objetos.

Extração de Características

Para extrair características de um vídeo, identificamos dois tipos principais:

  1. Características de Patch são coletadas usando uma camada de convolução 3D. Essa técnica condensa clipes de vídeo em segmentos gerenciáveis.
  2. Características de Objetos vêm de um detector de objetos que identifica e localiza objetos em cada quadro do vídeo.

Essas características são então combinadas usando o mecanismo de atenção guiada, que melhora a capacidade do modelo de se concentrar em elementos importantes no vídeo.

Atenção guiada por objetos

Para entender os clipes de vídeo e as detecções de objetos, usamos um mecanismo de atenção que permite ao modelo focar em informações relevantes. Isso é feito permitindo que as características dos objetos e os segmentos de vídeo influenciem um ao outro, levando a previsões melhores sobre ações e interações futuras.

Arquitetura Transformer

O modelo transformer processa as características atendidas e as consultas de objetos para prever ações futuras e os próximos objetos ativos. Ele usa várias camadas de atenção para garantir que capture as relações entre objetos e ações ao longo do tempo.

Treinamento do Modelo

Para treinar o GANO, usamos dois tipos de perdas:

  1. Perda de Classificação para prever a próxima ação e o rótulo do próximo objeto ativo.
  2. Perda de Regressão para prever a caixa delimitadora do próximo objeto ativo e o tempo até o contato.

Essas perdas ajudam nosso modelo a aprender a fazer previsões precisas enquanto considera as relações entre diferentes tipos de previsões.

Resultados

Nosso conjunto experimental usou um grande dataset com vídeos em primeira pessoa chamado Ego4D. Esse dataset inclui milhares de horas de vídeo e fornece anotações que permitem treinar nosso modelo para prever ações futuras e identificar objetos.

Quando testamos o GANO contra outros métodos de ponta, ele superou todos nas áreas medidas, incluindo prever classes, caixas delimitadoras, ações e tempo até o contato do próximo objeto ativo. Os resultados mostram que nosso mecanismo de atenção guiada melhora significativamente o desempenho da antecipação de ações em comparação com outros métodos de combinação de características.

Avaliação Comparativa

Nas nossas avaliações, comparamos o GANO a vários métodos avançados de antecipação de ações. Todos os modelos foram treinados nas mesmas condições para garantir a justiça. Os resultados indicaram que o GANO consistentemente obteve um desempenho melhor em todas as métricas usadas para avaliação.

Além disso, realizamos um estudo de ablação para ver como o componente de atenção guiada afetou o desempenho do GANO. Quando removemos a atenção guiada e fundimos características de uma maneira mais simples, o desempenho caiu drasticamente, o que indica a importância do nosso método proposto.

Resultados Qualitativos

Também analisamos vários exemplos do nosso modelo para ver como ele prevê caixas delimitadoras e rótulos de classe para os próximos objetos ativos. O GANO mostrou um desempenho forte em identificar diferentes objetos e localizá-los corretamente em termos de suas caixas delimitadoras.

Direções Futuras

O objetivo dessa pesquisa é melhorar a maneira como prevemos ações em vídeos egocêntricos focando na relação entre objetos e ações. O GANO demonstra sucesso nessa área, mas ainda há trabalho a ser feito.

Pesquisas futuras podem explorar o uso do GANO para outras aplicações, como resumo de vídeo, onde o objetivo é condensar vídeos em formatos mais curtos enquanto mantém informações importantes, e analisar interações humano-máquina para melhorar como as máquinas entendem as ações humanas e respondem adequadamente.

Ao avançar nossa compreensão sobre a antecipação de ações de curto prazo e o papel dos objetos nesses processos, podemos criar tecnologias que estão mais cientes das ações e ambientes humanos, levando a aplicações mais inteligentes na vida cotidiana.

Conclusão

Este estudo introduz uma abordagem nova para a antecipação de ações de curto prazo em vídeos em primeira pessoa, enfatizando a importância dos próximos objetos ativos e usando um mecanismo de atenção guiada. Os resultados mostram que nosso método supera as técnicas existentes, demonstrando a eficácia de combinar características de clipes de vídeo e objetos. À medida que continuamos a investigar essa área, podemos esperar avanços adicionais que podem levar a aplicações práticas em vários domínios, melhorando como a tecnologia interage e entende o comportamento humano.

Fonte original

Título: Enhancing Next Active Object-based Egocentric Action Anticipation with Guided Attention

Resumo: Short-term action anticipation (STA) in first-person videos is a challenging task that involves understanding the next active object interactions and predicting future actions. Existing action anticipation methods have primarily focused on utilizing features extracted from video clips, but often overlooked the importance of objects and their interactions. To this end, we propose a novel approach that applies a guided attention mechanism between the objects, and the spatiotemporal features extracted from video clips, enhancing the motion and contextual information, and further decoding the object-centric and motion-centric information to address the problem of STA in egocentric videos. Our method, GANO (Guided Attention for Next active Objects) is a multi-modal, end-to-end, single transformer-based network. The experimental results performed on the largest egocentric dataset demonstrate that GANO outperforms the existing state-of-the-art methods for the prediction of the next active object label, its bounding box location, the corresponding future action, and the time to contact the object. The ablation study shows the positive contribution of the guided attention mechanism compared to other fusion methods. Moreover, it is possible to improve the next active object location and class label prediction results of GANO by just appending the learnable object tokens with the region of interest embeddings.

Autores: Sanket Thakur, Cigdem Beyan, Pietro Morerio, Vittorio Murino, Alessio Del Bue

Última atualização: 2023-06-23 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2305.12953

Fonte PDF: https://arxiv.org/pdf/2305.12953

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes