Avanços em Reconhecimento de Atividades Humanas em Detalhes Finos
Este estudo melhora o reconhecimento de atividades usando modelos base e diferentes ângulos de câmera.
― 7 min ler
Índice
- Desafios nos Sistemas Atuais de Reconhecimento de Atividades
- O Papel dos Modelos Fundamentais
- Estrutura para o Reconhecimento de Atividades Humanas Detalhadas
- Trabalhos Anteriores em Modelos Fundamentais e Reconhecimento de Atividades
- A Importância da Fusão Temporal
- Conjuntos de Dados Usados no Estudo
- Métodos de Treinamento e Avaliação
- Resultados e Principais Descobertas
- Desempenho de Diferentes Modelos
- Efeito das Técnicas de Fusão Temporal
- Insights sobre Generalização entre Visões
- Conclusão
- Fonte original
O reconhecimento de atividades humanas detalhadas (HAR) se refere à capacidade de identificar ações muito específicas que as pessoas realizam, em vez de apenas categorias gerais como "comer" ou "jogar futebol". Essa habilidade é crucial para várias aplicações, como robôs ajudando em fábricas, monitorando motoristas em veículos ou analisando desempenhos esportivos. O foco aqui é reconhecer ações sutis como "abrindo uma garrafa" contra "fechando uma garrafa" ou "anexando um objeto" contra "alinhando-o".
Enquanto o HAR geral melhorou graças aos avanços em visão computacional, o HAR detalhado ficou para trás. As razões incluem a disponibilidade limitada de conjuntos de dados que capturam atividades detalhadas e os desafios em coletar dados de diferentes perspectivas. Os conjuntos de dados existentes frequentemente dependem de ângulos de câmera fixos, que não refletem cenários do mundo real, onde as câmeras podem ser posicionadas de várias maneiras.
Desafios nos Sistemas Atuais de Reconhecimento de Atividades
Os sistemas atuais de HAR costumam depender de benchmarks que vêm de plataformas como o YouTube. Esses incluem vários pontos de vista, mas normalmente cobrem apenas categorias de ação mais amplas. Como resultado, eles podem não ser adequados para aplicações que exigem uma compreensão mais profunda de atividades detalhadas. Além disso, quando um modelo treinado em ângulos de câmera fixos é então testado em vídeos com diferentes perspectivas, seu desempenho pode sofrer significativamente. Isso ressalta a necessidade de modelos mais robustos que possam se adaptar a mudanças nas visões da câmera.
O Papel dos Modelos Fundamentais
Os modelos fundamentais (FMs) são grandes redes neurais que são treinadas em conjuntos de dados extensos, permitindo que se destacam em muitas tarefas com ajustes mínimos. Esses modelos mostraram potencial em várias aplicações, incluindo HAR geral. No entanto, sua eficácia em HAR detalhado e na adaptação a novas perspectivas de câmera não foi amplamente pesquisada.
Este estudo tem como objetivo investigar como diferentes modelos fundamentais podem ajudar a melhorar o HAR detalhado, especialmente quando o ângulo da câmera muda. Também vamos olhar como vários designs de modelos afetam o desempenho nesta área.
Estrutura para o Reconhecimento de Atividades Humanas Detalhadas
Para abordar os desafios do HAR detalhado, propomos uma estrutura sistemática que usa modelos fundamentais. A estrutura envolve usar modelos pré-treinados como extratores de características enquanto os ajustamos para tarefas específicas. Focamos em dois tipos de modelos: modelos baseados em imagem e modelos baseados em vídeo.
Para modelos baseados em imagem, o processo começa alimentando cada quadro de um vídeo no modelo para obter representações de nível de quadro. Essas representações são então combinadas para criar uma representação unificada para o vídeo inteiro. Para modelos baseados em vídeo, extraímos representações diretamente do clipe de vídeo inteiro.
Finalmente, aplicamos uma sonda linear para classificar as atividades com base nessas representações, visando um reconhecimento preciso de ações detalhadas.
Trabalhos Anteriores em Modelos Fundamentais e Reconhecimento de Atividades
Modelos fundamentais foram estabelecidos como ferramentas poderosas em aprendizado de máquina, com foco em aplicações diversas. Alguns modelos notáveis incluem o CLIP, que alinha imagens e texto, e o DinoV2, que demonstra forte desempenho em tarefas de visão.
Apesar de seus sucessos, houve exploração limitada de suas capacidades em HAR detalhado, especialmente ao considerar a influência de diferentes perspectivas de câmera. Enquanto houve algum progresso no HAR geral, o foco em atividades detalhadas continua sendo uma área pouco explorada.
Fusão Temporal
A Importância daUma parte essencial da nossa análise gira em torno da fusão temporal-como os quadros de um vídeo podem ser combinados para criar uma representação significativa. Muitos métodos atuais usam técnicas simples, como a média das características em todos os quadros. No entanto, existem mecanismos mais avançados, como métodos baseados em atenção, que podem fornecer resultados superiores.
Exploramos uma variedade de abordagens de fusão temporal para ver como elas impactam o desempenho de modelos fundamentais baseados em imagem e vídeo. Nosso objetivo é descobrir quais métodos oferecem os melhores resultados para o HAR detalhado.
Conjuntos de Dados Usados no Estudo
Dois conjuntos de dados servem como casos de teste para nossa pesquisa:
Drive Act: Este conjunto de dados foca em atividades detalhadas de motoristas em carros autônomos. Inclui ações detalhadas capturadas de oito câmeras sincronizadas posicionadas em diferentes ângulos. Essa variedade o torna bem adequado para estudar quão bem os modelos se saem com perspectivas mutáveis.
IKEA-ASM: Este conjunto de dados contém vídeos de pessoas montando móveis. Inclui uma ampla gama de processos únicos e apresenta várias visões de câmera, proporcionando amplas oportunidades para avaliar a eficácia dos modelos em reconhecer ações detalhadas sob diferentes condições.
Métodos de Treinamento e Avaliação
Para o treinamento, usamos modelos pré-treinados disponíveis publicamente e mantivemos suas bases congeladas enquanto ajustávamos as camadas finais para as tarefas específicas. Aproveitando unidades de processamento gráfico (GPUs) avançadas, processamos os dados de forma eficiente e realizamos muitos experimentos.
Durante a avaliação, examinamos quão bem os modelos se saíram tanto nas visões de câmera usadas durante o treinamento quanto em visões não vistas. Focamos em métricas como precisão balanceada, precisão top-1 e precisão top-5 para avaliar a eficácia geral dos modelos.
Resultados e Principais Descobertas
Após conduzir extensos experimentos com os modelos fundamentais, várias observações importantes emergiram.
Desempenho de Diferentes Modelos
Dentre os modelos fundamentais testados, o DinoV2 demonstrou consistentemente o melhor desempenho em várias métricas. Modelos baseados em imagem, como CLIP e DinoV2, superaram modelos baseados em vídeo como X-CLIP e VideoMAE em muitos casos, especialmente quando as técnicas de fusão temporal corretas foram aplicadas.
Efeito das Técnicas de Fusão Temporal
A escolha do método de fusão temporal provou ser crítica. Por exemplo, max pooling-onde os valores de características mais altos em todos os quadros são utilizados-muitas vezes superou o método de average pooling, que é comumente usado. Além disso, métodos que utilizam técnicas de autoatenção tendem a gerar resultados superiores, especialmente em cenários onde os vídeos eram vistos de diferentes ângulos.
Insights sobre Generalização entre Visões
Nossa exploração de diferentes visões destacou que modelos treinados em perspectivas fixas tiveram dificuldades para se adaptar a novos ângulos. No entanto, com os mecanismos de fusão temporal corretos, modelos fundamentais baseados em imagem mostraram uma capacidade de generalizar melhor através de diferentes pontos de vista em comparação com seus equivalentes baseados em vídeo.
Conclusão
Este estudo fornece insights valiosos sobre o reconhecimento de atividades humanas detalhadas e como modelos fundamentais podem efetivamente abordar os desafios impostos por mudanças nas perspectivas das câmeras. Os resultados sugerem que modelos robustos capazes de entender ações sutis e se adaptar a condições de visualização diversas são de fato alcançáveis com a combinação certa de treinamento, seleção de conjuntos de dados e técnicas avançadas de fusão temporal.
De modo geral, as crescentes capacidades dos modelos fundamentais no campo do HAR detalhado oferecem possibilidades empolgantes para aplicações práticas, desde melhorar as interações entre humanos e máquinas até aumentar a segurança em ambientes automatizados. A pesquisa contínua nesta área é essencial para desbloquear todo o potencial dessas tecnologias.
Título: Probing Fine-Grained Action Understanding and Cross-View Generalization of Foundation Models
Resumo: Foundation models (FMs) are large neural networks trained on broad datasets, excelling in downstream tasks with minimal fine-tuning. Human activity recognition in video has advanced with FMs, driven by competition among different architectures. However, high accuracies on standard benchmarks can draw an artificially rosy picture, as they often overlook real-world factors like changing camera perspectives. Popular benchmarks, mostly from YouTube or movies, offer diverse views but only coarse actions, which are insufficient for use-cases needing fine-grained, domain-specific actions. Domain-specific datasets (e.g., for industrial assembly) typically use data from limited static perspectives. This paper empirically evaluates how perspective changes affect different FMs in fine-grained human activity recognition. We compare multiple backbone architectures and design choices, including image- and video- based models, and various strategies for temporal information fusion, including commonly used score averaging and more novel attention-based temporal aggregation mechanisms. This is the first systematic study of different foundation models and specific design choices for human activity recognition from unknown views, conducted with the goal to provide guidance for backbone- and temporal- fusion scheme selection. Code and models will be made publicly available to the community.
Autores: Thinesh Thiyakesan Ponbagavathi, Kunyu Peng, Alina Roitberg
Última atualização: 2024-07-22 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.15605
Fonte PDF: https://arxiv.org/pdf/2407.15605
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.