Uma Olhada Detalhada nas Atividades do Dia a Dia
Apresentando um conjunto de dados pra analisar as interações nas atividades do dia a dia.
― 7 min ler
Índice
- O Desafio das AVDs Complexas
- Apresentando o InteractADL
- Estrutura do Conjunto de Dados
- Ajuste de Nome: Um Novo Método de Reconhecimento
- Como Funciona o Ajuste de Nome
- Combinando Abordagens
- Avaliação da Eficácia
- Importância dos Dados de Múltiplas Visões
- Comparação com Conjuntos de Dados Existentes
- Processo de Coleta de Dados
- Como os Dados Foram Coletados
- Processo de Anotação
- O Valor do InteractADL
- Resultados e Comparações
- Destaques de Desempenho
- Direções Futuras
- Conclusão
- Fonte original
- Ligações de referência
Atividades da Vida Diária (AVDs) são tarefas essenciais que a galera faz todo dia pra cuidar de si mesma. Essas tarefas incluem coisas como comer, se vestir, tomar banho e limpar. Reconhecer e entender essas atividades é importante pra várias áreas, como saúde, tecnologia em casa inteligente e robótica. Mas, a maioria dos estudos e conjuntos de dados foca nas AVDs básicas e muitas vezes ignora as interações mais complexas que rolam quando várias pessoas estão envolvidas nessas tarefas, especialmente em casa.
Esse artigo apresenta um novo conjunto de dados e um método pra analisar essas interações complexas, chamado InteractADL. Esse conjunto de dados não só inclui vídeos de AVDs, mas também foca em como as pessoas interagem entre si e com objetos durante essas tarefas.
O Desafio das AVDs Complexas
Estudar AVDs pode ser complicado por várias razões:
Duração: Muitas atividades podem demorar um tempão pra serem concluídas. Por exemplo, limpar uma casa pode levar várias horas, e durante esse tempo, várias ações menores acontecem.
Interações Homem-Objeto e Homem-Homem: AVDs muitas vezes envolvem várias interações, como como uma pessoa usa um objeto ou como ela trabalha com outra pessoa. Capturar essas relações complexas é crucial pra entender as AVDs completamente.
Ações Semelhantes: Existem muitos tipos de ações que podem parecer e soar parecidas, o que dificulta pra métodos já existentes reconhecerem elas com precisão.
Esses desafios tornam vital criar um novo conjunto de dados que possa capturar com precisão as nuances das interações de várias pessoas nas atividades do dia a dia.
Apresentando o InteractADL
Pra enfrentar esses desafios, foi criado o InteractADL. Esse conjunto de dados inclui vídeos gravados de vários ângulos, mostrando diferentes pessoas interagindo entre si e com objetos em um ambiente doméstico.
Estrutura do Conjunto de Dados
O conjunto de dados tem as seguintes características principais:
Várias Visões: Cada atividade é gravada usando várias câmeras. Essas câmeras oferecem tanto visões em primeira pessoa (ponto de vista do sujeito) quanto em terceira pessoa. O uso de vários ângulos ajuda a capturar o contexto completo das atividades.
Anotações Detalhadas: O conjunto de dados inclui notas detalhadas sobre cada atividade, incluindo o que as pessoas estão fazendo e como elas interagem com objetos e entre si. Essas informações estão organizadas em rótulos de atividade de nível superior (a tarefa geral sendo realizada) e rótulos de ação atômica (ações específicas que podem fazer parte da tarefa maior).
Interações Humanas e com Objetos: As anotações também detalham como as pessoas interagem com objetos e entre si no contexto das atividades.
Essas características permitem que os pesquisadores analisem e entendam melhor as AVDs de uma maneira mais rica e detalhada.
Ajuste de Nome: Um Novo Método de Reconhecimento
Pra tirar o máximo proveito do conjunto de dados InteractADL, foi desenvolvido um novo método chamado Ajuste de Nome. Esse método ajuda a melhorar a forma como as máquinas reconhecem e categorizam atividades em vídeos, refinando os nomes usados pra diferentes ações.
Como Funciona o Ajuste de Nome
O Ajuste de Nome foca em melhorar os nomes atribuídos às atividades. Esse método treina as máquinas pra criar rótulos mais eficazes pra cada ação com base nos dados de vídeo disponíveis. Ajustando a forma como as atividades são nomeadas, o método ajuda os computadores a fazerem melhores distinções entre ações semelhantes.
Combinando Abordagens
O Ajuste de Nome também pode funcionar junto com métodos já existentes chamados ajuste de prompt. Essa combinação permite um aprendizado mais eficaz e resultados melhores quando se trata de reconhecer várias atividades.
Avaliação da Eficácia
A eficácia do método Ajuste de Nome foi avaliada usando o conjunto de dados InteractADL e outros conjuntos de dados já estabelecidos. Os resultados indicam que o Ajuste de Nome aumenta significativamente o desempenho em tarefas de classificação com poucos exemplos, onde as máquinas aprendem com apenas um punhado de exemplos.
Importância dos Dados de Múltiplas Visões
Usar vários ângulos de câmera pra capturar atividades permite uma compreensão mais abrangente de como as tarefas são realizadas na vida real. Cada visão pode fornecer insights únicos sobre as ações que estão sendo tomadas, revelando detalhes que podem ser perdidos com uma única câmera.
Comparação com Conjuntos de Dados Existentes
Muitos conjuntos de dados existentes focam apenas em ações de uma única pessoa ou ambientes específicos. Em contraste, o InteractADL captura as interações de duas ou mais pessoas realizando tarefas diárias juntas. Existem apenas alguns conjuntos de dados que realmente focam em interações de várias pessoas, tornando o InteractADL único.
Processo de Coleta de Dados
Criar o conjunto de dados InteractADL envolveu gravar atividades em casas reais. O processo de coleta de dados visou capturar interações autênticas e espontâneas, em vez de ações ensaiadas ou encenadas. Essa abordagem dá ao conjunto de dados uma vantagem em termos de realismo e aplicabilidade a cenários do mundo real.
Como os Dados Foram Coletados
Os dados foram coletados usando 26 câmeras instaladas em vários cômodos. A configuração garantiu que as atividades gravadas proporcionassem uma variedade de pontos de vista, incluindo visões diretas, de cima pra baixo e perspectivas em primeira pessoa. Cada atividade foi cuidadosamente anotada pra incluir vários detalhes, garantindo que todas as ações e interações fossem documentadas de forma completa.
Processo de Anotação
A anotação do conjunto de dados InteractADL inclui:
Rótulos de Atividade de Alto Nível: Esses rótulos categorizam a tarefa geral que está sendo realizada, como "limpeza" ou "cozinha".
Rótulos de Classe de Ação Atômica: Esses representam as ações menores que compõem a tarefa maior, como "limpar uma superfície" ou "guardar pratos".
Caixas Delimitadoras: Cada pessoa e objeto nos vídeos é marcado com caixas delimitadoras pra identificar suas localizações e papéis nas atividades.
Gráficos de Cena: As anotações também fornecem uma representação visual das interações entre pessoas e objetos, capturando as relações que ocorrem durante as atividades.
O Valor do InteractADL
A criação do InteractADL visa melhorar nossa capacidade de entender e reconhecer melhor as atividades da vida diária. Esse conjunto de dados serve não só como uma ferramenta pra pesquisadores em várias áreas, mas também como um passo pra avançar tecnologias em casas inteligentes e robótica assistiva.
Resultados e Comparações
Os novos métodos desenvolvidos pro InteractADL mostraram resultados promissores quando comparados a benchmarks anteriores. A combinação do Ajuste de Nome e os dados ricos fornecidos pelo InteractADL superam muitas abordagens existentes no reconhecimento de interações e atividades complexas.
Destaques de Desempenho
Quando testados em conjuntos de dados de referência, os métodos aplicados ao InteractADL demonstraram melhorias notáveis. Isso destaca a importância do conjunto de dados e dos métodos propostos em aprimorar as tarefas de reconhecimento de atividades.
Direções Futuras
O lançamento do conjunto de dados InteractADL abre novas avenidas pra pesquisas futuras. Pesquisadores podem usar esse recurso pra explorar ainda mais as AVDs complexas, melhorar técnicas de reconhecimento e desenvolver modelos mais sofisticados pra entender interações humanas.
Conclusão
O InteractADL representa um grande avanço no estudo das Atividades da Vida Diária. Ao fornecer um conjunto de dados detalhado, de múltiplas visões e introduzir métodos inovadores como o Ajuste de Nome, esse trabalho estabelece as bases pra uma melhor compreensão e reconhecimento de interações complexas na vida diária. Esse esforço vai contribuir pra avanços na saúde, sistemas de casa inteligente e robótica, melhorando, no fim, a acessibilidade e o suporte pra indivíduos em suas atividades diárias.
Título: Few-Shot Classification of Interactive Activities of Daily Living (InteractADL)
Resumo: Understanding Activities of Daily Living (ADLs) is a crucial step for different applications including assistive robots, smart homes, and healthcare. However, to date, few benchmarks and methods have focused on complex ADLs, especially those involving multi-person interactions in home environments. In this paper, we propose a new dataset and benchmark, InteractADL, for understanding complex ADLs that involve interaction between humans (and objects). Furthermore, complex ADLs occurring in home environments comprise a challenging long-tailed distribution due to the rarity of multi-person interactions, and pose fine-grained visual recognition tasks due to the presence of semantically and visually similar classes. To address these issues, we propose a novel method for fine-grained few-shot video classification called Name Tuning that enables greater semantic separability by learning optimal class name vectors. We show that Name Tuning can be combined with existing prompt tuning strategies to learn the entire input text (rather than only learning the prompt or class names) and demonstrate improved performance for few-shot classification on InteractADL and 4 other fine-grained visual classification benchmarks. For transparency and reproducibility, we release our code at https://github.com/zanedurante/vlm_benchmark.
Autores: Zane Durante, Robathan Harries, Edward Vendrow, Zelun Luo, Yuta Kyuragi, Kazuki Kozuka, Li Fei-Fei, Ehsan Adeli
Última atualização: 2024-10-16 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2406.01662
Fonte PDF: https://arxiv.org/pdf/2406.01662
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.