Apresentando o Conjunto de Dados ENIGMA-51 para Estudo de Interação Industrial
Um novo conjunto de dados pra melhorar a compreensão das interações entre humanos e objetos em ambientes industriais.
― 9 min ler
Índice
Na nossa vida diária, a gente interage constantemente com vários objetos pra completar tarefas. Nos trabalhos, especialmente em ambientes industriais, essas interações podem ser complexas, exigindo ferramentas e ações específicas. Por exemplo, ao consertar equipamentos, um trabalhador pode usar ferramentas como uma chave de fenda ou um osciloscópio, sempre pensando na segurança.
Pra dar suporte aos trabalhadores nesses ambientes, é importante criar sistemas inteligentes que consigam reconhecer e ajudar a gerenciar essas interações. É aqui que a tecnologia, como óculos inteligentes que capturam vídeo enquanto as mãos do trabalhador ficam livres, entra em cena. Esses sistemas poderiam guiar os trabalhadores durante os procedimentos, alertá-los sobre riscos de segurança e sugerir os próximos passos nas suas tarefas.
Esse artigo apresenta um novo conjunto de dados conhecido como ENIGMA-51. Esse conjunto foi criado pra estudar como as pessoas interagem com objetos em ambientes industriais. Ele é composto por uma série de vídeos mostrando trabalhadores consertando quadros elétricos enquanto usam várias ferramentas. Esses vídeos foram gravados com anotações detalhadas pra capturar cada interação entre o trabalhador e os objetos envolvidos.
O Conjunto de Dados ENIGMA-51
O conjunto de dados ENIGMA-51 contém vídeos coletados de 19 participantes que realizaram tarefas de conserto em um ambiente industrial. Cada participante usou óculos inteligentes pra gravar suas ações enquanto seguia instruções de áudio. O conjunto inclui 51 vídeos, cada um mostrando um processo completo de conserto de um quadro elétrico.
Esses vídeos fornecem uma riqueza de informações sobre como as pessoas se envolvem com ferramentas e máquinas. Pra cada interação, o conjunto de dados é rotulado com ações específicas, objetos envolvidos e períodos de tempo.
Objetivo do ENIGMA-51
O principal objetivo do conjunto de dados ENIGMA-51 é facilitar o desenvolvimento de sistemas que possam ajudar trabalhadores em um ambiente industrial. Ao entender como os humanos interagem com objetos, a gente pode criar ferramentas melhores que ajudem a melhorar a eficiência e a segurança. O conjunto de dados permite o estudo de várias tarefas relacionadas a interações humano-objeto, como reconhecer ações, prever ações futuras e entender instruções faladas.
Estudo Detalhado das Interações
Todo dia, os trabalhadores realizam inúmeras tarefas que envolvem interações complexas com ferramentas e máquinas. No contexto do trabalho industrial, essas tarefas precisam ser eficientes pra garantir produtividade e segurança. O conjunto de dados ENIGMA-51 busca abordar vários aspectos principais dessas interações.
Detecção de Ações
Uma das tarefas-chave ao estudar interações humano-objeto é reconhecer ações. Por exemplo, entender quando um trabalhador está pegando uma ferramenta ou soltando-a pode dar insights sobre seu comportamento. O conjunto de dados ENIGMA-51 permite que os pesquisadores detectem quatro ações principais: “pegar”, “soltar”, “primeiro-contato” e “descontato”.
- Pegar: Quando um trabalhador pega uma ferramenta.
- Soltar: Quando um trabalhador solta uma ferramenta.
- Primeiro-contato: Quando um trabalhador toca uma ferramenta pela primeira vez.
- Descontato: Quando um trabalhador para de tocar uma ferramenta.
Essas ações são vitais pra criar sistemas que podem analisar e prever o comportamento dos trabalhadores, contribuindo pra segurança e eficiência no trabalho.
Detecção de Interação Humano-Objeto Egocêntrica
Outro aspecto significativo da interação humano-objeto é a detecção egocêntrica, que se refere a reconhecer como o trabalhador interage com os objetos do seu ponto de vista. O conjunto de dados foca em identificar qual mão está envolvida, o estado dessa mão (se está em contato com um objeto) e o objeto que está sendo manuseado.
Essa detecção envolve não só reconhecer o objeto, mas também entender o contexto da interação. Por exemplo, saber se a mão esquerda de um trabalhador está em contato com uma chave de fenda pode dar insights sobre a tarefa que está sendo realizada.
Antecipando Interações Futuras
O conjunto de dados também permite que os pesquisadores antecipem interações futuras. Ao analisar ações passadas, os sistemas podem prever qual ferramenta um trabalhador pode precisar ou quando ele pode precisar realizar uma ação específica. Essa capacidade preditiva pode melhorar os sistemas de treinamento e fornecer assistência em tempo real aos trabalhadores, minimizando erros e melhorando a segurança.
Compreensão de Linguagem Natural
Além dos dados visuais, o conjunto de dados ENIGMA-51 captura instruções faladas dadas aos participantes durante a gravação. Essas informações são valiosas pra desenvolver sistemas que podem entender e interpretar comandos em linguagem natural.
Por exemplo, se um trabalhador diz: “Como eu uso o osciloscópio?”, o sistema pode reconhecer a intenção e fornecer orientações relevantes com base no contexto. Essa habilidade de combinar linguagem falada com ações melhora a usabilidade de sistemas inteligentes em ambientes industriais.
Metodologia de Coleta de Dados
A criação do conjunto de dados ENIGMA-51 envolveu várias etapas pra garantir a relevância e usabilidade dos dados.
Participantes e Ambiente
Um total de 19 participantes foi selecionado, cada um com diferentes níveis de experiência em consertar quadros elétricos. As gravações foram feitas em um laboratório industrial real, proporcionando uma representação genuína das interações humano-objeto.
Uso da Tecnologia
Os participantes usaram óculos inteligentes Microsoft HoloLens 2, que permitiram que eles recebessem instruções de áudio enquanto mantinham as mãos livres. As instruções de áudio os guiaram pelo processo de conserto passo a passo, garantindo consistência nas gravações.
Vídeo e Anotações
Cada vídeo foi gravado em uma resolução de 2272x1278 pixels com uma taxa de quadros de 30 quadros por segundo. A duração média dos vídeos é de cerca de 26,32 minutos, totalizando cerca de 22 horas de material gravado.
Os vídeos foram anotados de forma detalhada, detalhando ações específicas, objetos e quadros de interação pra facilitar vários estudos relacionados ao comportamento humano.
Anotação de Dados
Processo deUma anotação de dados precisa é crucial pra eficácia do conjunto de dados. O conjunto de dados ENIGMA-51 emprega uma estratégia de anotação detalhada pra garantir que cada interação seja capturada de forma abrangente.
Anotações Temporais
Os quadros de interação foram identificados e marcados com timestamps e verbos correspondentes que descrevem a ação que está acontecendo. Uma taxonomia de quatro verbos principais foi usada pra classificar as ações: “primeiro-contato,” “descontato,” “pegar” e “soltar.”
Anotações de Objetos e Mãos
O conjunto de dados inclui anotações detalhadas tanto para objetos fixos quanto móveis. Existem 25 classes de objetos documentadas dentro do conjunto de dados, que vão de ferramentas como chaves de fenda e alicates até equipamentos fixos como fontes de energia e painéis elétricos.
As mãos também foram anotadas, fornecendo caixas delimitadoras em torno de ambas as mãos durante as interações. Esse nível de detalhe permite um estudo preciso de como as mãos interagem com ferramentas e objetos.
Anotações de Interações Futuras
Pra prever ações futuras, o conjunto de dados inclui anotações que refletem quais objetos estarão envolvidos em interações futuras, junto com o tempo estimado até que essas interações comecem.
Anotações de Linguagem Natural
Além dos dados visuais, o conjunto de dados captura as instruções textuais fornecidas aos participantes. Essas instruções foram analisadas pra extrair intenções e entidades, enriquecendo ainda mais a usabilidade do conjunto de dados para tarefas de compreensão de linguagem natural.
Avaliação e Resultados de Linha de Base
Pra demonstrar a aplicabilidade e o desafio do conjunto de dados ENIGMA-51, experimentos de linha de base foram realizados focando em quatro tarefas principais: detecção de ações, detecção de interação humano-objeto egocêntrica, antecipação de interações de curto prazo e compreensão de linguagem natural.
Resultados da Detecção de Ações
Os resultados de linha de base mostram que detectar as ações básicas é uma tarefa desafiadora, com níveis de precisão variados dependendo da ação específica que está sendo reconhecida. A complexidade do conjunto de dados garante que métodos de ponta precisem ser refinados pra alcançar resultados satisfatórios.
Resultados da Detecção de Interação Humano-Objeto Egocêntrica
Ao aplicar dois modelos de linha de base diferentes, o desempenho da detecção egocêntrica foi avaliado. Os resultados mostram como a incorporação de dados específicos de domínio melhora significativamente a precisão da detecção.
Resultados da Antecipação de Interação de Curto Prazo
Pra prever interações futuras, os resultados da linha de base revelaram a capacidade de reconhecer as próximas ferramentas e ações. O sistema demonstrou um alto nível de precisão na previsão de qual objeto seria usado a seguir.
Resultados da Compreensão de Linguagem Natural
Finalmente, a tarefa de compreensão de linguagem natural foi avaliada usando várias métricas. Os melhores resultados foram alcançados usando apenas dados reais, enquanto a inclusão de dados gerados levou a uma queda no desempenho. Isso ressalta a necessidade de dados de qualidade e relevância contextual pra um treinamento eficaz em tarefas de linguagem natural.
Conclusão
O conjunto de dados ENIGMA-51 fornece uma estrutura abrangente pra estudar interações humano-objeto em ambientes industriais. Com suas anotações detalhadas e contexto do mundo real, ele serve como um recurso essencial pra desenvolver sistemas inteligentes capazes de ajudar os trabalhadores em suas tarefas.
As descobertas das avaliações de linha de base ilustram tanto os desafios quanto as oportunidades presentes nessa área de pesquisa. À medida que continuamos a explorar o comportamento humano através de conjuntos de dados como o ENIGMA-51, o potencial pra criar sistemas de suporte sofisticados em ambientes industriais se torna cada vez mais alcançável.
Direções Futuras
Olhando pra frente, a comunidade de pesquisa pode construir sobre os insights fornecidos pelo conjunto de dados ENIGMA-51. Estudos futuros podem focar em melhorar a precisão dos métodos de detecção de ações, aprimorar as capacidades de compreensão de linguagem natural e criar ferramentas mais intuitivas pra os trabalhadores.
No geral, o conjunto de dados ENIGMA-51 se destaca como uma contribuição valiosa pra entender e melhorar as interações humano-objeto em cenários industriais. À medida que a tecnologia avança, a colaboração entre trabalhadores humanos e sistemas inteligentes continuará a evoluir, levando a locais de trabalho mais seguros e eficientes.
Título: ENIGMA-51: Towards a Fine-Grained Understanding of Human-Object Interactions in Industrial Scenarios
Resumo: ENIGMA-51 is a new egocentric dataset acquired in an industrial scenario by 19 subjects who followed instructions to complete the repair of electrical boards using industrial tools (e.g., electric screwdriver) and equipments (e.g., oscilloscope). The 51 egocentric video sequences are densely annotated with a rich set of labels that enable the systematic study of human behavior in the industrial domain. We provide benchmarks on four tasks related to human behavior: 1) untrimmed temporal detection of human-object interactions, 2) egocentric human-object interaction detection, 3) short-term object interaction anticipation and 4) natural language understanding of intents and entities. Baseline results show that the ENIGMA-51 dataset poses a challenging benchmark to study human behavior in industrial scenarios. We publicly release the dataset at https://iplab.dmi.unict.it/ENIGMA-51.
Autores: Francesco Ragusa, Rosario Leonardi, Michele Mazzamuto, Claudia Bonanno, Rosario Scavo, Antonino Furnari, Giovanni Maria Farinella
Última atualização: 2023-11-27 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2309.14809
Fonte PDF: https://arxiv.org/pdf/2309.14809
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://iplab.dmi.unict.it/ENIGMA-51/
- https://www.artec3d.com/portable-3d-scanners/artec-eva
- https://matterport.com/
- https://github.com/SysCV/sam-hq
- https://github.com/open-mmlab/mmpose
- https://github.com/facebookresearch/dinov2
- https://github.com/moein-shariatnia/OpenAI-CLIP
- https://github.com/yjxiong/anet2016-cuhk
- https://www.nextvisionlab.it/