Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Apresentando o HA-ViD: Um Novo Conjunto de Dados para Aprendizado de Montagem

HA-ViD traz perspectivas únicas sobre as interações entre humanos e robôs na montagem.

― 8 min ler


Lançamento do Conjunto deLançamento do Conjunto deDados HA-ViDpesquisa em montagem humano-robô.Um conjunto de dados inovador para
Índice

A compreensão de como as pessoas montam as coisas é super importante para indústrias futuras que querem ser bem inteligentes e eficientes. Pra ajudar com isso, criamos um novo conjunto de dados chamado HA-ViD. Esse conjunto é o primeiro do tipo que inclui vídeos mostrando pessoas montando itens em diferentes ambientes.

O conjunto de dados tem vídeos que mostram várias tarefas de montagem, ferramentas e peças, além de como os humanos interagem com robôs durante essas tarefas. Ele captura várias maneiras diferentes que as pessoas trabalham juntas pra completar as tarefas de montagem e registra suas ações, pensamentos e processos de aprendizado.

O que é HA-ViD?

HA-ViD significa Conjunto de Dados de Vídeo de Montagem Humana. Ele foi projetado pra ajudar pesquisadores e engenheiros a entender e melhorar como os robôs aprendem a trabalhar ao lado das pessoas durante as tarefas de montagem. O conjunto inclui um total de 3222 vídeos, 1,5 milhão de quadros de filmagens e rótulos detalhados para ações, objetos e ferramentas envolvidos no processo de montagem.

Por que isso é importante?

À medida que as indústrias se tornam mais automatizadas e dependentes de robôs, entender como humanos e robôs podem trabalhar juntos pra realizar tarefas é crucial. A capacidade de aprender com vídeos ajuda máquinas e sistemas a melhorarem seu desempenho em situações reais.

Esse conjunto vai apoiar pesquisas em várias áreas, incluindo aprendizado de habilidades robóticas, controle de qualidade e trabalho em equipe entre humanos e máquinas.

Features do Conjunto de Dados

Coleta de Vídeos

O conjunto de dados HA-ViD é composto por vídeos que mostram pessoas montando uma caixa feita de partes padrão e comumente usadas. As tarefas de montagem foram pensadas pra incluir tanto partes padrão quanto não padrão, simulando cenários do mundo real. No total, 30 participantes participaram das gravações.

Os vídeos foram coletados usando três câmeras posicionadas pra capturar diferentes ângulos das tarefas de montagem. As gravações aconteceram em condições de laboratório controladas e em configurações de iluminação natural, permitindo uma coleção diversificada de filmagens.

Três Estágios de Montagem

As tarefas de montagem foram organizadas em três estágios pra capturar como as pessoas aprendem e realizam tarefas:

  1. Estágio de Descoberta: Os participantes receberam instruções mínimas e foram incentivados a descobrir as coisas por conta própria.

  2. Estágio de Instrução: Instruções detalhadas passo a passo foram fornecidas pra guiar os participantes pelo processo de montagem. Cada participante trabalhou com diferentes versões de instrução.

  3. Estágio de Prática: Nesse estágio final, os participantes foram solicitados a montar a caixa sem nenhuma instrução. Essa abordagem ajudou a observar o aprendizado natural e a aquisição de habilidades.

Anotações e Rótulos

HA-ViD inclui vários tipos de anotações que fornecem informações detalhadas sobre cada tarefa de montagem:

  • Anotações Temporais: Esses rótulos identificam quando ações específicas ocorrem durante o processo de montagem. Eles dividem cada tarefa em partes menores e descrevem quais ações foram tomadas, quais ferramentas foram usadas e quais objetos estavam envolvidos.

  • Anotações Espaciais: Esses rótulos marcam objetos, ferramentas e os participantes nos vídeos. As anotações ajudam a identificar os relacionamentos entre os diferentes elementos envolvidos na montagem.

Diversidade na Colaboração

O conjunto captura uma variedade de padrões de colaboração. Algumas tarefas exigem colaboração com duas mãos, enquanto outras podem ser feitas com uma só. As anotações detalhadas classificam as tarefas com base em como os participantes interagiram durante a montagem.

Comparação com Conjuntos de Dados Existentes

Conjuntos de dados anteriores focados em tarefas de montagem frequentemente tinham limitações. Eles mostravam cenas muito específicas ou careciam da variedade de partes e ferramentas que geralmente são encontradas num ambiente de montagem real.

Em contraste, o HA-ViD enfatiza capturar comportamentos naturais como pausas, erros e métodos variados de completar tarefas. Essa abordagem permite um melhor entendimento de como as pessoas aprendem e realizam montagens, que geralmente falta nos conjuntos de dados existentes.

A Caixa de Montagem Genérica

Design da Caixa

O conjunto é construído em torno de uma Caixa de Montagem Genérica (GAB) projetada especificamente pra esse propósito. A caixa mede 250mm x 250mm x 250mm e contém partes padrão e únicas comumente usadas em montagem industrial.

No total, a caixa inclui 35 partes diferentes e requer quatro ferramentas padrão pra montá-la. O design permite que os participantes realizem tarefas de vários ângulos, parecendo com situações reais de montagem.

Placas de Montagem

A GAB é composta por três placas, cada uma com um conjunto diferente de tarefas de montagem:

  • Placa Geral: Essa placa inclui uma variedade de partes pra incentivar ações de montagem diversificadas.

  • Placa de Engrenagem: Essa placa é projetada pra atividades que requerem coordenação de duas mãos pra inserir engrenagens na posição.

  • Placa de Cilindro: Essa placa requer que os participantes trabalhem em colaboração pra fixar itens juntos.

Essas placas foram projetadas pra refletir as diferentes habilidades e dinâmicas de colaboração necessárias pra montagem no mundo real.

Aprendendo com o Conjunto de Dados

Processo de Aprendizado Natural

O conjunto visa capturar o processo de aprendizado natural dos participantes enquanto eles se envolvem em tarefas de montagem. Isso inclui observar suas ações, erros e melhorias ao longo do tempo enquanto eles progridem do estágio de descoberta ao estágio de prática.

Reconhecimento e Segmentação de Ações

O conjunto pode ajudar pesquisadores a desenvolver melhores algoritmos pra entender ações humanas em tarefas de montagem.

  • Reconhecimento de Ação: Isso se refere à capacidade de um sistema identificar qual ação um participante está realizando em determinado momento.

  • Segmentação de Ação: Isso envolve determinar exatamente quando uma ação termina e outra começa, permitindo um detalhamento do processo de montagem.

Entender como os participantes realizam essas ações pode levar a avanços na forma como os robôs aprendem com o comportamento humano.

Benchmarking e Análise

O conjunto de dados HA-ViD foi usado pra avaliar vários métodos de ponta no campo do reconhecimento de ações, detecção de objetos e rastreamento de múltiplos objetos.

Medição de Desempenho

O conjunto ajuda a medir o desempenho de técnicas de entendimento de vídeo com base na eficácia de reconhecimento de ações e interações nos vídeos.

Insights e Descobertas

As descobertas levaram a insights importantes, como os desafios enfrentados no reconhecimento de ações que requerem colaboração entre duas mãos e a importância da segmentação de ações pra rastrear com precisão as tarefas durante a montagem.

Direções Futuras

O conjunto de dados HA-ViD abre muitas possibilidades pra novas pesquisas. Áreas de exploração incluem melhorar a colaboração entre humanos e robôs, aprimorar o aprendizado dos robôs a partir de ações humanas e avançar a compreensão de processos de montagem complexos.

Suporte à Indústria

Esse conjunto pode ser um recurso valioso pra indústrias que buscam aprimorar seus processos de automação. Aprendendo com o comportamento humano, os robôs estarão melhor equipados pra ajudar os humanos em tarefas, levando a um aumento da produtividade e eficiência nas linhas de montagem.

Conclusão

Em resumo, o HA-ViD é o primeiro conjunto de dados abrangente voltado pra entender o conhecimento de montagem por meio da análise de vídeo. Focando em processos de montagem do mundo real, nosso conjunto fornece uma base pra avançar a robótica colaborativa e melhorar a eficiência geral da montagem industrial.

Os dados diversificados, anotações detalhadas e insights reunidos a partir do conjunto de dados HA-ViD representam um passo significativo pra pesquisa acadêmica e aplicações práticas no campo da automação e interação humano-robô.

O desenvolvimento e análise contínuos usando esse conjunto prometem levar a mais avanços em entender como robôs e humanos podem trabalhar juntos de forma eficaz em tarefas de montagem, preparando o caminho pra fábricas mais inteligentes e soluções industriais inovadoras.

Fonte original

Título: HA-ViD: A Human Assembly Video Dataset for Comprehensive Assembly Knowledge Understanding

Resumo: Understanding comprehensive assembly knowledge from videos is critical for futuristic ultra-intelligent industry. To enable technological breakthrough, we present HA-ViD - the first human assembly video dataset that features representative industrial assembly scenarios, natural procedural knowledge acquisition process, and consistent human-robot shared annotations. Specifically, HA-ViD captures diverse collaboration patterns of real-world assembly, natural human behaviors and learning progression during assembly, and granulate action annotations to subject, action verb, manipulated object, target object, and tool. We provide 3222 multi-view, multi-modality videos (each video contains one assembly task), 1.5M frames, 96K temporal labels and 2M spatial labels. We benchmark four foundational video understanding tasks: action recognition, action segmentation, object detection and multi-object tracking. Importantly, we analyze their performance for comprehending knowledge in assembly progress, process efficiency, task collaboration, skill parameters and human intention. Details of HA-ViD is available at: https://iai-hrc.github.io/ha-vid.

Autores: Hao Zheng, Regina Lee, Yuqian Lu

Última atualização: 2023-07-09 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2307.05721

Fonte PDF: https://arxiv.org/pdf/2307.05721

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes