Apresentando o HOGraspNet: Um Novo Conjunto de Dados para Interação Mão-Objeto
A HOGraspNet oferece dados valiosos para estudar as interações entre mãos e objetos em robótica e visão computacional.
Woojin Cho, Jihyun Lee, Minjae Yi, Minje Kim, Taeyun Woo, Donghwan Kim, Taewook Ha, Hyokeun Lee, Je-Hwan Ryu, Woontack Woo, Tae-Kyun Kim
― 7 min ler
Índice
A interação mão-objeto é um tópico importante de estudo em robótica e visão computacional. Os pesquisadores se concentram em como os humanos interagem com objetos usando as mãos. Isso inclui entender diferentes maneiras de agarrar, segurar e manipular vários itens. No entanto, os conjuntos de dados existentes que ajudam a treinar modelos nessa área têm limitações. Eles ou não têm diversidade nos dados ou não fornecem informações de alta qualidade sobre os movimentos das mãos e tipos de agarre.
Para resolver essas questões, um novo conjunto de dados chamado HOGraspNet foi introduzido. Esse conjunto tem o objetivo de fornecer dados completos sobre como as mãos interagem com objetos. Ele inclui vários tipos de agarre, que são categorizados como diferentes maneiras de segurar ou tocar objetos. O conjunto de dados foi projetado para ajudar máquinas a aprenderem a reconhecer e prever os movimentos das mãos humanas em cenários do mundo real.
Visão Geral do Conjunto de Dados
O HOGraspNet inclui um grande número de quadros de vídeo que mostram como as pessoas interagem com múltiplos objetos. O conjunto contém 1,5 milhão de quadros RGB-D capturados de vários ângulos. Apresenta uma ampla gama de formatos e tamanhos de mãos, fornecidos por 99 participantes com idades entre 10 e 74 anos. Cada participante realizou diferentes agarres em 30 objetos selecionados, permitindo que o conjunto capturasse um rico conjunto de interações mão-objeto.
O conjunto não inclui apenas imagens, mas também dados 3D. Cada imagem vem acompanhada de rótulos que indicam o tipo de agarre, a posição da mão e como o objeto está orientado. Modelos 3D da mão e dos objetos foram criados para fornecer informações detalhadas para treinar modelos de aprendizado de máquina.
Taxonomia de Agarre
Para classificar melhor as maneiras como as mãos interagem com os objetos, o conjunto usa um sistema chamado taxonomia de agarre. Essa é uma maneira de categorizar diferentes agarres com base em sua forma e função. No HOGraspNet, 28 tipos de agarre foram definidos. Esses tipos foram escolhidos para cobrir as maneiras essenciais que os humanos geralmente usam para pegar e manusear objetos.
Por exemplo, alguns tipos comuns de agarre incluem o agarre de força, agarre de pinça e agarre de precisão. Cada um desses diferentes agarres tem suas próprias características e é usado para tarefas específicas, como levantar um copo ou escrever com uma caneta. Ao incluir vários tipos de agarre, o HOGraspNet garante que represente com precisão uma ampla gama de movimentos das mãos humanas.
Processo de Coleta de Dados
A coleta de dados para o HOGraspNet envolveu o uso de tecnologia de câmera avançada. Um estúdio de gravação foi montado com múltiplas câmeras RGB-D, que capturam informações de cor e profundidade. Essa configuração permitiu que os pesquisadores registrassem os movimentos das mãos enquanto os participantes interagiam com os objetos de diferentes ângulos.
Os participantes receberam instruções sobre como agarrar cada objeto de acordo com os tipos especificados. Eles foram incentivados a mostrar diferentes maneiras de segurar os objetos para capturar uma ampla gama de movimentos. Esse processo resultou na coleta de dados que oferece uma representação realista das interações mão-objeto.
Anotação de Dados
Para garantir que o conjunto de dados seja útil para treinar modelos, cada quadro de vídeo no HOGraspNet foi cuidadosamente anotado. Isso significa que cada quadro é rotulado com informações detalhadas sobre o que está acontecendo. As anotações incluem o tipo de agarre sendo usado, a posição da mão e a orientação do objeto.
O processo de anotação envolveu ajustar modelos aos dados capturados para criar representações precisas da mão e dos objetos. Dois modelos diferentes, MANO e HALO, foram usados. O MANO fornece representações detalhadas da malha da mão, enquanto o HALO oferece uma maneira simplificada de descrever as formas das mãos.
Tarefas de Interação Mão-Objeto
O conjunto de dados foi avaliado em duas tarefas principais: classificação de agarre e estimativa de pose mão-objeto.
Classificação de Agarre
Na classificação de agarre, os pesquisadores testaram quão bem os modelos podiam identificar diferentes tipos de agarre com base nas imagens das mãos. Isso é importante para aplicações onde as máquinas precisam entender como as pessoas interagem com objetos, como em robótica ou realidade virtual.
Usando o conjunto de dados HOGraspNet, uma rede modificada foi usada para classificar os tipos de agarre. A rede alcançou alta precisão em reconhecer e distinguir entre vários agarres, demonstrando a eficácia do conjunto de dados para treinar modelos de classificação.
Estimativa de Pose Mão-Objeto
A estimativa de pose mão-objeto se refere à tarefa de determinar a posição e a orientação tanto da mão quanto do objeto com o qual ela está interagindo. A estimativa precisa de pose é crucial para aplicações como manipulação robótica.
Nos testes, uma rede de última geração foi usada para avaliar a estimativa de pose mão-objeto no conjunto de dados HOGraspNet. Os resultados mostraram que a rede teve um bom desempenho na estimativa das posições da mão e do objeto, confirmando ainda mais a qualidade e a abrangência do conjunto de dados.
Comparação com Conjuntos de Dados Existentes
Quando comparado a conjuntos de dados existentes, o HOGraspNet se destaca devido à sua coleção diversificada de dados. Outros conjuntos de dados têm limitações em termos de número de objetos, tipos de agarre ou diversidade de participantes. O HOGraspNet, por outro lado, fornece um conjunto mais rico de tipos de agarre e uma gama mais ampla de interações.
Por exemplo, onde alguns conjuntos de dados podem capturar apenas alguns tipos de agarre ou menos objetos, o HOGraspNet abrange vários tipos de agarres em muitos objetos e cenários diferentes. Essa natureza abrangente torna o HOGraspNet um recurso valioso para pesquisadores e desenvolvedores que trabalham em modelos de interação mão-objeto.
Direções Futuras
Embora o HOGraspNet forneça uma riqueza de dados, ainda há oportunidades para mais melhorias. Trabalhos futuros podem envolver a adição de mais variáveis e dimensões ao conjunto de dados. Por exemplo, incorporar ações não relacionadas ao agarre pode expandir a gama de interações capturadas. Isso poderia incluir ações como empurrar, jogar ou manipular objetos flexíveis.
Além disso, o conjunto pode ser expandido incluindo mais tipos de objetos com os quais as pessoas interagem comumente, assim como variando as condições de fundo e ambiente nas quais as interações ocorrem. Isso garantirá que os modelos treinados no HOGraspNet consigam generalizar melhor para aplicações do mundo real.
Conclusão
Resumindo, o HOGraspNet é um conjunto de dados inovador que aborda muitas das limitações encontradas em conjuntos de dados existentes para interação mão-objeto. Ao capturar uma ampla variedade de tipos de agarre e incluir anotações detalhadas, ele fornece um recurso rico para pesquisadores em áreas como robótica e visão computacional. O potencial do conjunto de dados para treinar e desenvolver novos modelos para entender os movimentos das mãos em contextos do mundo real é significativo. À medida que a pesquisa continua a evoluir nesta área, o HOGraspNet desempenhará um papel crucial na melhoria de nossa capacidade de modelar e prever interações humano-objeto de forma eficaz.
Título: Dense Hand-Object(HO) GraspNet with Full Grasping Taxonomy and Dynamics
Resumo: Existing datasets for 3D hand-object interaction are limited either in the data cardinality, data variations in interaction scenarios, or the quality of annotations. In this work, we present a comprehensive new training dataset for hand-object interaction called HOGraspNet. It is the only real dataset that captures full grasp taxonomies, providing grasp annotation and wide intraclass variations. Using grasp taxonomies as atomic actions, their space and time combinatorial can represent complex hand activities around objects. We select 22 rigid objects from the YCB dataset and 8 other compound objects using shape and size taxonomies, ensuring coverage of all hand grasp configurations. The dataset includes diverse hand shapes from 99 participants aged 10 to 74, continuous video frames, and a 1.5M RGB-Depth of sparse frames with annotations. It offers labels for 3D hand and object meshes, 3D keypoints, contact maps, and \emph{grasp labels}. Accurate hand and object 3D meshes are obtained by fitting the hand parametric model (MANO) and the hand implicit function (HALO) to multi-view RGBD frames, with the MoCap system only for objects. Note that HALO fitting does not require any parameter tuning, enabling scalability to the dataset's size with comparable accuracy to MANO. We evaluate HOGraspNet on relevant tasks: grasp classification and 3D hand pose estimation. The result shows performance variations based on grasp type and object class, indicating the potential importance of the interaction space captured by our dataset. The provided data aims at learning universal shape priors or foundation models for 3D hand-object interaction. Our dataset and code are available at https://hograspnet2024.github.io/.
Autores: Woojin Cho, Jihyun Lee, Minjae Yi, Minje Kim, Taeyun Woo, Donghwan Kim, Taewook Ha, Hyokeun Lee, Je-Hwan Ryu, Woontack Woo, Tae-Kyun Kim
Última atualização: 2024-09-06 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2409.04033
Fonte PDF: https://arxiv.org/pdf/2409.04033
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.