Présentation de HA-ViD : un nouveau dataset pour l'apprentissage de l'assemblage
HA-ViD offre des insights uniques sur les interactions entre humains et robots lors de l'assemblage.
― 8 min lire
Table des matières
La compréhension de comment les gens assemblent des choses est super importante pour les futures industries qui veulent être plus intelligentes et efficaces. Pour répondre à ce besoin, on a créé un nouveau dataset appelé HA-ViD. C'est le premier de son genre qui inclut des vidéos montrant des gens en train d'assembler des objets dans différents environnements.
Le dataset comprend des vidéos qui montrent différentes tâches d'assemblage, des outils et des pièces, ainsi que la façon dont les humains interagissent avec des robots pendant ces tâches. Il capture plein de manières différentes dont les gens travaillent ensemble pour réaliser des tâches d'assemblage et enregistre leurs actions, pensées et processus d'apprentissage.
C'est quoi HA-ViD ?
HA-ViD signifie Human Assembly Video Dataset. Il est conçu pour aider les chercheurs et ingénieurs à comprendre et améliorer comment les robots apprennent à travailler aux côtés des humains pendant les tâches d'assemblage. Le dataset comprend un total de 3222 vidéos, 1,5 million d'images et des étiquettes détaillées pour les actions, objets et outils impliqués dans le processus d'assemblage.
Pourquoi c'est important ?
À mesure que les industries deviennent plus automatisées et dépendent des robots, comprendre comment les humains et les robots peuvent travailler ensemble pour accomplir des tâches est crucial. La capacité d'apprendre à partir de vidéos aide les machines et systèmes à améliorer leur performance dans des environnements réels.
Ce dataset va soutenir la recherche dans différents domaines, notamment l'apprentissage des compétences des robots, le contrôle qualité et le travail d'équipe entre humains et machines.
Caractéristiques du Dataset
Collection de Vidéos
Le dataset HA-ViD consiste en des vidéos qui capturent des gens assemblant une boîte faite de pièces standards et couramment utilisées. Les tâches d'assemblage étaient conçues pour inclure à la fois des pièces standards et non-standard pour simuler des scénarios réels. Au total, 30 participants ont pris part aux sessions d'enregistrement vidéo.
Les vidéos ont été collectées avec trois caméras positionnées pour capturer différents angles des tâches d'assemblage. Les enregistrements ont eu lieu dans des conditions de laboratoire contrôlées et en éclairage naturel, ce qui permet d'avoir une collection variée d'images.
Trois Étapes d'Assemblage
Les tâches d'assemblage ont été organisées en trois étapes pour capturer comment les gens apprennent et réalisent des tâches :
Étape de Découverte : Les participants ont reçu seulement des instructions minimales et ont été encouragés à trouver des solutions par eux-mêmes.
Étape d'Instruction : Des instructions détaillées étape par étape ont été fournies pour guider les participants tout au long du processus d'assemblage. Chaque participant a travaillé avec différentes versions des instructions.
Étape de Pratique : Dans cette dernière étape, les participants ont été invités à assembler la boîte sans aucune instruction. Cette approche a permis d'observer l'apprentissage naturel et l'acquisition de compétences.
Annotations et Étiquettes
HA-ViD inclut différents types d'annotations qui fournissent des informations détaillées sur chaque tâche d'assemblage :
Annotations Temporelles : Ces étiquettes identifient quand des actions spécifiques ont lieu pendant le processus d'assemblage. Elles décomposent chaque tâche en plus petites parties et décrivent quelles actions ont été prises, quels outils ont été utilisés et quels objets étaient impliqués.
Annotations Spatiales : Ces étiquettes consistent à marquer des objets spécifiques, des outils et les participants dans les vidéos. Les annotations aident à identifier les relations entre les différents éléments impliqués dans l'assemblage.
Diversité de Collaboration
Le dataset capture une gamme de modèles de collaboration. Certaines tâches nécessitent une collaboration à deux mains, tandis que d'autres peuvent être réalisées d'une seule main. Les annotations détaillées classifient les tâches selon comment les participants ont interagi pendant l'assemblage.
Comparaison avec les Datasets Existants
Les datasets précédents axés sur les tâches d'assemblage avaient souvent des limitations. Ils montraient soit des scènes très spécifiques, soit manquaient de la variété de pièces et d'outils qu'on trouve généralement dans un véritable environnement d'assemblage.
En revanche, HA-ViD met l'accent sur la capture des comportements naturels comme les pauses, les erreurs et les différentes méthodes de réalisation des tâches. Cette approche permet une meilleure compréhension de comment les gens apprennent et réalisent l'assemblage, ce qui manque souvent dans les datasets existants.
La Boîte d'Assemblage Générique
Design de la Boîte
Le dataset est construit autour d'une Boîte d'Assemblage Générique (GAB) conçue spécialement pour ce but. La boîte mesure 250mm x 250mm x 250mm et contient à la fois des pièces standards et uniques couramment utilisées dans l'assemblage industriel.
En tout, la boîte inclut 35 pièces différentes et nécessite quatre outils standards pour l'assembler. Le design permet aux participants de réaliser des tâches sous différents angles, ressemblant à des situations d'assemblage réelles.
Plaques d'Assemblage
La GAB est composée de trois plaques, chacune présentant un ensemble différent de tâches d'assemblage :
Plaque Générale : Cette plaque inclut une variété de pièces pour encourager des actions d'assemblage diverses.
Plaque à Engrenages : Cette plaque est conçue pour des activités qui nécessitent une coordination à deux mains pour insérer des engrenages en position.
Plaque à Cylindres : Cette plaque demande aux participants de travailler ensemble pour attacher des éléments.
Ces plaques ont été conçues pour refléter les différentes compétences et dynamiques de collaboration nécessaires pour l'assemblage dans le monde réel.
Apprentissage à partir du Dataset
Processus d'Apprentissage Naturel
Le dataset vise à capturer le processus d'apprentissage naturel des participants pendant qu'ils s'engagent dans des tâches d'assemblage. Cela inclut d'observer leurs actions, erreurs et améliorations au fil du temps en passant de l'étape de découverte à l'étape de pratique.
Reconnaissance et Segmentation des Actions
Le dataset peut aider les chercheurs à développer de meilleurs algorithmes pour comprendre les actions humaines dans les tâches d'assemblage.
Reconnaissance des Actions : Cela fait référence à la capacité d'un système à identifier quelle action un participant effectue à tout moment.
Segmentation des Actions : Cela implique de déterminer exactement quand une action se termine et une autre commence, permettant une décomposition détaillée du processus d'assemblage.
Comprendre comment les participants effectuent ces actions peut mener à des avancées sur la façon dont les robots apprennent du comportement humain.
Évaluation et Analyse
Le dataset HA-ViD a été utilisé pour établir des évaluations de plusieurs méthodes à la pointe dans le domaine de la Reconnaissance d'actions, de la détection d'objets et du suivi multi-objets.
Mesure de Performance
Le dataset aide à mesurer la performance des techniques de compréhension vidéo basées sur l'efficacité à reconnaître des actions et interactions dans les vidéos.
Aperçus et Découvertes
Les découvertes ont conduit à des aperçus importants, comme les défis rencontrés pour reconnaître des actions qui nécessitent une collaboration entre les deux mains, et l'importance de la segmentation des actions pour suivre précisément les tâches pendant l'assemblage.
Directions Futures
Le dataset HA-ViD ouvre de nombreuses possibilités pour de futures recherches. Les domaines d'exploration incluent l'amélioration de la collaboration homme-robot, le perfectionnement de l'apprentissage des robots à partir des actions humaines, et l'avancement de la compréhension des processus d'assemblage complexes.
Support pour l'Industrie
Ce dataset peut être une ressource précieuse pour les industries cherchant à améliorer leurs processus d'automatisation. En apprenant du comportement humain, les robots seront mieux équipés pour aider les humains dans les tâches, entraînant une productivité et une efficacité accrues sur les lignes d'assemblage.
Conclusion
En conclusion, HA-ViD est le premier dataset complet visant à comprendre les connaissances d'assemblage à travers l'analyse vidéo. En se concentrant sur des processus d'assemblage du monde réel, notre dataset fournit une base pour faire avancer la robotique collaborative et améliorer l'efficacité générale de l'assemblage industriel.
Les données diversifiées, les annotations détaillées et les aperçus recueillis à partir du dataset HA-ViD représentent une avancée significative pour la recherche académique et les applications pratiques dans le domaine de l'automatisation et de l'interaction homme-robot.
Le développement et l'analyse continus utilisant ce dataset promettent d'entraîner d'autres avancées sur la façon dont les robots et les humains peuvent travailler ensemble efficacement dans les tâches d'assemblage, ouvrant la voie à des usines plus intelligentes et des solutions industrielles innovantes.
Titre: HA-ViD: A Human Assembly Video Dataset for Comprehensive Assembly Knowledge Understanding
Résumé: Understanding comprehensive assembly knowledge from videos is critical for futuristic ultra-intelligent industry. To enable technological breakthrough, we present HA-ViD - the first human assembly video dataset that features representative industrial assembly scenarios, natural procedural knowledge acquisition process, and consistent human-robot shared annotations. Specifically, HA-ViD captures diverse collaboration patterns of real-world assembly, natural human behaviors and learning progression during assembly, and granulate action annotations to subject, action verb, manipulated object, target object, and tool. We provide 3222 multi-view, multi-modality videos (each video contains one assembly task), 1.5M frames, 96K temporal labels and 2M spatial labels. We benchmark four foundational video understanding tasks: action recognition, action segmentation, object detection and multi-object tracking. Importantly, we analyze their performance for comprehending knowledge in assembly progress, process efficiency, task collaboration, skill parameters and human intention. Details of HA-ViD is available at: https://iai-hrc.github.io/ha-vid.
Auteurs: Hao Zheng, Regina Lee, Yuqian Lu
Dernière mise à jour: 2023-07-09 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2307.05721
Source PDF: https://arxiv.org/pdf/2307.05721
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://iai-hrc.github.io/ha-vid
- https://iai-hrc.github.io/hr-sat
- https://www.cvat.ai/
- https://github.com/open-mmlab/mmskeleton
- https://github.com/open-mmlab/mmaction2
- https://github.com/piergiaj/pytorch-i3d
- https://github.com/open-mmlab/mmyolo
- https://www.dropbox.com/sh/ekjle5bwoylmdcf/AACLd_NqT3p2kxW7zLvvauPta?dl=0
- https://creativecommons.org/licenses/by-nc/4.0/