Presentiamo HA-ViD: Un Nuovo Dataset per l'Apprendimento Assemblare
HA-ViD offre spunti unici sulle interazioni tra umani e robot durante l'assemblaggio.
― 7 leggere min
Indice
La comprensione di come le persone mettono insieme le cose è super importante per le industrie future che vogliono essere super intelligenti ed efficienti. Per supportare questa esigenza, abbiamo creato un nuovo dataset chiamato HA-ViD. Questo dataset è il primo del suo genere che include video che mostrano persone mentre assemblano oggetti in diverse situazioni.
Il dataset include video che mostrano vari compiti di assemblaggio, strumenti e parti, e anche come gli esseri umani interagiscono con i robot durante questi compiti. Cattura tanti modi diversi in cui le persone lavorano insieme per completare i compiti di assemblaggio e registra le loro azioni, pensieri e processi di apprendimento.
Che cos'è HA-ViD?
HA-ViD sta per Human Assembly Video Dataset. È progettato per aiutare i ricercatori e gli ingegneri a capire e migliorare come i robot imparano a lavorare insieme alle persone durante i compiti di assemblaggio. Il dataset include un totale di 3222 video, 1,5 milioni di fotogrammi e etichette dettagliate per azioni, oggetti e strumenti coinvolti nel processo di assemblaggio.
Perché è importante?
Con le industrie che diventano sempre più automatizzate e dipendenti dai robot, capire come esseri umani e robot possano collaborare per portare a termine i compiti è fondamentale. La capacità di imparare dai video aiuta le macchine e i sistemi a migliorare le loro prestazioni nei contesti reali.
Questo dataset supporterà la ricerca in vari ambiti, tra cui l'apprendimento delle abilità per i robot, il controllo qualità e il lavoro di squadra tra umani e macchine.
Caratteristiche del dataset
Raccolta Video
Il dataset HA-ViD è composto da video che catturano persone mentre assemblano una scatola fatta di parti standard e comunemente utilizzate. I compiti di assemblaggio sono stati progettati per includere sia parti standard che non standard per simulare scenari reali. In totale, 30 partecipanti hanno preso parte alle sessioni di registrazione video.
I video sono stati raccolti usando tre telecamere posizionate per catturare diversi angoli dei compiti di assemblaggio. Le registrazioni hanno avuto luogo sia in condizioni di laboratorio controllate che in ambienti con illuminazione naturale, consentendo una raccolta diversificata di filmati.
Tre Fasi di Assemblaggio
I compiti di assemblaggio sono stati organizzati in tre fasi per catturare come le persone apprendono e svolgono i compiti:
Fase di Scoperta: Ai partecipanti sono state date solo istruzioni minime e sono stati incoraggiati a scoprire da soli.
Fase di Istruzione: Sono state fornite istruzioni dettagliate passo-passo per guidare i partecipanti attraverso il processo di assemblaggio. Ogni partecipante ha lavorato con versioni diverse delle istruzioni.
Fase di Pratica: In questa fase finale, è stato chiesto ai partecipanti di assemblare la scatola senza istruzioni. Questo approccio ha aiutato a osservare l'apprendimento naturale e l'acquisizione di abilità.
Annotazioni e Etichette
HA-ViD include vari tipi di annotazioni che forniscono informazioni dettagliate su ciascun compito di assemblaggio:
Annotazioni Temporali: Queste etichette identificano quando si verificano azioni specifiche durante il processo di assemblaggio. Scompondo ogni compito in parti più piccole e descrivendo quali azioni sono state intraprese, quali strumenti sono stati utilizzati e quali oggetti sono stati coinvolti.
Annotazioni Spaziali: Queste etichette coinvolgono la marcatura di oggetti specifici, strumenti e partecipanti nei video. Le annotazioni aiutano a identificare le relazioni tra i diversi elementi coinvolti nell'assemblaggio.
Diversità nella Collaborazione
Il dataset cattura una gamma di schemi di collaborazione. Alcuni compiti richiedono collaborazione a due mani, mentre altri possono essere svolti con una mano sola. Le annotazioni dettagliate classificano i compiti in base a come i partecipanti interagiscono durante l'assemblaggio.
Confronto con Dataset Esistenti
I dataset precedenti focalizzati sui compiti di assemblaggio avevano spesso limitazioni. Mostravano scene molto specifiche o mancavano della varietà di parti e strumenti che si trovano di solito in un ambiente di assemblaggio reale.
Al contrario, HA-ViD enfatizza la cattura di comportamenti naturali come pause, errori e metodi variabili di completamento dei compiti. Questo approccio consente una migliore comprensione di come le persone apprendono e svolgono l'assemblaggio, che di solito manca nei dataset esistenti.
La Scatola di Assemblaggio Generica
Progettazione della Scatola
Il dataset è costruito attorno a una Scatola di Assemblaggio Generica (GAB) progettata specificamente per questo scopo. La scatola misura 250mm x 250mm x 250mm e contiene sia parti standard che uniche comunemente usate nell'assemblaggio industriale.
In totale, la scatola include 35 parti diverse e richiede quattro strumenti standard per assemblarla. Il design consente ai partecipanti di svolgere compiti da più angolazioni, somigliando alle situazioni di assemblaggio del mondo reale.
Piatti di Assemblaggio
La GAB è composta da tre piatti, ognuno con un diverso set di compiti di assemblaggio:
Piatto Generale: Questo piatto include una varietà di parti per incoraggiare azioni di assemblaggio diverse.
Piatto Ingranaggi: Questo piatto è progettato per attività che richiedono coordinazione a due mani per inserire gli ingranaggi in posizione.
Piatto Cilindro: Questo piatto richiede ai partecipanti di lavorare insieme per fissare gli oggetti insieme.
Questi piatti sono stati progettati per riflettere le diverse abilità e dinamiche di collaborazione necessarie per l'assemblaggio del mondo reale.
Apprendere dal Dataset
Processo di Apprendimento Naturale
Il dataset mira a catturare il processo di apprendimento naturale dei partecipanti mentre si impegnano in compiti di assemblaggio. Ciò include osservare le loro azioni, errori e miglioramenti nel tempo mentre progrediscono dalla fase di scoperta alla fase di pratica.
Riconoscimento e Segmentazione delle azioni
Il dataset può aiutare i ricercatori a sviluppare algoritmi migliori per comprendere le azioni umane nei compiti di assemblaggio.
Riconoscimento delle azioni: Questo si riferisce alla capacità di un sistema di identificare quale azione un partecipante sta svolgendo in un dato momento.
Segmentazione delle Azioni: Questo implica determinare esattamente quando un'azione finisce e un'altra inizia, consentendo una scomposizione dettagliata del processo di assemblaggio.
Comprendere come i partecipanti svolgono queste azioni può portare a progressi su come i robot apprendono dal comportamento umano.
Benchmarking e Analisi
Il dataset HA-ViD è stato usato per confrontare diversi metodi all'avanguardia nel campo del riconoscimento delle azioni, rilevamento degli oggetti e tracciamento multi-oggetto.
Misurazione delle Prestazioni
Il dataset aiuta a misurare le prestazioni delle tecniche di comprensione video basate sull'efficacia di riconoscere azioni e interazioni nei video.
Intuizioni e Risultati
I risultati hanno portato a intuizioni importanti, come le sfide nell riconoscere azioni che richiedono collaborazione tra due mani e l'importanza della segmentazione delle azioni per monitorare accuratamente i compiti durante l'assemblaggio.
Direzioni Future
Il dataset HA-ViD apre molte possibilità per ulteriori ricerche. Le aree di esplorazione includono il miglioramento della collaborazione tra umani e robot, l'arricchimento dell'apprendimento dei robot dalle azioni umane e l'avanzamento della comprensione dei processi di assemblaggio complessi.
Supporto per l'Industria
Questo dataset può essere una risorsa preziosa per le industrie che cercano di migliorare i loro processi di automazione. Imparando dal comportamento umano, i robot saranno meglio attrezzati per assistere gli esseri umani nei compiti, portando a una maggiore produttività ed efficienza nelle linee di assemblaggio.
Conclusione
In conclusione, HA-ViD è il primo dataset completo volto a comprendere la conoscenza dell'assemblaggio attraverso l'analisi video. Concentrandosi sui processi di assemblaggio del mondo reale, il nostro dataset fornisce una base per avanzare nella robotica collaborativa e migliorare l'efficienza complessiva dell'assemblaggio industriale.
I dati diversi, le annotazioni dettagliate e le intuizioni raccolte dal dataset HA-ViD rappresentano un passo significativo avanti sia per la ricerca accademica che per le applicazioni pratiche nel campo dell'automazione e dell'interazione uomo-robot.
Lo sviluppo e l'analisi continui utilizzando questo dataset promettono di portare a ulteriori progressi nella comprensione di come robot e umani possano lavorare insieme in modo efficace nei compiti di assemblaggio, preparando il terreno per fabbriche più intelligenti e soluzioni industriali innovative.
Titolo: HA-ViD: A Human Assembly Video Dataset for Comprehensive Assembly Knowledge Understanding
Estratto: Understanding comprehensive assembly knowledge from videos is critical for futuristic ultra-intelligent industry. To enable technological breakthrough, we present HA-ViD - the first human assembly video dataset that features representative industrial assembly scenarios, natural procedural knowledge acquisition process, and consistent human-robot shared annotations. Specifically, HA-ViD captures diverse collaboration patterns of real-world assembly, natural human behaviors and learning progression during assembly, and granulate action annotations to subject, action verb, manipulated object, target object, and tool. We provide 3222 multi-view, multi-modality videos (each video contains one assembly task), 1.5M frames, 96K temporal labels and 2M spatial labels. We benchmark four foundational video understanding tasks: action recognition, action segmentation, object detection and multi-object tracking. Importantly, we analyze their performance for comprehending knowledge in assembly progress, process efficiency, task collaboration, skill parameters and human intention. Details of HA-ViD is available at: https://iai-hrc.github.io/ha-vid.
Autori: Hao Zheng, Regina Lee, Yuqian Lu
Ultimo aggiornamento: 2023-07-09 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2307.05721
Fonte PDF: https://arxiv.org/pdf/2307.05721
Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://iai-hrc.github.io/ha-vid
- https://iai-hrc.github.io/hr-sat
- https://www.cvat.ai/
- https://github.com/open-mmlab/mmskeleton
- https://github.com/open-mmlab/mmaction2
- https://github.com/piergiaj/pytorch-i3d
- https://github.com/open-mmlab/mmyolo
- https://www.dropbox.com/sh/ekjle5bwoylmdcf/AACLd_NqT3p2kxW7zLvvauPta?dl=0
- https://creativecommons.org/licenses/by-nc/4.0/