Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli

Sviluppi nei Dati Sintetici per il Riconoscimento EHOI

Uno studio sull'uso di dati sintetici per migliorare il rilevamento dell'interazione uomo-oggetto in contesti industriali.

― 7 leggere min


EHOI Detection con DatiEHOI Detection con DatiSinteticiusando dati sintetici.Migliorare i metodi di rilevamento
Indice

Negli ultimi anni, i dispositivi indossabili sono diventati super popolari perché offrono una visione unica di come gli utenti interagiscono con l'ambiente che li circonda. Un grande vantaggio di questi dispositivi è che possono raccogliere informazioni visive senza che gli utenti debbano tenere in mano gadget, offrendo un'esperienza più naturale. Analizzando queste informazioni visive, i sistemi intelligenti possono aiutare le persone in vari ambiti, come le attività quotidiane, quelle culturali e i compiti industriali. In contesti industriali, la visione ego-centrica può aiutare a capire il comportamento dei lavoratori, migliorare la sicurezza sul lavoro e aumentare la produttività. Per esempio, riconoscendo le mani dei lavoratori e identificando gli oggetti con cui stanno interagendo, è possibile monitorare come vengono usati gli strumenti, fornire informazioni sulle procedure e migliorare la sicurezza avvisando i lavoratori quando manipolano oggetti pericolosi.

Le ricerche passate si sono concentrate sul Rilevamento dell'Interazione Uomo-Oggetto (HOI) sia da una prospettiva di terza persona che dal punto di vista di prima persona. Anche se studi precedenti hanno esaminato scenari generali, la loro applicazione negli ambienti industriali è ancora insufficiente a causa della mancanza di dataset pubblici disponibili. Per costruire un sistema che possa rilevare le Interazioni Ego-centriche Uomo-Oggetto (EHOI) in questi contesti, è generalmente necessario raccogliere e etichettare dati specifici del dominio, cosa che può risultare costosa e richiedere molto tempo. Inoltre, problemi di privacy e segreti industriali possono complicare gli sforzi di raccolta dati.

Generazione di Immagini EHOI Sintetiche

Questo studio esplora se l'uso di dati sintetici può ridurre la necessità di dati reali etichettati per addestrare i modelli, potenzialmente abbattendo i costi di sviluppo dei dataset appropriati. Offriamo una pipeline e uno strumento specializzati che, sfruttando modelli 3D dell'ambiente e degli oggetti necessari, generano un numero significativo di immagini EHOI sintetiche con diverse etichette automatiche, come riquadri per mani e oggetti, categorie per quegli oggetti, dettagli sulle mani e mappe di profondità.

Attraverso questo metodo, introduciamo EgoISM-HOI, un nuovo dataset composto da immagini EHOI sintetiche create in un ambiente industriale con annotazioni dettagliate per mani e oggetti. Per dimostrare l'utilità dei dati sintetici generati attraverso il nostro strumento, abbiamo sviluppato un metodo che prevede e combina vari segnali per rilevare EHOI utilizzando immagini RGB. I nostri risultati indicano che l'utilizzo di dati sintetici per pre-addestrare il nostro metodo migliora drasticamente le sue prestazioni quando viene valutato su dati reali. Per evidenziare appieno i vantaggi del nostro metodo, abbiamo condotto un'analisi approfondita e un confronto con diversi metodi all'avanguardia.

Per facilitare ulteriori ricerche, stiamo rilasciando i nostri dataset, codice sorgente e modelli pre-addestrati.

L'Ascesa dei Dispositivi Indossabili

I recenti progressi nei dispositivi indossabili hanno trasformato il modo in cui percepiamo l'ambiente intorno a noi. Questi dispositivi offrono una prospettiva di prima persona, dando spunti su come gli utenti interagiscono con i loro ambienti quotidiani. Un grande vantaggio dei wearable è la loro capacità di raccogliere e elaborare dati visivi senza bisogno di dispositivi portatili, permettendo agli utenti di svolgere i compiti in modo naturale.

Con la capacità di analizzare dati visivi, i sistemi intelligenti possono supportare gli utenti in vari ambiti, come la vita quotidiana e le attività industriali. In un ambiente industriale, la visione ego-centrica può essere applicata per comprendere il comportamento dei lavoratori, rafforzare i protocolli di sicurezza e migliorare la produttività. Ad esempio, riconoscendo le mani dei lavoratori e gli strumenti che usano, diventa fattibile monitorare l'uso degli attrezzi e fornire le informazioni procedurali necessarie, oltre a emettere avvisi quando i lavoratori gestiscono oggetti potenzialmente pericolosi.

Comprendere le Interazioni Uomo-Oggetto

Studi precedenti hanno affrontato la classificazione delle Interazioni Uomo-Oggetto (HOI) sia da prospettive di prima persona che di terza persona. Molti di questi sforzi si sono concentrati su scenari generici, come quelli trovati nel dataset COCO, oppure hanno adottato framework che non si basano su classi specifiche. Tuttavia, l'applicazione di questi metodi negli ambienti industriali resta ancora poco studiata, principalmente a causa della disponibilità limitata di dataset pubblici.

Per un sistema efficace di rilevamento EHOI negli ambienti industriali, di solito è necessario raccogliere e etichettare ampi dati specifici del dominio; tuttavia, i costi e il tempo coinvolti, insieme alle preoccupazioni sulla privacy, possono limitare le opportunità di sviluppo efficace dei dataset.

Avanzare nella Generazione di Immagini EHOI Sintetiche

Per affrontare il problema dei dataset limitati negli ambienti industriali, proponiamo una pipeline completa per generare immagini EHOI sintetiche. Utilizzando modelli 3D ottenuti dallo scanning di oggetti e ambienti reali, possiamo creare immagini sintetiche realistiche automaticamente etichettate con annotazioni essenziali. I dati generati includono informazioni fondamentali come le posizioni delle mani e gli oggetti con cui interagiscono, insieme ad ulteriori segnali di dati come mappe di profondità.

Il nostro strumento progettato opera sul motore Unity, consentendo agli utenti di creare vari scenari realistici. Il dataset Sintetico include una gamma ampia di immagini utilizzabili per addestrare modelli, il che aiuta a ridurre la necessità di una vasta raccolta di dati nel mondo reale.

Il Dataset EgoISM-HOI

Il dataset EgoISM-HOI è composto da due parti: un insieme di immagini sintetiche generate attraverso la nostra pipeline di generazione EHOI e un insieme di video reali raccolti in un laboratorio industriale.

Per prima cosa, EgoISM-HOI-Synth include oltre 23.000 immagini con rispettive mappe di profondità e maschere di segmentazione istantanea. Questo componente presenta anche un alto numero di istanze delle mani e numerose istanze di oggetti.

Secondo, EgoISM-HOI-Real consiste in 42 video egocentrici del mondo reale in cui i partecipanti eseguivano compiti su schede elettriche utilizzando vari strumenti di laboratorio. Il processo di acquisizione dei dati ha utilizzato un'applicazione specializzata progettata per Microsoft Hololens 2, guidando gli utenti attraverso procedure complesse mentre raccoglieva preziose riprese video.

Dati Sintetici e i Loro Vantaggi

Abbiamo cercato di valutare se i dati multimodali sintetici potessero migliorare l'efficacia dei metodi di rilevamento EHOI. La nostra ricerca ha portato allo sviluppo di un approccio di rilevamento che sfrutta segnali multimodali, come mappe di profondità e maschere di segmentazione istantanea, per migliorare le prestazioni dei modelli tradizionali di rilevamento HOI.

Gli esperimenti hanno dimostrato che i modelli addestrati con i nostri dati sintetici superano significativamente quelli costruiti esclusivamente su dati reali. Questi risultati suggeriscono che i dati sintetici potrebbero essere uno strumento potente in situazioni in cui i dataset reali sono limitati o difficili da raccogliere.

L'Impatto dei Segnali Multimodali

La fase successiva della nostra ricerca si è concentrata sulla comprensione del contributo delle varie modalità al compito di rilevamento EHOI. Il nostro metodo includeva vari componenti, come un backbone per l'estrazione delle caratteristiche, un rilevatore di oggetti, un ramo di segmentazione istantanea e un ramo di stima della profondità monoculare.

Attraverso i nostri esperimenti, abbiamo valutato come l'uso di diverse combinazioni di modalità avrebbe influenzato le prestazioni del sistema. I risultati indicavano che combinare segnali provenienti da più fonti produceva previsioni più accurate, soprattutto nel prevedere lo stato di contatto delle mani.

Il Potenziale dei Dati Sintetici

Oltre a migliorare il rilevamento EHOI, abbiamo cercato di indagare come i dati sintetici potessero influenzare positivamente il compito correlato del rilevamento degli oggetti. Abbiamo condotto esperimenti per analizzare quanto bene i nostri modelli avrebbero performato nell'identificare vari oggetti nell'ambiente industriale. I risultati hanno mostrato che i modelli addestrati utilizzando dati sintetici insieme a dati reali superavano costantemente quelli basati esclusivamente su dati reali.

Questo risultato ha evidenziato il potenziale dei dati sintetici nel migliorare non solo il rilevamento EHOI, ma anche nell'ottimizzare compiti più ampi di rilevamento degli oggetti. L'enorme quantità di dati sintetici generati ha permesso ai nostri modelli di apprendere rappresentazioni robuste che si generalizzano efficacemente alle applicazioni del mondo reale.

Conclusione

Questa ricerca ha esaminato le interazioni uomo-oggetto ego-centriche in un contesto industriale. Affrontando le sfide associate alla raccolta di dati reali, abbiamo sviluppato una pipeline e uno strumento per generare immagini sintetiche di EHOI insieme alle rispettive annotazioni. L'introduzione del dataset EgoISM-HOI ha fornito ai ricercatori una risorsa preziosa per ulteriori studi in questo ambito.

I nostri risultati suggeriscono che i dati sintetici possono migliorare significativamente le prestazioni dei metodi di rilevamento EHOI, specialmente in circostanze in cui i dati del mondo reale sono scarsi. Guardando avanti, le ricerche future esploreranno le implicazioni dei nostri risultati in altri ambiti correlati, come il rilevamento di oggetti attivi e il riconoscimento delle azioni.

Per promuovere ulteriori studi in questo campo, abbiamo reso disponibili i dataset, il codice sorgente e i modelli pre-addestrati. Combinando queste risorse con le intuizioni ottenute dalla nostra ricerca, speriamo di ispirare ulteriori progressi nella comprensione delle interazioni uomo-oggetto in vari ambienti.

Fonte originale

Titolo: Exploiting Multimodal Synthetic Data for Egocentric Human-Object Interaction Detection in an Industrial Scenario

Estratto: In this paper, we tackle the problem of Egocentric Human-Object Interaction (EHOI) detection in an industrial setting. To overcome the lack of public datasets in this context, we propose a pipeline and a tool for generating synthetic images of EHOIs paired with several annotations and data signals (e.g., depth maps or segmentation masks). Using the proposed pipeline, we present EgoISM-HOI a new multimodal dataset composed of synthetic EHOI images in an industrial environment with rich annotations of hands and objects. To demonstrate the utility and effectiveness of synthetic EHOI data produced by the proposed tool, we designed a new method that predicts and combines different multimodal signals to detect EHOIs in RGB images. Our study shows that exploiting synthetic data to pre-train the proposed method significantly improves performance when tested on real-world data. Moreover, to fully understand the usefulness of our method, we conducted an in-depth analysis in which we compared and highlighted the superiority of the proposed approach over different state-of-the-art class-agnostic methods. To support research in this field, we publicly release the datasets, source code, and pre-trained models at https://iplab.dmi.unict.it/egoism-hoi.

Autori: Rosario Leonardi, Francesco Ragusa, Antonino Furnari, Giovanni Maria Farinella

Ultimo aggiornamento: 2024-03-11 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2306.12152

Fonte PDF: https://arxiv.org/pdf/2306.12152

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili