Progressi nel riconoscimento delle azioni umane usando gli IMU
Un metodo che combina dati visivi e IMU per una migliore riconoscimento delle azioni.
― 6 leggere min
Indice
- Combinare Dati Visivi e di Movimento
- La Sfida con i Sistemi Attuali
- Vantaggi delle IMU
- La Necessità di Integrazione
- Il Nostro Approccio
- Risultati e Scoperte
- Comprendere l'Architettura del Modello
- Processo di Addestramento e Testing
- Esperimenti su Diversi Dataset
- Superare i Limiti
- Confronto delle Prestazioni con Altri Modelli
- Esperimenti Aggiuntivi
- Conclusione
- Fonte originale
- Link di riferimento
Nel nostro mondo, raccogliamo informazioni attraverso diversi sensi. La maggior parte dei sistemi AI usa principalmente dati visivi e testuali per capire le azioni umane. Però, c'è un modo nuovo per migliorare questa comprensione usando dispositivi chiamati Unità di Misura Inerziali (IMU). Questi dispositivi possono tracciare i movimenti, ma sono spesso difficili da gestire perché i dati che raccolgono non sono facili da interpretare e a volte scarsi.
Combinare Dati Visivi e di Movimento
Ci concentriamo su un metodo che unisce conoscenze dai dati visivi e dai dati delle IMU. L'idea principale è creare uno spazio comune che aiuti a riconoscere le azioni svolte dagli esseri umani, anche quando un tipo di dato manca di etichette. Questo metodo si chiama Fusion and Cross-modal Transfer (FACT). Usando questo metodo, vogliamo addestrare un modello che possa apprendere dai dati visivi e poi applicare quell'apprendimento per interpretare i dati delle IMU senza necessità di esempi etichettati durante l'addestramento.
La Sfida con i Sistemi Attuali
Mentre gli esseri umani possono imparare nuovi movimenti solo guardando qualcun altro, insegnare ai modelli di machine learning a fare lo stesso attraverso diversi tipi di sensori non è facile. La maggior parte dei sistemi di deep learning lavora con dati visivi e testuali perché sono quelli che hanno in abbondanza. Usare continuamente telecamere per raccogliere dati visivi o modelli testuali per raccogliere informazioni non è sempre pratico, rendendo questi sistemi meno efficaci nelle applicazioni reali.
Vantaggi delle IMU
Le IMU raccolgono dati come accelerazione e rotazione da dispositivi fisici come smartwatch e smartphone. Offrono un modo più discreto per monitorare le attività umane senza essere invadenti. Molti dispositivi indossabili hanno IMU integrate. Eppure, il potenziale di questi dispositivi non è spesso completamente sfruttato nel machine learning a causa di sfide come dati limitati e la difficoltà di interpretare questi dati.
La Necessità di Integrazione
Man mano che diversi tipi di sensori diventano più popolari, sorge una domanda urgente: come possiamo usare nuovi sensori insieme a quelli più vecchi quando non ci sono dati etichettati disponibili? Una soluzione è usare dati ben documentati da un sensore per migliorare le conoscenze relative al nuovo sensore. Questo processo è noto come trasferimento cross-modale. Tuttavia, le tecniche esistenti dipendono principalmente dall'avere alcuni dati etichettati per ogni sensore durante l'addestramento, cosa rara.
Il Nostro Approccio
La nostra ipotesi è che esista una struttura o uno spazio nascosto che collega vari tipi di sensori, consentendo un migliore Riconoscimento delle Azioni Umane. Esploriamo diversi modi per creare questa struttura e vedere se può aiutare a trasferire l'apprendimento da un sensore all'altro, anche senza etichette per il secondo sensore.
Nel nostro metodo, chiamato FACT, lo testiamo usando dati sia da video RGB (a colori) che da sensori IMU provenienti da quattro diversi dataset. Durante l'addestramento, usiamo dati etichettati dai video RGB e dati non etichettati dalle IMU. L'obiettivo è vedere se il modello può imparare a riconoscere azioni dai dati delle IMU quando viene testato successivamente.
Risultati e Scoperte
I nostri esperimenti mostrano che il metodo FACT funziona significativamente meglio rispetto ai metodi esistenti nel riconoscere azioni dai dati delle IMU senza etichette precedenti. I test dimostrano anche che il modello può capire le azioni semplicemente guardando i dati delle IMU, dimostrando capacità di trasferimento cross-modale.
Comprendere l'Architettura del Modello
La struttura di FACT è progettata per permettere a diversi componenti di lavorare insieme durante l'addestramento. Questa flessibilità significa che possiamo facilmente adattarla per diversi tipi di sensori e compiti. Il modello è composto da tre parti principali:
- Video Feature Encoder: Questo elabora i frame video usando una rete standard, estraendo caratteristiche chiave.
- IMU Feature Encoder: Questo usa una rete convoluzionale unidimensionale per analizzare i dati delle IMU.
- HAR Task Decoder: Questo modulo prende le caratteristiche estratte e prevede l'azione che si sta svolgendo.
Abbiamo anche sviluppato una versione a conoscenza temporale di FACT chiamata T-FACT, che considera il tempo quando allinea e combina dati provenienti da diversi sensori.
Processo di Addestramento e Testing
L'addestramento del modello consiste in due passaggi:
- Apprendere dai dati RGB etichettati per stabilire un modello di riconoscimento delle azioni umane (HAR).
- Allineare le rappresentazioni dai dati RGB e IMU per migliorare il trasferimento cross-modale.
Quando testiamo, il modello deve prevedere azioni solo dai dati delle IMU, senza aver visto queste etichette durante l'addestramento.
Esperimenti su Diversi Dataset
Eseguiamo test utilizzando diversi dataset, tra cui UTD-MHAD, CZU-MHAD, MMACT e MMEA-CL. Ognuno di questi dataset presenta sfide uniche e ci aiuta a valutare l'efficacia del metodo FACT in scenari diversi.
- UTD-MHAD: Questo dataset ha più tipi di dati, come RGB, scheletrico, profondità e IMU. Aiuta a convalidare quanto bene FACT può funzionare con i dati reali.
- CZU-MHAD: Questo dataset è più controllato e consente una migliore misurazione delle prestazioni del modello grazie a un ambiente costante.
- MMACT: Un dataset più grande che include varie scene in cui si svolgono azioni, rendendo le previsioni più complicate.
- MMEA-CL: Focalizzato su azioni quotidiane, questo dataset mette alla prova l'adattabilità del modello a diverse attività.
Superare i Limiti
Anche se molti studi si concentrano sul gestire i dati mancanti durante l'addestramento o il testing, pochi affrontano la situazione in cui non ci sono dati etichettati disponibili da un tipo di sensore. Questa lacuna rende complesso stabilire metodi di base.
Abbiamo sviluppato metodi di base, come i modelli studente-insegnante, che di solito richiedono dati etichettati da entrambi i sensori. Il nostro approccio è diverso poiché FACT può operare senza etichette da un sensore, usando i dati per trovare relazioni tra di essi.
Confronto delle Prestazioni con Altri Modelli
I modelli di fusione dei sensori esistenti sono bravi a gestire dati incompleti, ma non gestiscono bene il caso di avere zero dati etichettati durante l'addestramento. Abbiamo mostrato che questi modelli faticano rispetto a FACT, che può sfruttare le conoscenze dai dati etichettati su un sensore per informare l'altro.
Abbiamo anche esaminato i metodi di apprendimento contrastivo, specificamente quanto bene questi possono funzionare sui nostri dati. Alcuni modelli, come ImageBind, non hanno funzionato efficacemente con i dati delle IMU, soprattutto perché questo approccio è stato progettato per compiti diversi.
Esperimenti Aggiuntivi
Per garantire l'efficacia di FACT, abbiamo condotto vari esperimenti per ottimizzare e comprendere meglio le sue prestazioni. Abbiamo analizzato come il modello si comporta in diverse condizioni, valutando la sua robustezza e adattabilità in vari contesti.
Abbiamo effettuato studi di ablation per identificare quale metodo di allenamento produce i migliori risultati, determinando il modo migliore per allineare e addestrare il modello.
Conclusione
Attraverso la nostra ricerca, abbiamo scoperto un metodo promettente per trasferire conoscenze tra diversi tipi di sensori, in particolare dai dati visivi alle IMU. Il nostro approccio, FACT, dimostra capacità significative, anche in scenari di addestramento senza etichette, e mostra prospettive per applicazioni pratiche nella tecnologia quotidiana, come dispositivi indossabili e dispositivi smart.
Creando un modo per integrare efficientemente varie modalità sensoriali, FACT punta a migliorare come l'AI comprende le azioni umane in contesti reali. In questo modo, poniamo le basi per lavori futuri in quest'area, aprendo la porta a nuovi sviluppi nel machine learning e nelle sue applicazioni.
Titolo: C3T: Cross-modal Transfer Through Time for Human Action Recognition
Estratto: In order to unlock the potential of diverse sensors, we investigate a method to transfer knowledge between modalities using the structure of a unified multimodal representation space for Human Action Recognition (HAR). We formalize and explore an understudied cross-modal transfer setting we term Unsupervised Modality Adaptation (UMA), where the modality used in testing is not used in supervised training, i.e. zero labeled instances of the test modality are available during training. We develop three methods to perform UMA: Student-Teacher (ST), Contrastive Alignment (CA), and Cross-modal Transfer Through Time (C3T). Our extensive experiments on various camera+IMU datasets compare these methods to each other in the UMA setting, and to their empirical upper bound in the supervised setting. The results indicate C3T is the most robust and highest performing by at least a margin of 8%, and nears the supervised setting performance even in the presence of temporal noise. This method introduces a novel mechanism for aligning signals across time-varying latent vectors, extracted from the receptive field of temporal convolutions. Our findings suggest that C3T has significant potential for developing generalizable models for time-series sensor data, opening new avenues for multi-modal learning in various applications.
Autori: Abhi Kamboj, Anh Duy Nguyen, Minh Do
Ultimo aggiornamento: 2024-11-07 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2407.16803
Fonte PDF: https://arxiv.org/pdf/2407.16803
Licenza: https://creativecommons.org/licenses/by-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://wandb.ai/akamboj2/mmea-toy-RGB-IMU-HAR-middle/runs/w5xfs7uw
- https://wandb.ai/akamboj2/mmact-toy-RGB-IMU-HAR-student_teacher/runs/61fhy5iv/logs?nw=nwuserakamboj2
- https://wandb.ai/akamboj2/toy-RGB-IMU-HAR-student_teacher/runs/ild8v883/logs?nw=nwuserakamboj2
- https://wandb.ai/akamboj2/mmea-toy-RGB-IMU-HAR-attn/runs/h2dbhc4y
- https://wandb.ai/akamboj2/mmact-toy-RGB-IMU-HAR-attn/runs/l0v907j4
- https://wandb.ai/akamboj2/czu_mhad-toy-RGB-IMU-HAR-cross_modal1/runs/ttbbt8ib
- https://wandb.ai/akamboj2/mmact-toy-RGB-IMU-HAR-cross_modal1/runs/52o5h6zp/logs?nw=nwuserakamboj2
- https://wandb.ai/akamboj2/mmea-toy-RGB-IMU-HAR-cross_modal1/runs/8sl63dz1
- https://wandb.ai/akamboj2/czu_mhad-toy-RGB-IMU-HAR-cross_modal1/runs/lnlvooub
- https://wandb.ai/akamboj2/mmea-toy-RGB-IMU-HAR-cross_modal1/runs/mc2mglwh/logs?nw=nwuserakamboj2
- https://wandb.ai/akamboj2/toy-RGB-IMU-HAR-cross_modal1_keep_time/runs/sot1d1rr/logs?nw=nwuserakamboj2
- https://wandb.ai/akamboj2/czu_mhad-toy-RGB-IMU-HAR-cross_modal1_keep_time/runs/cyhr0gi7
- https://wandb.ai/akamboj2/mmact-toy-RGB-IMU-HAR-cross_modal1_keep_time/runs/8k7stei0
- https://wandb.ai/akamboj2/mmea-toy-RGB-IMU-HAR-cross_modal1_keep_time/runs/fzqau8u9
- https://wandb.ai/akamboj2/mmea-toy-RGB-IMU-HAR-cross_modal1_keep_time/runs/grddij6f
- https://mmact19.github.io/challenge/
- https://tex.stackexchange.com/questions/413603/how-to-adjust-subfigure-caption-width
- https://tex.stackexchange.com/questions/119984/subfigures-side-by-side-with-captions
- https://nips.cc/public/guides/CodeSubmissionPolicy
- https://neurips.cc/public/EthicsGuidelines