Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Apprendimento automatico# Calcolo e linguaggio# Visione artificiale e riconoscimento di modelli

Migliorare il riconoscimento dell'attività umana con dati multimodali

Un nuovo approccio migliora il riconoscimento delle attività combinando vari tipi di dati.

― 7 leggere min


Migliorare le prestazioniMigliorare le prestazioninel riconoscimento delleattivitàriconoscere le attività umane.Un nuovo modello è fantastico nel
Indice

Riconoscere l'Attività umana è un compito importante nell'intelligenza artificiale che può essere usato in molti settori, come la sanità, il fitness, la sicurezza e la robotica. Questo compito, noto come Riconoscimento dell'Attività Umana (HAR), implica identificare azioni specifiche che gli esseri umani svolgono in base ai Dati ricevuti da varie fonti, o modalità. Queste possono includere immagini da telecamere e dati da sensori indossabili come smartwatch o smartphone.

Il successo dell'HAR dipende dalla qualità e dal tipo di dati disponibili. Video di alta qualità possono fornire informazioni dettagliate per un riconoscimento accurato. Tuttavia, in molti casi, queste registrazioni di alta qualità non sono disponibili a causa di problemi di privacy o mancanza di attrezzatura. Al contrario, i dati provenienti da sensori indossabili, che si trovano più comunemente nei dispositivi di uso quotidiano, sono spesso limitati. Questi sensori forniscono dati meno informativi, rendendo il compito più difficile.

La Sfida del Riconoscimento dell'Attività Umana

Le attività umane possono variare ampiamente da persona a persona e possono essere svolte in contesti diversi. Questa variabilità rende difficile riconoscere le attività. La sfida diventa ancora più evidente nelle situazioni reali dove le condizioni cambiano frequentemente e diverse azioni vengono eseguite in vari ambienti.

Tradizionalmente, ci sono due principali modi per riconoscere le attività: usando un solo tipo di dati (riconoscimento unimodale) o utilizzando più tipi di dati (riconoscimento Multimodale). I metodi di riconoscimento unimodale si basano su dati provenienti da una sola fonte, come immagini o dati dei sensori. Anche se questi metodi possono essere efficaci, spesso perdono dettagli importanti necessari per un riconoscimento accurato. Pertanto, l'approccio di combinare dati da più fonti-il riconoscimento multimodale-ha guadagnato maggiore attenzione negli ultimi anni.

L'Importanza del Riconoscimento Multimodale

Combinando diversi tipi di dati, il riconoscimento multimodale può fornire un quadro più completo dell'attività umana. Ad esempio, usare sia dati video che dati dei sensori può migliorare l'accuratezza del riconoscimento colmando le lacune che ciascuna fonte da sola potrebbe perdere.

I recenti sviluppi nella tecnologia, specialmente nella visione artificiale, hanno reso possibile ottenere risultati notevoli con immagini di alta qualità. Questi progressi includono modelli grandi che possono interpretare e descrivere le immagini in modo accurato. Tuttavia, la disponibilità di immagini di buona qualità è spesso limitata. In molte situazioni quotidiane, i sensori indossabili sono più facilmente accessibili.

Sfortunatamente, i dati provenienti da questi sensori spesso mancano della profondità necessaria per un riconoscimento accurato. I sensori indossabili possono fornire segnali che non indicano chiaramente le attività della persona, rendendo difficile interpretare le loro azioni. Inoltre, mentre grandi quantità di dati dei sensori possono essere raccolte, trovare dati di addestramento etichettati-dati che sono categorizzati per scopi di apprendimento-rimane un ostacolo significativo.

Osservazioni Chiave per il Miglioramento

Affrontando le sfide dell'HAR, diverse osservazioni chiave possono guidare i ricercatori e gli sviluppatori:

  1. Modalità Flessibili nell'Addestramento: Sebbene i dati di input disponibili durante l'uso nel mondo reale possano essere ristretti, c'è flessibilità nella scelta delle modalità di input durante l'addestramento. Questo significa che una gamma più ampia di fonti di dati può essere utilizzata per migliorare il processo di apprendimento.

  2. Apprendimento della Rappresentazione: Questo processo può aiutare a condividere conoscenze tra diversi tipi di dati allineando le loro Caratteristiche. Questo metodo è più efficace quando i dati di addestramento delle varie modalità sono sincronizzati.

  3. Generazione di Dati Sintetici: I progressi nella tecnologia ora permettono di creare dati artificiali per sensori basati su video e altre fonti. Gli strumenti possono generare dati simulati dei sensori dai video, il che significa che anche senza letture dirette dei sensori, possono essere creati dati di addestramento significativi.

L'Approccio Proposto: MuJo

Il metodo proposto, noto come MuJo, mira a migliorare l'HAR apprendendo uno spazio di caratteristiche unificate che incorpora vari tipi di dati, inclusi video, linguaggio, pose, e dati da unità di misura inerziali (IMU) presenti nei dispositivi indossabili. Utilizzando una combinazione di tecniche di apprendimento contrastivo e multitasking, MuJo cerca di analizzare diverse strategie per apprendere una rappresentazione condivisa in modo efficace.

MuJo utilizza un grande dataset che include dati paralleli da video, descrizioni linguistiche, pose e dati dei sensori per supportare il suo sviluppo. Questo dataset consente di analizzare quanto bene funziona lo spazio delle caratteristiche congiunto quando si trova di fronte a dati incompleti o di bassa qualità.

Esperimenti usando il dataset MM-Fit, una raccolta di dati legati al fitness, mostrano che il modello può ottenere risultati impressionanti. Ad esempio, quando si utilizzano tutti i dati di addestramento disponibili, il modello registra punteggi elevati per classificare varie attività. Anche quando viene utilizzata solo una piccola frazione (2%) dei dati di addestramento, il modello continua a funzionare bene, dimostrando la sua efficacia nel riconoscere le attività umane.

Raccolta e Elaborazione dei Dati

Il team di ricerca ha raccolto manualmente migliaia di video di fitness da YouTube, concentrandosi su clip che illustrano chiaramente le attività con contenuti istruttivi. Questi video sono stati integrati con didascalie generate automaticamente, fornendo descrizioni testuali delle azioni nei video.

Per garantire la qualità dei dati, sono stati mantenuti solo brevi clip video focalizzati su singoli esercizi, mentre i video più lunghi contenenti più attività sono stati scartati. Il dataset finale comprende oltre 10.000 campioni di attività di fitness istruttive, ciascuno accompagnato da rilevanti descrizioni testuali e dati dei sensori.

L'elaborazione dei dati implica la conversione dei video a una risoluzione e un frame rate standard, l'estrazione di caratteristiche rilevanti e la generazione di dati simulati dei sensori dal contenuto video. Questo meticoloso preprocessing consente al team di ricerca di avere un dataset robusto che aiuta a addestrare il modello in modo efficace.

Sfruttare le Informazioni Multimodali

L'idea principale di MuJo è sfruttare le informazioni da più modalità per l'addestramento. Ogni breve segmento video dovrebbe mostrare informazioni simili attraverso diverse fonti. Ogni modalità-video, pose, dati dei sensori e testo-ha il proprio encoder, catturando caratteristiche uniche che vengono poi allineate in uno spazio di rappresentazione condiviso.

Utilizzando questo metodo, il modello applica un apprendimento combinato per stabilire connessioni tra le caratteristiche fornite da ciascuna modalità. In questo modo, il modello può utilizzare efficacemente informazioni ridondanti per migliorare le prestazioni del riconoscimento delle attività.

Risultati e Valutazione delle Prestazioni

I ricercatori hanno condotto una serie di valutazioni per misurare quanto bene MuJo si comporta su diversi dataset, inclusi FLAG3D e MM-Fit. Durante queste valutazioni, hanno confrontato le prestazioni di classificazione di MuJo con metodi di base che non utilizzavano preaddestramento o solo dati unimodali.

Nei test usando il dataset MM-Fit, MuJo ha dimostrato un'accuratezza eccezionale, anche con dati di addestramento limitati. Il modello ha superato il metodo di base nella maggior parte dei casi, confermando che l'uso di un approccio multimodale migliora significativamente i compiti di HAR.

Generalizzazione ai Dati Non Visti

Uno degli aspetti più importanti di qualsiasi modello di apprendimento automatico è la sua capacità di generalizzare a nuovi dati non visti. Per testarlo, i ricercatori hanno valutato quanto bene MuJo potesse riconoscere attività nel dataset MM-Fit senza esposizione precedente. Le prestazioni del modello sono rimaste forti, indicando la sua efficacia nelle applicazioni del mondo reale.

I risultati rivelano che MuJo non solo impara bene dai dati di addestramento, ma applica efficacemente queste conoscenze quando incontra dati che non ha mai visto prima. Questo è fondamentale per implementare sistemi HAR in ambienti in tempo reale.

Conclusione

La ricerca evidenzia una direzione promettente per migliorare il riconoscimento dell'attività umana attraverso l'uso di dati multimodali. L'approccio introduce un metodo per l'apprendimento di rappresentazioni congiunte che integra video, dati dei sensori, pose e descrizioni testuali. Con la capacità di generare dati sintetici e utilizzare varie fonti di input, MuJo mostra potenziale per alte prestazioni nel riconoscere le attività umane in contesti diversi.

Man mano che la tecnologia continua a migliorare e la disponibilità dei dati aumenta, metodi come MuJo potrebbero portare a sistemi più accurati e affidabili per comprendere il comportamento umano in svariate applicazioni, dal monitoraggio del fitness alla sicurezza e oltre. I risultati sottolineano l'importanza dei dati multimodali nell'avanzare il campo del riconoscimento dell'attività umana, portando infine a risultati migliori in scenari reali.

Fonte originale

Titolo: MuJo: Multimodal Joint Feature Space Learning for Human Activity Recognition

Estratto: Human Activity Recognition (HAR) is a longstanding problem in AI with applications in a broad range of areas, including healthcare, sports and fitness, security, and more. The performance of HAR in real-world settings is strongly dependent on the type and quality of the input signal that can be acquired. Given an unobstructed, high-quality camera view of a scene, computer vision systems, in particular in conjunction with foundation models, can today fairly reliably distinguish complex activities. On the other hand, recognition using modalities such as wearable sensors (which are often more broadly available, e.g., in mobile phones and smartwatches) is a more difficult problem, as the signals often contain less information and labeled training data is more difficult to acquire. To alleviate the need for labeled data, we introduce our comprehensive Fitness Multimodal Activity Dataset (FiMAD) in this work, which can be used with the proposed pre-training method MuJo (Multimodal Joint Feature Space Learning) to enhance HAR performance across various modalities. FiMAD was created using YouTube fitness videos and contains parallel video, language, pose, and simulated IMU sensor data. MuJo utilizes this dataset to learn a joint feature space for these modalities. We show that classifiers pre-trained on FiMAD can increase the performance on real HAR datasets such as MM-Fit, MyoGym, MotionSense, and MHEALTH. For instance, on MM-Fit, we achieve an Macro F1-Score of up to 0.855 when fine-tuning on only 2% of the training data and 0.942 when utilizing the full training set for classification tasks. We have compared our approach to other self-supervised ones and showed that, unlike them, ours can consistently improve on the baseline network performance as well as provide a better data-efficiency.

Autori: Stefan Gerd Fritsch, Cennet Oguz, Vitor Fortes Rey, Lala Ray, Maximilian Kiefer-Emmanouilidis, Paul Lukowicz

Ultimo aggiornamento: 2024-10-17 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2406.03857

Fonte PDF: https://arxiv.org/pdf/2406.03857

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili