Progressi nel Riconoscimento delle Azioni Usando Scheletri e Oggetti
Un nuovo metodo migliora il riconoscimento delle azioni attraverso scheletri e forme degli oggetti.
― 5 leggere min
Indice
Riconoscere le azioni nei video è super importante per tanti settori, tipo robotica e sicurezza. Ci sono diversi modi per affrontare questo compito. Alcuni metodi usano immagini per imparare sulle azioni, mentre altri si concentrano sugli scheletri, che sono i contorni delle parti del corpo di una persona. Usare gli scheletri aiuta a ridurre i problemi causati dai cambiamenti nell'aspetto, come vestiti o sfondi diversi.
Questo articolo presenta un nuovo metodo che combina i punti di forza di questi approcci. Si concentra sull'uso sia degli scheletri umani che delle forme degli oggetti nei video. L'obiettivo è migliorare il Riconoscimento delle azioni, specialmente quando ci sono più persone coinvolte o oggetti presenti.
Contesto
Metodi di Riconoscimento delle Azioni
Ci sono principalmente due tipi di metodi per il riconoscimento delle azioni: basati sull'aspetto e basati sugli scheletri.
Metodi Basati sull'Aspetto
Questi metodi usano direttamente immagini RGB come input. Cercano di capire sia l'aspetto della persona che i suoi movimenti. Alcune tecniche analizzano anche il movimento studiando il flusso di pixel nei fotogrammi. Anche se riescono a catturare movimenti dettagliati, hanno problemi quando lo sfondo o gli oggetti cambiano molto rispetto a come sono stati addestrati.
Metodi Basati sugli Scheletri
Il riconoscimento basato sugli scheletri si concentra su punti chiave del corpo di una persona. Questi punti chiave vengono raccolti tramite un processo chiamato stima della posa. Questo tipo di riconoscimento delle azioni è generalmente più affidabile perché non dipende molto da come appare una persona o lo sfondo. Tuttavia, ha delle limitazioni, come errori nella rilevazione degli scheletri e nel Tracciamento dei movimenti.
Limitazioni dei Metodi Esistenti
Gli approcci esistenti hanno tre principali difetti:
Errori nella Rilevazione e nel Tracciamento degli Scheletri: Molti metodi basati sugli scheletri si basano su punti chiave rilevati con precisione. Se ci sono errori-come punti mancanti o tracciamento scorretto-l'accuratezza del riconoscimento diminuisce.
Varietà Limitata di Azioni: I metodi convenzionali spesso limitano il numero di scheletri che analizzano. Questo significa che hanno difficoltà a riconoscere azioni di più persone o quelle che coinvolgono oggetti.
Difficoltà nel Riconoscere Azioni per Ogni Persona: Molti approcci esistenti classificano un intero video in un'unica azione. Tuttavia, nella vita reale, spesso diverse persone stanno facendo azioni diverse allo stesso tempo. Riconoscere le azioni a un livello più dettagliato è fondamentale.
Metodo Proposto
Per affrontare questi problemi, viene presentato un nuovo framework che utilizza un'architettura di deep learning chiamata Structured Keypoint Pooling. Questo metodo prende i punti chiave sia dagli scheletri umani che dalle forme degli oggetti e li tratta come una nuvola di punti 3D. Questo permette al framework di lavorare in modo più flessibile e preciso.
Caratteristiche Chiave
Structured Keypoint Pooling: Questa tecnica raccoglie caratteristiche dai punti chiave in base alle loro relazioni. Considera le connessioni tra i punti chiave mentre riduce l'impatto degli errori.
Integrazione dei Punti Chiave degli Oggetti: Insieme agli scheletri umani, il framework usa punti chiave degli oggetti. Questa informazione extra aiuta a migliorare il riconoscimento delle azioni offrendo più contesto senza adattarsi eccessivamente a aspetto specifici.
Addestramento Debolmente Supervisionato: Il processo di addestramento usa solo etichette di base per i video. Questo significa che il modello impara in modo efficace senza bisogno di informazioni dettagliate per ogni persona nel video.
Trucco di Pooling-Switching
Un aspetto innovativo di questo metodo è il Trucco di Pooling-Switching. Durante l'addestramento, vengono usate diverse strategie di pooling rispetto a quando il modello viene applicato. Questo cambiamento aiuta il modello a imparare meglio e introduce un metodo per aumentare i dati. Mischia le caratteristiche di diversi video, rendendo il modello più robusto e versatile.
Esperimenti
Per testare l'efficacia di questo nuovo metodo, sono stati condotti diversi esperimenti su vari dataset. L'obiettivo era vedere quanto bene il metodo proposto si comporta rispetto alle tecniche all'avanguardia esistenti.
Dataset Utilizzati
- Kinetics-400: Un ampio dataset con azioni diverse prese da video di YouTube.
- UCF101 e HMDB51: Dataset che contengono centinaia di video focalizzati su diverse azioni.
- RWF-2000: Un dataset che si concentra sul riconoscimento della violenza nei video.
- Mimetics: Questo dataset include azioni imitate estratte dal contesto.
- Mixamo: Un dataset con avatar virtuali che eseguono varie azioni.
Metriche di Valutazione
Le prestazioni sono state misurate usando l'accuratezza per il riconoscimento delle azioni e la Precisione Media per i video (AP) per la localizzazione delle azioni.
Risultati
Il nuovo metodo ha mostrato prestazioni migliori rispetto ai metodi di riconoscimento basati sugli scheletri tradizionali. È risultato più accurato e veloce rispetto ad altre tecniche testate. In particolare, l'inclusione dei punti chiave degli oggetti ha aiutato a ottenere risultati migliori fornendo un contesto aggiuntivo.
Robustezza agli Errori
Inoltre, il metodo proposto si è dimostrato più robusto contro gli errori nella rilevazione e nel tracciamento degli scheletri rispetto ai metodi esistenti. Questo significa che poteva ancora riconoscere le azioni con precisione anche quando i dati in input erano rumorosi o incompleti.
Accuratezza nel Riconoscimento delle Azioni
Quando si confronta con metodi basati sull'aspetto, la tecnica proposta ha superato questi ultimi in alcuni dataset. Questo dimostra la forza nell'uso degli scheletri e dei punti chiave degli oggetti insieme.
Conclusione
In sintesi, il nuovo framework per il riconoscimento delle azioni presentato qui utilizza una combinazione di scheletri umani e contorni degli oggetti. Trattando questi come una nuvola di punti 3D, riesce a superare le limitazioni dei metodi tradizionali. I risultati di vari esperimenti dimostrano che questo approccio non solo migliora il riconoscimento delle azioni, ma si comporta anche meglio in scenari complessi che coinvolgono più persone e oggetti.
Questo framework apre nuove possibilità per un riconoscimento efficace delle azioni nelle applicazioni del mondo reale, aprendo la strada a sistemi più intelligenti nella robotica, nella sorveglianza e altro.
Titolo: Unified Keypoint-based Action Recognition Framework via Structured Keypoint Pooling
Estratto: This paper simultaneously addresses three limitations associated with conventional skeleton-based action recognition; skeleton detection and tracking errors, poor variety of the targeted actions, as well as person-wise and frame-wise action recognition. A point cloud deep-learning paradigm is introduced to the action recognition, and a unified framework along with a novel deep neural network architecture called Structured Keypoint Pooling is proposed. The proposed method sparsely aggregates keypoint features in a cascaded manner based on prior knowledge of the data structure (which is inherent in skeletons), such as the instances and frames to which each keypoint belongs, and achieves robustness against input errors. Its less constrained and tracking-free architecture enables time-series keypoints consisting of human skeletons and nonhuman object contours to be efficiently treated as an input 3D point cloud and extends the variety of the targeted action. Furthermore, we propose a Pooling-Switching Trick inspired by Structured Keypoint Pooling. This trick switches the pooling kernels between the training and inference phases to detect person-wise and frame-wise actions in a weakly supervised manner using only video-level action labels. This trick enables our training scheme to naturally introduce novel data augmentation, which mixes multiple point clouds extracted from different videos. In the experiments, we comprehensively verify the effectiveness of the proposed method against the limitations, and the method outperforms state-of-the-art skeleton-based action recognition and spatio-temporal action localization methods.
Autori: Ryo Hachiuma, Fumiaki Sato, Taiki Sekii
Ultimo aggiornamento: 2023-03-27 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2303.15270
Fonte PDF: https://arxiv.org/pdf/2303.15270
Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.