Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli

Migliorare la Predizione del Movimento Umano con Compiti Aggiuntivi

Un nuovo metodo migliora la previsione del movimento utilizzando compiti di apprendimento ausiliari.

― 5 leggere min


Attività Ausiliarie perAttività Ausiliarie perla Predizione delMovimentonella previsione del movimento.Un metodo che migliora l'accuratezza
Indice

La previsione del movimento umano riguarda il prevedere come le persone si muoveranno in futuro basandosi sui loro movimenti passati. Ha usi pratici in settori come la robotica, il gaming e le auto a guida autonoma. Una delle grandi sfide in questo campo è capire come le diverse parti del corpo si muovono insieme nel tempo. I metodi passati hanno cercato di risolvere questo problema usando tipi specifici di reti progettate per osservare sia lo spazio (la posizione delle articolazioni) che il tempo (come cambia il movimento).

Il Problema

Quando osserviamo il movimento di una persona, possiamo vedere come le sue parti del corpo (come braccia e gambe) interagiscono in modo complesso. Per prevedere i movimenti futuri in modo preciso, è importante catturare come queste parti del corpo si relazionano tra di loro, sia in termini di posizioni che di come cambiano nel tempo. Sviluppare tecniche efficaci per catturare queste relazioni è fondamentale per previsioni migliori.

Molti metodi esistenti si concentrano sulla creazione di strutture di rete complesse, ma questo articolo presenta un approccio diverso utilizzando Compiti Ausiliari. Questi compiti aiutano a migliorare il compito principale di previsione del movimento facendo in modo che la rete impari di più dai dati.

Approccio ai Compiti Ausiliari

Nel nostro approccio, introduciamo dei compiti ausiliari in cui alcune coordinate delle articolazioni vengono volutamente rese poco chiare mascherandole o aggiungendo rumore casuale. Il compito della rete diventa quello di capire le posizioni originali dalle coordinate rimaste chiare. Allenando il modello con questi compiti extra, diventa migliore nel capire le relazioni tra le articolazioni, portando a una migliore previsione del movimento.

I compiti ausiliari su cui ci concentriamo sono:

  1. Compito di Denoising: Viene aggiunto rumore casuale alle coordinate delle articolazioni in momenti diversi, e l'obiettivo è recuperare il movimento originale fluido.

  2. Compito di Predizione delle Caratteristiche Mascherate: Coordinate casuali vengono nascoste, e lo scopo è prevedere queste posizioni mancanti basandosi su altri dati visibili.

Questi compiti costringono la rete a imparare di più su come le relazioni spaziali e temporali lavorano insieme.

Come Funzionano i Metodi Attuali

I metodi tradizionali si basavano su certe strutture come Reti Neurali Ricorrenti (RNN) o Reti Neurali Convoluzionali per Grafi (GCN) per catturare il tempismo dei movimenti o come le articolazioni si collegano spazialmente. Anche se alcuni usavano GCN per collegare le articolazioni corporee come nodi in un grafo, molti non riuscivano a catturare in modo efficace sia il tempismo che la posizione insieme.

Alcuni metodi faticavano a modellare bene le dipendenze spaziali poiché si concentravano solo sull'aspetto temporale. Il nostro lavoro si integra con i metodi esistenti introducendo compiti di apprendimento aggiuntivi che spingono la rete a catturare meglio queste relazioni.

La Nostra Soluzione: Transformer Adattato agli Ausiliari

Per implementare i nostri compiti ausiliari nel processo di apprendimento, abbiamo progettato un tipo speciale di rete chiamata Transformer Adattato agli Ausiliari. Questa rete è in grado di gestire dati incompleti pur catturando come le diverse articolazioni dipendono l'una dall'altra.

Caratteristiche Chiave della Nostra Rete

  1. Dipendenza a Livello di Coordinate: La posizione di ciascuna articolazione è trattata come una caratteristica individuale. La rete impara a relazionare queste caratteristiche usando meccanismi di attenzione che modellano sia le dipendenze spaziali che temporali.

  2. Adatta ai Dati Mancanti: La rete può riconoscere quando i dati mancano (a causa del compito di mascheramento) utilizzando token speciali per indicarlo.

  3. Struttura Condivisa: Il compito di previsione principale e i compiti ausiliari condividono la stessa struttura di rete, rendendo il modello più coeso ed efficiente.

Quadro di Apprendimento

Il quadro di apprendimento è composto da tre compiti che lavorano insieme:

  1. Compito Primario di Previsione Futura: Questo è l'obiettivo principale, prevedere come si muoverà una persona in futuro.

  2. Compito Ausiliario di Denoising: Aiuta la rete a recuperare Dati rumorosi.

  3. Compito Ausiliario di Predizione del Mascheramento: Aiuta a prevedere le posizioni delle articolazioni nascoste.

Facendo eseguire insieme questi compiti, il modello impara meglio le dipendenze spaziali-temporali, migliorando la previsione complessiva del movimento.

Risultati Sperimentali

Abbiamo condotto esperimenti per vedere quanto bene funziona il nostro metodo nella pratica. Abbiamo testato su tre diversi set di dati: Human3.6M, CMU Mocap e 3DPW.

Previsione a Breve Termine

Nelle previsioni a breve termine (fino a 400 millisecondi), il nostro metodo ha mostrato prestazioni migliori rispetto alle tecniche esistenti. Abbiamo monitorato quanto accuratamente il nostro metodo prevedeva le posizioni in vari momenti futuri e abbiamo trovato che superava costantemente altri approcci.

Previsione a Lungo Termine

Per previsioni più lunghe (oltre 400 millisecondi), il nostro metodo ha mantenuto il suo successo. Lo abbiamo confrontato con diversi metodi consolidati e abbiamo scoperto che forniva costantemente una migliore precisione su una gamma di azioni.

Robustezza alla Qualità dei Dati

Il nostro metodo non solo prevede bene il movimento, ma funziona anche meglio quando i dati sono mancanti o rumorosi. Abbiamo testato quanto bene il nostro modello potesse funzionare quando parti dei dati in input erano nascoste o distorte. In entrambi i casi, il nostro approccio si è rivelato più efficace rispetto ai metodi tradizionali, indicando che può gestire problemi del mondo reale in cui i dati potrebbero non essere perfetti.

Conclusione

In questo lavoro, abbiamo introdotto un framework innovativo per la previsione del movimento umano che utilizza compiti ausiliari per migliorare la comprensione delle dipendenze spaziali-temporali tra le articolazioni del corpo. Il nostro approccio, noto come AuxFormer, dimostra prestazioni migliori nella previsione dei movimenti futuri rispetto ai metodi esistenti. Non solo ottiene risultati all'avanguardia su diversi set di dati, ma mostra anche maggiore robustezza di fronte a dati mancanti o rumorosi.

Questo progresso potrebbe aprire la strada a applicazioni più affidabili nella robotica e nell'AI, dove prevedere accuratamente il movimento umano è vitale per l'interazione e la sicurezza.

Fonte originale

Titolo: Auxiliary Tasks Benefit 3D Skeleton-based Human Motion Prediction

Estratto: Exploring spatial-temporal dependencies from observed motions is one of the core challenges of human motion prediction. Previous methods mainly focus on dedicated network structures to model the spatial and temporal dependencies. This paper considers a new direction by introducing a model learning framework with auxiliary tasks. In our auxiliary tasks, partial body joints' coordinates are corrupted by either masking or adding noise and the goal is to recover corrupted coordinates depending on the rest coordinates. To work with auxiliary tasks, we propose a novel auxiliary-adapted transformer, which can handle incomplete, corrupted motion data and achieve coordinate recovery via capturing spatial-temporal dependencies. Through auxiliary tasks, the auxiliary-adapted transformer is promoted to capture more comprehensive spatial-temporal dependencies among body joints' coordinates, leading to better feature learning. Extensive experimental results have shown that our method outperforms state-of-the-art methods by remarkable margins of 7.2%, 3.7%, and 9.4% in terms of 3D mean per joint position error (MPJPE) on the Human3.6M, CMU Mocap, and 3DPW datasets, respectively. We also demonstrate that our method is more robust under data missing cases and noisy data cases. Code is available at https://github.com/MediaBrain-SJTU/AuxFormer.

Autori: Chenxin Xu, Robby T. Tan, Yuhong Tan, Siheng Chen, Xinchao Wang, Yanfeng Wang

Ultimo aggiornamento: 2023-09-02 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2308.08942

Fonte PDF: https://arxiv.org/pdf/2308.08942

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili