Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli

Stima Efficiente della Posizione di Più Persone sugli Smartphone

Una rete leggera per la stima in tempo reale della posa sui dispositivi mobili.

― 7 leggere min


Rivoluzione nella stimaRivoluzione nella stimadella posa dellosmartphoneDIR-BHRNet su mobile.Stima della posa in tempo reale con
Indice

La stima della posa umana (HPE) è un campo importante nella visione artificiale. Si tratta di capire dove sono le parti del corpo di una persona, come mani, testa e gambe, identificando punti chiave sul loro corpo. Una sfida interessante è la stima della posa multi-persona (MPPE), che analizza molte persone in un'unica immagine. Questa tecnologia può essere usata in vari settori, tra cui sport, salute, robotica e intrattenimento.

Tuttavia, la maggior parte dei metodi attuali di MPPE funziona su sistemi informatici potenti con unità di elaborazione grafica (GPU) avanzate. Questo rende difficile utilizzarli su dispositivi mobili come gli smartphone, che hanno meno potenza di elaborazione. In questo articolo parleremo di una nuova rete leggera progettata per la MPPE in tempo reale su smartphone. Questa rete mira a funzionare in modo efficiente su dispositivi mobili mantenendo buone prestazioni.

La Sfida della Stima della Posa Multi-Persona

La stima della posa multi-persona è complessa. Quando ci sono molte persone in una scena, riconoscere la posa di ciascuna può diventare difficile. I sistemi attuali spesso hanno problemi di velocità e accuratezza a causa degli alti costi computazionali. Questi metodi necessitano tipicamente di una notevole potenza di elaborazione, che non è disponibile nella maggior parte degli smartphone.

I metodi più vecchi possono essere classificati in due tipi principali: approcci dall'alto verso il basso e dal basso verso l'alto. I metodi dall'alto verso il basso prima rilevano le persone nell'immagine e poi analizzano le loro pose. I metodi dal basso verso l'alto guardano l'intera scena per identificare prima tutti i punti chiave e poi raggrupparli in pose individuali. I metodi dal basso verso l'alto possono funzionare meglio in situazioni affollate, ma richiedono anche risorse computazionali significative, rendendoli difficili da implementare sui dispositivi mobili.

La Necessità di Soluzioni Leggere

Data le limitazioni delle tecnologie attuali, c'è un forte bisogno di soluzioni leggere. Le Reti leggere possono funzionare in modo efficiente su dispositivi con potenza di elaborazione limitata. Vari ricercatori hanno tentato di creare tali reti, ma molte dipendono ancora da sistemi ad alte prestazioni.

MobileNets e ShuffleNets sono esempi di reti leggere che hanno mostrato promesse ma richiedono ancora spesso molta potenza di calcolo. Questo è un grande ostacolo per le applicazioni in tempo reale su smartphone. Il nostro obiettivo è creare una nuova rete che sia abbastanza leggera da funzionare su smartphone senza sacrificare le prestazioni.

La Soluzione DIR-BHRNet

Presentiamo un nuovo approccio chiamato DIR-BHRNet per la stima della posa multi-persona in tempo reale su smartphone. Questa rete integra due concetti principali: un nuovo modulo di convoluzione chiamato Dense Inverted Residual (DIR) e un'architettura Balanced High-Resolution Network (BHRNet).

Il modulo DIR migliora l'estrazione delle caratteristiche spaziali mantenendo basso il costo computazionale. Aggiunge una Convoluzione Depthwise e una connessione diretta alla tradizionale struttura Inverted Residual. L'architettura BHRNet riorganizza il numero di blocchi convoluzionali per bilanciare il carico computazionale tra le diverse parti della rete.

Combinando questi due concetti, DIR-BHRNet raggiunge una buona accuratezza ed efficienza, rendendolo adatto per i dispositivi mobili.

Approfondimento sul Modulo DIR

Il modulo DIR gioca un ruolo cruciale nel migliorare l'accuratezza della stima della posa mantenendo il sistema leggero. Il design di questo modulo aggiunge una convoluzione depthwise al metodo tradizionale Inverted Residual.

Come Funziona il Modulo DIR

L'idea di base del modulo DIR è migliorare l'estrazione delle caratteristiche spaziali. Integrando convoluzioni depthwise, il modulo può estrarre più informazioni dai dati di input aumentando solo leggermente il costo computazionale. La connessione diretta aiuta a evitare problemi legati alla confusione del gradiente, consentendo alla rete di apprendere in modo più efficace.

Quando combinato con la struttura Inverted Residual originale, il modulo DIR migliora significativamente le prestazioni delle attività di stima della posa, specialmente in termini di accuratezza.

Comprendere l'Architettura BHRNet Bilanciata

L'architettura BHRNet è progettata per bilanciare il costo computazionale tra i diversi rami della rete. Affronta il problema riscontrato in molte reti tradizionali in cui alcune parti possono finire per utilizzare più risorse di altre.

Bilanciamento del Carico Computazionale

Nell'architettura BHRNet, il numero di blocchi convoluzionali tra i rami è regolato affinché ciascun ramo gestisca una quantità di lavoro computazionale approssimativamente uguale. Questo porta a un uso più efficiente delle risorse e consente alla rete di funzionare più agevolmente su dispositivi come gli smartphone.

La struttura BHRNet impiega anche un flusso ad alta risoluzione nella prima fase per mantenere i dettagli prima di downsampling nelle fasi successive. Questo design aiuta a garantire che la rete conservi informazioni preziose, fondamentali per una stima accurata della posa.

Valutazione delle Prestazioni

Per valutare l'efficacia di DIR-BHRNet, l'abbiamo testato su due set di dati noti: COCO e CrowdPose. Questi set di dati contengono molte immagini di persone in varie pose e situazioni affollate, rendendoli ideali per testare la stima della posa multi-persona.

Risultati sui Set di Dati

I risultati mostrano che DIR-BHRNet supera i metodi precedenti in termini di accuratezza mantenendo bassi i costi computazionali. Ad esempio, quando testato con varie configurazioni, il modulo DIR ha aggiunto convoluzioni depthwise, migliorando l'accuratezza del modello senza aumentare significativamente i requisiti di elaborazione.

La versione finale di DIR-BHRNet ha ottenuto un impressionante punteggio di precisione media (mAP), indicando che può identificare con successo la posa di più persone in una scena.

Implementazione su Smartphone

Uno degli obiettivi principali di questo progetto era assicurarsi che DIR-BHRNet potesse essere implementato su smartphone comuni. La rete è stata testata su dispositivi popolari come Xiaomi e Redmi, e ha funzionato senza problemi a frequenze di fotogrammi elevate.

Prestazioni in Tempo Reale

DIR-BHRNet è in grado di elaborare a più di 10 fotogrammi al secondo (FPS) su dispositivi Android. Questo significa che gli utenti possono aspettarsi prestazioni rapide e reattive quando utilizzano applicazioni che si basano su questa tecnologia per la stima della posa.

Il processo di implementazione è stato semplice. Il modello addestrato è stato convertito in un formato compatibile per dispositivi mobili e poi eseguito utilizzando un framework specializzato per ottimizzare le prestazioni. Questo ha permesso a DIR-BHRNet di funzionare in modo efficiente senza la necessità di risorse aggiuntive.

Considerazioni sull'Uso della Memoria

L'uso della memoria è fondamentale per le applicazioni mobili. Le reti con troppi parametri possono consumare eccessiva memoria, rendendole poco pratiche per l'uso su smartphone.

Gestione Efficiente della Memoria

DIR-BHRNet è stato progettato tenendo conto dell'efficienza della memoria. L'implementazione finale ha mostrato un uso ragionevole della memoria, ben all'interno dei limiti che gli smartphone attuali possono gestire. Questo la rende una soluzione praticabile per applicazioni nel mondo reale su dispositivi di uso quotidiano.

Direzioni Future

Ci sono diverse strade interessanti per il lavoro futuro in questo campo. Ulteriori miglioramenti possono essere realizzati esplorando meccanismi di attenzione all'interno di reti leggere per aumentare l'accuratezza e l'efficienza. Inoltre, estendere le capacità di DIR-BHRNet per includere la stima della posa 3D in tempo reale è un'area potenziale di crescita.

Affinando questi approcci, potremmo migliorare l'applicabilità delle tecnologie di stima della posa in vari settori, portando a applicazioni ancora più innovative.

Conclusione

In sintesi, DIR-BHRNet rappresenta un'importante evoluzione nel campo della stima della posa multi-persona, in particolare per l'uso su smartphone. Integrando un modulo di convoluzione innovativo e una struttura di rete bilanciata, raggiunge un livello di prestazioni che è sia efficiente che efficace per applicazioni in tempo reale.

Il successo di DIR-BHRNet sui set di dati COCO e CrowdPose dimostra il suo potenziale di avere un impatto significativo in vari settori, dalla sanità all'intrattenimento. Man mano che continuiamo a perfezionare questa tecnologia, le possibilità per applicazioni pratiche sono vaste, offrendo opportunità entusiasmanti per il futuro.

Fonte originale

Titolo: DIR-BHRNet: A Lightweight Network for Real-time Vision-based Multi-person Pose Estimation on Smartphones

Estratto: Human pose estimation (HPE), particularly multi-person pose estimation (MPPE), has been applied in many domains such as human-machine systems. However, the current MPPE methods generally run on powerful GPU systems and take a lot of computational costs. Real-time MPPE on mobile devices with low-performance computing is a challenging task. In this paper, we propose a lightweight neural network, DIR-BHRNet, for real-time MPPE on smartphones. In DIR-BHRNet, we design a novel lightweight convolutional module, Dense Inverted Residual (DIR), to improve accuracy by adding a depthwise convolution and a shortcut connection into the well-known Inverted Residual, and a novel efficient neural network structure, Balanced HRNet (BHRNet), to reduce computational costs by reconfiguring the proper number of convolutional blocks on each branch. We evaluate DIR-BHRNet on the well-known COCO and CrowdPose datasets. The results show that DIR-BHRNet outperforms the state-of-the-art methods in terms of accuracy with a real-time computational cost. Finally, we implement the DIR-BHRNet on the current mainstream Android smartphones, which perform more than 10 FPS. The free-used executable file (Android 10), source code, and a video description of this work are publicly available on the page 1 to facilitate the development of real-time MPPE on smartphones.

Autori: Gongjin Lan, Yu Wu, Qi Hao

Ultimo aggiornamento: 2024-07-01 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2407.13777

Fonte PDF: https://arxiv.org/pdf/2407.13777

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili