Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli

Presentiamo UniHCP: un modello unificato per percezioni centrate sull'uomo

UniHCP combina più compiti legati alle persone in un modello efficiente.

― 8 leggere min


Il modello UniHCPIl modello UniHCPtrasforma i compiti dipercezione umana.umani.compiti visivi legati agli esseriUn approccio unificato per migliorare i
Indice

Negli ultimi anni, il modo in cui comprendiamo e riconosciamo le attività umane tramite sistemi visivi è migliorato tantissimo. Compiti come stimare la posa di una persona, riconoscere le diverse parti del corpo umano, seguire i pedoni e identificare le persone sono diventati fondamentali in molte applicazioni nel mondo reale. Questi includono aree come le auto a guida autonoma, lo shopping online e l'analisi sportiva. Nonostante i progressi, la maggior parte dei modelli sviluppa soluzioni per ogni compito separatamente. In generale, non c'è stato molto sforzo per creare un modello unico che affronti questi compiti focalizzati sull'essere umano tutti insieme.

Qui introduciamo un approccio per unire diversi di questi compiti legati all'umanità usando un modello unico e semplificato. L'obiettivo è sfruttare le somiglianze tra questi compiti piuttosto che trattarli come se fossero completamente diversi. Creiamo un modello chiamato UniHCP, che sta per Modello Unificato per le Percezioni Centrate sull’Umano. UniHCP è progettato per funzionare in modo efficiente attraverso vari compiti, rendendo più facile adattarsi o cambiare compito senza bisogno di un modello specializzato per ognuno di essi.

La Necessità di un Approccio Unificato

I metodi attuali generalmente si concentrano sul miglioramento delle performance per compiti separati come la Stima della posa, il Rilevamento dei Pedoni e la scomposizione umana. Ognuno di questi compiti ha il proprio stile di elaborazione delle informazioni visive. Alcuni usano mappe di calore, mentre altri si basano sull'identificazione di punti specifici o sulla classificazione basata su immagini. Anche se questi metodi hanno mostrato risultati impressionanti, spesso funzionano meglio quando sono adattati per un solo compito. Questo significa che se vuoi eseguire più compiti, devi allenare e gestire modelli diversi, il che può essere complicato e richiedere molte risorse.

Crediamo che poiché molti di questi compiti condividono somiglianze nel modo in cui riconoscono e utilizzano informazioni sul corpo umano, abbia senso esplorare un modo più coeso di gestirli. Usando un modello unico che comprende le connessioni tra questi compiti, speriamo non solo di rendere il processo di addestramento più efficiente, ma anche di migliorare le performance in generale.

Il Design di UniHCP

Il modello UniHCP combina cinque compiti chiave centrati sull'umano in un unico framework. Questi compiti includono:

  1. Stima della Posa: Rilevare dove si trovano le articolazioni del corpo nelle immagini.
  2. Scomposizione Umana: Analizzare le immagini per riconoscere le diverse parti del corpo umano.
  3. Rilevamento dei Pedoni: Identificare e localizzare i pedoni all'interno delle immagini.
  4. Ri-identificazione delle Persone (ReID): Seguire e riconoscere persone individuali attraverso varie immagini o viste della telecamera.
  5. Riconoscimento delle Attributi: Determinare caratteristiche specifiche di una persona, come lo stile di abbigliamento o accessori.

Per rendere questa unificazione possibile, abbiamo progettato una struttura semplice ma efficace basata su un tipo di rete neurale noto come transformer visivo. Questa struttura consente al modello di gestire vari compiti condividendo conoscenze tra di essi.

Addestramento con Molteplici Dataset

Uno dei punti di forza di UniHCP è che è stato addestrato su una raccolta completa di 33 diversi dataset che coprono vari aspetti dei compiti centrati sull'umano. Alimentando il modello con esempi diversi, impara ad adattarsi e a performare bene in vari compiti, non diventando solo un esperto in uno.

Il metodo di addestramento consente anche a UniHCP di eccellere sia nella valutazione diretta, dove si utilizza il modello pre-addestrato per valutare le sue performance su compiti specifici, sia attraverso il fine-tuning, dove il modello viene regolato per migliorare la precisione su nuovi compiti.

Risultati di Performance

Dopo i test, UniHCP ha superato i modelli esistenti in diversi ambiti. Ad esempio, ha ottenuto risultati notevoli come:

  • Scomposizione Umana: Il modello ha raggiunto fino a 69.8 punteggi media Intersection over Union (mIoU) nei compiti di scomposizione umana.
  • Predizione degli Attributi: Ha ottenuto 86.18 media Accuratezza (mA) nei compiti di predizione degli attributi.
  • ReID: Il modello ha raggiunto un punteggio di 90.3 media Precisione Media (mAP) nei compiti di ri-identificazione delle persone.
  • Rilevamento dei Pedoni: Ha performato bene, ottenendo 85.8 punteggi Indice di Jaccard (JI).

Questi risultati indicano che UniHCP non solo compete efficacemente con modelli specializzati, ma eccelle anche in scenari dove è necessario affrontare insieme più compiti centrati sull’umano.

Vantaggi di un Modello Unificato

Implementare un modello unificato come UniHCP offre diversi vantaggi:

  1. Efficienza delle Risorse: Invece di addestrare modelli separati per ogni compito, un modello unico fa risparmiare risorse computazionali e tempo.
  2. Condivisione della Conoscenza: La struttura del modello condiviso consente al sistema di sfruttare le conoscenze da un compito per migliorare un altro, aumentando le performance complessive.
  3. Adattabilità: Passare a nuovi compiti o dataset diventa più facile, poiché il modello può adattarsi senza bisogno di un ampio ri-addestramento o modifica.
  4. Distribuzione Semplificata: Le organizzazioni che vogliono implementare sistemi di percezione visiva possono farlo più facilmente ed economicamente con un modello unificato.

Come Funziona UniHCP

Struttura di UniHCP

Il segreto dell'efficacia di UniHCP sta nella sua architettura. Essa consiste in:

  1. Encoder Transformer: Questo componente estrae le caratteristiche essenziali dalle immagini. Elabora i dati di input in modo uniforme, indipendentemente dal tipo di compito, il che aiuta a mantenere coerenza nel modo in cui vengono raccolte le informazioni.

  2. Decoder Transformer: Il decoder riceve query specifiche per compito, che si concentrano sulle caratteristiche rilevanti necessarie per ogni compito. Questa separazione garantisce che, mentre il modello condivide conoscenze, possa comunque soddisfare le esigenze uniche di ciascun compito.

  3. Interprete Guidato dal Compito: Una parte cruciale del modello, questo interprete decodifica le query di compito e le traduce in output azionabili per ciascun compito specifico. Elabora le informazioni senza la necessità di strutture di output variegate, mantenendo il design pulito e semplice.

Processo di Addestramento

Per costruire un modello robusto, UniHCP è stato pre-addestrato su un gran numero di dataset legati all'umanità. Questo processo ha coinvolto:

  • Estrazione delle caratteristiche dalle immagini usando l'encoder condiviso.
  • Utilizzo di query specifiche per compito per guidare il decoder ed estrarre le informazioni più rilevanti per ciascun compito.
  • Generazione di output basati su quelle query, che vengono poi utilizzati per ottimizzare il modello attraverso varie funzioni di perdita stabilite.

Attraverso questo addestramento multi-task, UniHCP ha imparato a riconoscere le caratteristiche uniche dei diversi compiti centrati sull'umano mantenendo una comprensione condivisa delle strutture del corpo umano.

Valutazione e Risultati

Valutazioni in Addestramento

UniHCP è stato valutato su tredici dataset che facevano parte del suo pre-addestramento. In questa valutazione:

  • Il modello ha mostrato risultati forti, in particolare nei compiti di scomposizione umana e stimare la posa.
  • Tuttavia, per compiti come la ri-identificazione delle persone, si sono visti miglioramenti nelle performance con aggiustamenti aggiuntivi, indicando la capacità del modello di affinare le proprie capacità quando riceve più tempo di addestramento.

Performance Cross-Dataset

Per testare l'adattabilità di UniHCP a nuovi dati, sono state condotte valutazioni su dataset non inclusi nell'addestramento originale. È emerso che:

  • Il modello poteva superare i sistemi esistenti all'avanguardia nella maggior parte dei casi.
  • Anche con aggiustamenti minimi specifici per compito, ha comunque performato bene, dimostrando la sua conoscenza trasferibile attraverso diversi compiti centrati sull'umano.

Trasferimento Dati-Efficiente

UniHCP ha anche performato in modo impressionante in scenari con pochissime immagini di addestramento. Con solo un'immagine per classe, il modello ha ottenuto un'alta precisione, dimostrando che il suo design può condividere efficacemente conoscenze e generalizzare bene da dati limitati.

Sfide e Soluzioni

Anche se creare un modello unificato offre molti vantaggi, presenta anche sfide uniche. La diversità nei tipi di dati, nelle risoluzioni e nelle uscite dei compiti rende difficile sviluppare un modello unico che funzioni efficacemente in tutte le aree.

Per affrontare queste sfide, il design di UniHCP include:

  • Estrazione di Caratteristiche Generalizzabili: Utilizzando un encoder standardizzato, UniHCP può accettare immagini di varie dimensioni e tipi.
  • Apprendimento Condiviso: Invece di creare teste di output separate per ogni compito, il modello utilizza un metodo semplificato per generare output, aiutando a ridurre la complessità e migliorando la condivisione delle caratteristiche apprese.

Conclusione

Lo sviluppo di UniHCP rappresenta un passo significativo avanti nel campo della percezione visiva centrata sull'umano. Creando un modello che unifica efficacemente più compiti in una struttura semplice, apre nuove porte per applicazioni in vari settori. La capacità di condividere conoscenze, adattarsi rapidamente a nuove sfide e mantenere alte performance contribuiscono a un futuro in cui modelli visivi possono servire una gamma più ampia di scopi in modo efficiente ed efficace.

UniHCP mostra promettente non solo per migliorare gli attuali standard per i compiti di percezione umana, ma anche per aprire la strada a future ricerche e sviluppi nella creazione di modelli ancora più avanzati. Questa ricerca incoraggia ulteriori esplorazioni in modelli umani centrati che possono combinare in modo simile vari compiti in sistemi coesi.

Fonte originale

Titolo: UniHCP: A Unified Model for Human-Centric Perceptions

Estratto: Human-centric perceptions (e.g., pose estimation, human parsing, pedestrian detection, person re-identification, etc.) play a key role in industrial applications of visual models. While specific human-centric tasks have their own relevant semantic aspect to focus on, they also share the same underlying semantic structure of the human body. However, few works have attempted to exploit such homogeneity and design a general-propose model for human-centric tasks. In this work, we revisit a broad range of human-centric tasks and unify them in a minimalist manner. We propose UniHCP, a Unified Model for Human-Centric Perceptions, which unifies a wide range of human-centric tasks in a simplified end-to-end manner with the plain vision transformer architecture. With large-scale joint training on 33 human-centric datasets, UniHCP can outperform strong baselines on several in-domain and downstream tasks by direct evaluation. When adapted to a specific task, UniHCP achieves new SOTAs on a wide range of human-centric tasks, e.g., 69.8 mIoU on CIHP for human parsing, 86.18 mA on PA-100K for attribute prediction, 90.3 mAP on Market1501 for ReID, and 85.8 JI on CrowdHuman for pedestrian detection, performing better than specialized models tailored for each task.

Autori: Yuanzheng Ci, Yizhou Wang, Meilin Chen, Shixiang Tang, Lei Bai, Feng Zhu, Rui Zhao, Fengwei Yu, Donglian Qi, Wanli Ouyang

Ultimo aggiornamento: 2023-06-22 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2303.02936

Fonte PDF: https://arxiv.org/pdf/2303.02936

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili