Avanzare la percezione centrata sull'uomo con HumanBench
HumanBench e PATH fissano nuovi standard nella valutazione dei modelli di figura umana.
― 6 leggere min
Indice
- Panoramica di HumanBench
- Sfide nella Percezione Centrata sull'Umano
- Ostacoli ai Modelli Generali Centrati sull'Umano
- Il Framework di HumanBench
- PATH: Pre-addestramento Gerarchico Assistito da Proiettore
- Metodi di Valutazione
- Risultati Sperimentali
- Confronto con Altri Modelli
- Conclusione
- Direzioni Future
- Fonte originale
- Link di riferimento
La percezione centrata sull'essere umano è importante in diversi ambiti, come la sorveglianza, le auto a guida autonoma e i mondi virtuali. C'è bisogno di un modello generale che funzioni bene in vari compiti legati alla comprensione delle figure umane. Questo articolo parla di un nuovo approccio chiamato HumanBench, che mira a creare un benchmark per valutare i modelli centrati sull'uomo. Introduce anche un metodo di addestramento noto come Projector Assisted Hierarchical pre-training (PATH), che aiuta il modello ad imparare meglio da vari tipi di dati.
Panoramica di HumanBench
HumanBench è stato costruito usando set di dati esistenti per valutare quanto bene diversi metodi di addestramento si comportano in vari compiti legati agli esseri umani. I compiti includono:
- Re-identificazione delle persone (ReID)
- Stima della posa
- Parsing umano
- Riconoscimento delle caratteristiche dei pedoni
- Rilevamento dei pedoni
- Conteggio delle folle
HumanBench utilizza 19 set di dati diversi per valutare questi compiti. In questo modo, i ricercatori possono avere un quadro chiaro di quanto bene i metodi di addestramento si generalizzano in varie situazioni.
Caratteristiche chiave di HumanBench
Diversità delle Immagini: I dati includono un mix di diversi tipi di immagini, come quelle focalizzate sugli individui e quelle che mostrano scene più ampie. Questa varietà aiuta il modello a imparare da un ampio spettro di esempi.
Valutazione Completa: HumanBench offre una valutazione approfondita combinando dati da vari compiti e verificando quanto bene il modello si comporta in ciascun caso.
Sfide nella Percezione Centrata sull'Umano
Anche se ci sono stati progressi nella comprensione delle figure umane, molti studi esistenti si concentrano su compiti specifici. Questo può portare a costi elevati in termini di tempo e risorse. Alcune sfide includono la necessità di design su misura per ogni compito e la difficoltà di creare un modello che funzioni in modo efficiente su più compiti centrati sull'uomo.
La Necessità di un Modello Generale
L'idea è scoprire se è possibile creare un modello unico che funzioni per vari compiti centrati sull'uomo. Ci sono due motivi per cui questo sembra fattibile:
Correlazione dei Compiti: Molti compiti condividono caratteristiche comuni. Ad esempio, sia l'estimazione della posa che il parsing umano si occupano del corpo, ma possono differire nel grado di dettaglio delle annotazioni. Addestrarli insieme può migliorare le prestazioni generali del modello.
Reti Neurali Profonde su Grande Scala: Recenti progressi nei modelli di deep learning hanno mostrato che le reti grandi possono gestire vari tipi di input e compiti. Modelli come Uni-Perceiver e BEITv3 possono performare bene in diversi compiti di visione e linguaggio.
Ostacoli ai Modelli Generali Centrati sull'Umano
Nonostante i potenziali benefici di un modello generale, ci sono due sfide principali:
Mancanza di un Benchmark Unificato: Anche se ci sono molti benchmark per compiti specifici, non esiste un benchmark unico che confronti equamente diversi metodi di addestramento su tutti i compiti centrati sull'uomo.
Necessità di Granularità: I modelli centrati sull'uomo devono apprendere sia caratteristiche globali (come l'identità complessiva) che dettagli fini (come le parti del corpo) simultaneamente da vari livelli di dettaglio nelle annotazioni. Questo aggiunge complessità al processo di addestramento.
Il Framework di HumanBench
HumanBench punta a colmare il divario fornendo un benchmark per il pre-addestramento dei modelli centrati sull'uomo. Questo nuovo benchmark raccoglie dati da più compiti per valutare le capacità di generalizzazione.
Specifiche del Dataset
HumanBench include una combinazione di immagini centrate sulle persone e immagini di scene più ampie. Contiene circa 11 milioni di immagini attraverso 37 set di dati che coprono cinque compiti principali. Valuta i modelli di pre-addestramento su scale sistematiche, garantendo una valutazione dettagliata.
PATH: Pre-addestramento Gerarchico Assistito da Proiettore
Per affrontare le complessità dell'apprendimento da set di dati diversi, viene introdotto PATH. Questo metodo incorpora una strategia di condivisione dei pesi gerarchica, permettendo al modello di bilanciare l'apprendimento delle conoscenze condivise tra compiti, mentre è reattivo alle esigenze specifiche di ciascun compito.
Come Funziona PATH
PATH utilizza una rete backbone condivisa tra diversi set di dati. Ogni compito ha un proiettore che impara a focalizzarsi su caratteristiche specifiche del compito, mentre le teste sono specifiche per il set di dati per gestire caratteristiche uniche.
Estrazione di Caratteristiche Generali: Il backbone estrae caratteristiche generali da una varietà di immagini.
Caratteristiche Specifiche del Compito: Ogni proiettore specifico del compito seleziona caratteristiche rilevanti dalle caratteristiche condivise.
Output Specifico per il Dataset: Ogni set di dati ha una testa che trasforma le caratteristiche specifiche del compito in output utilizzabili per la valutazione.
Vantaggi di PATH
Riduzione dei Conflitti tra Compiti: Condividendo certi pesi e parametri, PATH aiuta il modello a evitare conflitti che possono sorgere quando si gestiscono più compiti simultaneamente.
Flessibilità: La struttura gerarchica consente un addestramento efficiente mantenendo la capacità di adattarsi a diversi compiti.
Metodi di Valutazione
HumanBench utilizza tre metodi di valutazione diversi per misurare quanto bene i modelli pre-addestrati si comportano:
Finetuning Completo: L'intera rete viene regolata in base ai compiti specifici, consentendo al modello di imparare in modo ottimale.
Finetuning delle Teste: Solo le teste vengono addestrate, mantenendo intatta la struttura principale del modello. Questo è utile per vedere quanto bene il modello si è generalizzato senza grandi aggiustamenti.
Finetuning Parziale: Questo metodo aggiorna solo alcuni strati del modello, consentendo un equilibrio tra adattabilità e mantenimento delle conoscenze apprese.
Risultati Sperimentali
Gli esperimenti mostrano che il metodo PATH porta a miglioramenti significativi in vari compiti in HumanBench, ottenendo costantemente risultati migliori rispetto a molti modelli all'avanguardia.
Valutazione In- Dataset
In questo metodo, il modello viene testato su dati simili a quelli su cui è stato addestrato. I risultati indicano che HumanBench, quando completamente affilato, supera molti altri metodi su diversi set di dati.
Valutazione Out-of-Dataset
Qui, il modello opera su compiti su cui non è stato addestrato, rivelando la sua adattabilità. Il modello mostra forti prestazioni su dati mai visti prima, dimostrando la sua capacità di generalizzare attraverso diversi set di dati.
Valutazione di Compiti Non Visti
Le prestazioni del modello vengono valutate su compiti completamente nuovi, come il conteggio delle folle. I risultati dimostrano che i modelli addestrati con PATH mantengono forti prestazioni anche su compiti per cui non sono stati specificamente progettati.
Confronto con Altri Modelli
Rispetto ai modelli pre-addestrati popolari come MAE e CLIP, il metodo PATH mostra miglioramenti significativi sui compiti centrati sull'uomo. Questo suggerisce che la diversità dei dati e le strategie di addestramento su misura sono essenziali per una percezione efficace centrata sull'uomo.
Conclusione
HumanBench rappresenta un passo importante nella creazione di un benchmark per i compiti centrati sull'uomo. L'introduzione di PATH come metodo di pre-addestramento mostra promesse nel migliorare la capacità del modello di apprendere da varie fonti e compiti. Questa ricerca getta le basi per futuri lavori nella progettazione di strutture unificate che possono adattarsi a una vasta gamma di compiti centrati sull'uomo, migliorando l'efficacia della visione artificiale nelle applicazioni reali.
Direzioni Future
Guardando avanti, lo sviluppo di strutture di rete unificate e metodi di apprendimento innovativi giocherà un ruolo critico nell'avanzare la percezione centrata sull'uomo. I ricercatori sperano di espandere le intuizioni guadagnate da HumanBench per incoraggiare applicazioni più ampie e miglioramenti in questo campo.
Titolo: HumanBench: Towards General Human-centric Perception with Projector Assisted Pretraining
Estratto: Human-centric perceptions include a variety of vision tasks, which have widespread industrial applications, including surveillance, autonomous driving, and the metaverse. It is desirable to have a general pretrain model for versatile human-centric downstream tasks. This paper forges ahead along this path from the aspects of both benchmark and pretraining methods. Specifically, we propose a \textbf{HumanBench} based on existing datasets to comprehensively evaluate on the common ground the generalization abilities of different pretraining methods on 19 datasets from 6 diverse downstream tasks, including person ReID, pose estimation, human parsing, pedestrian attribute recognition, pedestrian detection, and crowd counting. To learn both coarse-grained and fine-grained knowledge in human bodies, we further propose a \textbf{P}rojector \textbf{A}ssis\textbf{T}ed \textbf{H}ierarchical pretraining method (\textbf{PATH}) to learn diverse knowledge at different granularity levels. Comprehensive evaluations on HumanBench show that our PATH achieves new state-of-the-art results on 17 downstream datasets and on-par results on the other 2 datasets. The code will be publicly at \href{https://github.com/OpenGVLab/HumanBench}{https://github.com/OpenGVLab/HumanBench}.
Autori: Shixiang Tang, Cheng Chen, Qingsong Xie, Meilin Chen, Yizhou Wang, Yuanzheng Ci, Lei Bai, Feng Zhu, Haiyang Yang, Li Yi, Rui Zhao, Wanli Ouyang
Ultimo aggiornamento: 2023-03-09 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2303.05675
Fonte PDF: https://arxiv.org/pdf/2303.05675
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.