Progressi nelle tecniche di stima dell'orientamento della testa
Un nuovo metodo migliora l'accuratezza nella stima della posizione della testa in diverse orientazioni.
― 6 leggere min
Indice
Stimare la posizione della testa di una persona dalle foto è importante per molte tecnologie, come il riconoscimento facciale, l'assistenza alla guida e l'interazione uomo-robot. Questo processo, noto come stima dell'orientamento della testa, aiuta le macchine a capire dove sta guardando una persona. La maggior parte dei metodi attuali si concentra solo su un intervallo limitato di movimenti della testa, soprattutto guardando dritto e non considerando le rotazioni o le inclinazioni.
Tuttavia, nelle situazioni reali, le persone possono guardare in molte direzioni, e i metodi attuali spesso non riescono a prevedere con precisione dove sta guardando qualcuno. Questo problema nasce principalmente per due motivi: una mancanza di dati di addestramento diversificati che includano tutte le possibili orientazioni della testa e problemi con il modo in cui i movimenti della testa sono rappresentati matematicamente.
Il Problema con i Metodi Attuali
La maggior parte delle tecniche esistenti funziona bene principalmente per le posizioni frontali della testa, il che significa che faticano quando la testa è girata o inclinata. Questa limitazione è dovuta al fatto che sono state addestrate su dataset che contengono principalmente immagini di persone che guardano dritto. Quando i volti sono girati, molti metodi fanno supposizioni casuali che sono lontane dall'orientamento effettivo.
Per prevedere con precisione le posizioni della testa in tutte le direzioni, dobbiamo affrontare due sfide fondamentali:
- Dataset Limitati: C'è una carenza di dataset completi che includano varie posizioni della testa.
- Rappresentazione della Rotazione: Il modo in cui i movimenti della testa sono rappresentati influisce su quanto bene i modelli possono imparare a fare previsioni accurate.
Molti metodi tradizionali usano angoli di Eulero o quaternioni per rappresentare la rotazione della testa, ma questi approcci spesso portano a difficoltà, soprattutto quando la testa è girata in modo significativo. Questo può rendere difficile l'addestramento di un modello e portare a risultati scadenti.
Soluzione Proposta
Per affrontare questi problemi, un nuovo metodo utilizza una rappresentazione di rotazione diversa basata su un formato matriciale. Questo approccio semplifica il processo di addestramento e consente al modello di apprendere da un dataset più ampio che include una gamma più varia di movimenti della testa.
Utilizzo di una Matrice di Rotazione 6D
Si propone una matrice di rotazione 6D come modo per rappresentare i movimenti della testa in modo più efficace. Questa matrice può catturare con precisione le posizioni della testa senza soffrire dei problemi comuni visti in altre rappresentazioni. La matrice di rotazione è un'opzione più robusta perché fornisce una descrizione unica per ogni possibile orientamento della testa.
Creazione di un Nuovo Dataset
Per ampliare la gamma di posizioni della testa utilizzate per l'addestramento, abbiamo combinato dati di due dataset esistenti, il dataset CMU Panoptic e il noto dataset 300W-LP. Questa combinazione fornisce un set molto più grande di orientamenti della testa, inclusi molti pose in cui è visibile la parte posteriore della testa.
Il dataset CMU Panoptic include numerose immagini catturate da vari angoli e distanze, mentre il dataset 300W-LP ha immagini ben strutturate di volti con misurazioni di verità di base. Unendo questi dataset, possiamo addestrare un modello che è in grado di prevedere le posizioni della testa in modo più accurato su tutta la gamma di movimenti.
Valutazione del Nuovo Metodo
Abbiamo testato l'efficacia di questo nuovo metodo attraverso diversi esperimenti utilizzando una varietà di dataset per misurare le prestazioni. I risultati dimostrano che il nuovo approccio supera i metodi esistenti, specialmente in relazione a pose della testa difficili.
Metriche di Valutazione
Per misurare quanto bene il nuovo modello performa, consideriamo due metriche principali:
- Errore Medio Assoluto (MAE): Questo misura la differenza media tra le posizioni della testa previste e quelle effettive.
- Errore Medio Assoluto dei Vettori: Questa metrica fornisce una migliore comprensione delle differenze tra orientamenti previsti e reali, considerando l'errore sui tre vettori della matrice di rotazione.
Risultati Sperimentali
Valutazione Cross-Dataset
Abbiamo confrontato il nostro metodo con diversi modelli all'avanguardia addestrando due versioni del nostro modello. Il primo modello è stato addestrato utilizzando il dataset standard, mentre il secondo è stato addestrato sul dataset combinato che includeva una gamma più ampia di orientamenti della testa.
I risultati hanno mostrato che il nostro secondo modello, addestrato con il dataset combinato, ha superato significativamente altri metodi. Ha ottenuto i migliori risultati sia in termini di MAE che di errore vettoriale, particolarmente per rotazioni più difficili da stimare.
Valutazione Intra-Dataset
In un altro round di test, abbiamo suddiviso casualmente il dataset BIWI in set di addestramento e test per vedere come il nostro nuovo modello si confrontava con altri. I risultati hanno nuovamente confermato la forza del nostro metodo, che ha costantemente performato meglio rispetto agli altri modelli.
Analisi degli Errori
Per avere una comprensione più profonda delle prestazioni del nostro modello, abbiamo condotto un'analisi dettagliata degli errori esaminando una gamma di angoli. Questa analisi ha mostrato che il nostro modello ha mantenuto tassi di errore più bassi, anche per pose della testa più estreme.
I risultati suggeriscono che, mentre l'accuratezza per l'asse di imbardata (movimento laterale della testa) rimane forte, ci sono alcune debolezze per l'asse di beccheggio (su e giù) e rotolamento (inclinazione a sinistra e a destra). Queste limitazioni derivano dal dataset usato per l'addestramento, che non cattura pienamente tutte le possibili orientazioni della testa.
L'Importanza della Funzione di Perdita
Uno dei componenti chiave che ha contribuito al successo del nostro modello è stata la scelta della funzione di perdita. La maggior parte degli altri metodi utilizza l'Errore Quadratico Medio, ma noi abbiamo optato per una funzione di perdita più adatta basata sulla distanza geodetica. Questa scelta ha permesso al nostro modello di apprendere meglio e ha fornito feedback più significativi durante l'addestramento.
Conclusione
Il nuovo approccio alla stima dell'orientamento della testa proposto qui affronta significative limitazioni presenti nei metodi esistenti. Utilizzando una matrice di rotazione 6D e sfruttando un dataset di addestramento completo che include una varietà più ampia di pose della testa, questo metodo può prevedere in modo efficace le orientazioni della testa in diverse situazioni.
Gli esperimenti condotti dimostrano un'accuratezza e robustezza migliorate rispetto alle tecniche attuali, rendendolo uno sviluppo promettente per applicazioni future nella visione artificiale e nell'interazione uomo-computer.
La ricerca suggerisce che sforzi continui per espandere i dataset e affinare i metodi di addestramento miglioreranno ulteriormente le capacità dei modelli nel prevedere accuratamente le orientazioni della testa. Man mano che diventa disponibile un numero maggiore di dataset diversificati e completi, il potenziale per una migliore stima dell'orientamento della testa continuerà a crescere, portando a migliori applicazioni in campi come i sistemi di assistenza alla guida, la realtà aumentata e la robotica.
Titolo: Towards Robust and Unconstrained Full Range of Rotation Head Pose Estimation
Estratto: Estimating the head pose of a person is a crucial problem for numerous applications that is yet mainly addressed as a subtask of frontal pose prediction. We present a novel method for unconstrained end-to-end head pose estimation to tackle the challenging task of full range of orientation head pose prediction. We address the issue of ambiguous rotation labels by introducing the rotation matrix formalism for our ground truth data and propose a continuous 6D rotation matrix representation for efficient and robust direct regression. This allows to efficiently learn full rotation appearance and to overcome the limitations of the current state-of-the-art. Together with new accumulated training data that provides full head pose rotation data and a geodesic loss approach for stable learning, we design an advanced model that is able to predict an extended range of head orientations. An extensive evaluation on public datasets demonstrates that our method significantly outperforms other state-of-the-art methods in an efficient and robust manner, while its advanced prediction range allows the expansion of the application area. We open-source our training and testing code along with our trained models: https://github.com/thohemp/6DRepNet360.
Autori: Thorsten Hempel, Ahmed A. Abdelrahman, Ayoub Al-Hamadi
Ultimo aggiornamento: 2023-09-14 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2309.07654
Fonte PDF: https://arxiv.org/pdf/2309.07654
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://www.michaelshell.org/
- https://www.michaelshell.org/tex/ieeetran/
- https://www.ctan.org/pkg/ieeetran
- https://www.ieee.org/
- https://www.latex-project.org/
- https://www.michaelshell.org/tex/testflow/
- https://www.ctan.org/pkg/ifpdf
- https://www.ctan.org/pkg/cite
- https://www.ctan.org/pkg/graphicx
- https://www.ctan.org/pkg/epslatex
- https://www.tug.org/applications/pdftex
- https://www.ctan.org/pkg/amsmath
- https://www.ctan.org/pkg/algorithms
- https://www.ctan.org/pkg/algorithmicx
- https://www.ctan.org/pkg/array
- https://www.ctan.org/pkg/subfig
- https://www.ctan.org/pkg/fixltx2e
- https://www.ctan.org/pkg/stfloats
- https://www.ctan.org/pkg/dblfloatfix
- https://www.ctan.org/pkg/endfloat
- https://www.ctan.org/pkg/url
- https://www.michaelshell.org/contact.html
- https://github.com/thohemp/6DRepNet360
- https://doi.org/10.48550/arxiv.2202.12555
- https://mirror.ctan.org/biblio/bibtex/contrib/doc/
- https://www.michaelshell.org/tex/ieeetran/bibtex/
- https://www.nit.ovgu.de/