Avanzando nella rilevazione delle espressioni facciali con dati sintetici
Questo studio migliora il rilevamento delle AU facciali usando dati sintetici per una maggiore accuratezza e giustizia.
― 5 leggere min
Indice
- Importanza delle Espressioni Facciali
- Sfide Attuali nella Rilevazione delle AU
- Adattamento di Dominio Multi-sorgente
- Creazione di Dati Sintetici
- Il Modello Proposto: Paired Moment Matching (PM2)
- Risultati Sperimentali
- Panoramica sui Dati
- Creazione di Dati Sintetici
- Metriche di Valutazione
- Discussione dei Risultati
- Risultati Dentro il Dominio
- Risultati Cross-Dominio
- Valutazione dell'equità
- Lavori Futuri
- Conclusione
- Fonte originale
- Link di riferimento
La rilevazione delle unità d'azione facciali (AU) è fondamentale per capire le espressioni facciali umane. Questa rilevazione aiuta ad analizzare emozioni e interazioni sociali. Però, i metodi attuali richiedono spesso una grossa quantità di dati etichettati manualmente, che sono costosi e richiedono tempo. Inoltre, manca diversità in termini di genere, il che può portare a problemi di equità nei modelli.
Questo documento propone di usare Dati Sintetici per migliorare l'accuratezza e l'equità della rilevazione delle AU facciali. Generando set di dati diversi tramite espressioni sintetiche, possiamo affrontare la carenza di dati etichettati e creare modelli migliori che funzionino per tutti.
Importanza delle Espressioni Facciali
Le espressioni facciali sono cruciali per comunicare emozioni e intenzioni tra le persone. Il Sistema di Codifica delle Azioni Facciali (FACS) categoriza queste espressioni in unità d'azione basate su specifici movimenti muscolari. A differenza delle espressioni emotive come felicità o tristezza, che potrebbero non essere sempre concordi, il FACS offre un modo chiaro e oggettivo per descrivere i comportamenti facciali.
Sfide Attuali nella Rilevazione delle AU
Molti metodi di rilevazione delle AU esistenti si basano su dati dello stesso set per sia addestramento che test. Questo può portare a pregiudizi, poiché i modelli potrebbero non generalizzare bene a dati diversi. Le tecniche di apprendimento supervisionato richiedono ampi dati etichettati, ma questo può essere costoso e spesso non rappresenta la popolazione più ampia. I set di dati comuni in questo campo affrontano sfide, poiché spesso presentano squilibri nella rappresentazione di genere, il che può influenzare l'equità dei modelli di machine learning risultanti.
Per superare queste sfide, i ricercatori hanno iniziato a guardare ai dati sintetici, che possono essere generati senza le stesse limitazioni dei dati reali.
Adattamento di Dominio Multi-sorgente
L'adattamento di dominio (DA) viene utilizzato per affrontare le differenze tra le fonti di dati quando si addestra un modello. L'adattamento di dominio multi-sorgente (MSDA) porta questo un passo avanti, permettendo il trasferimento di conoscenza da più fonti a un dominio target. Questo può aiutare i modelli a imparare un approccio più generalizzabile alla rilevazione delle AU, anche quando affrontano fonti di dati varie.
Creazione di Dati Sintetici
Questo documento suggerisce un metodo per creare set di dati diversi e bilanciati trasferendo espressioni facciali reali ad avatar sintetici. Utilizzando un processo chiamato ri-targeting delle espressioni facciali, possiamo estrarre parametri da video reali e applicarli a avatar, risultando in un set di dati di immagini sintetiche che rappresentano un mix di diverse espressioni.
Il Modello Proposto: Paired Moment Matching (PM2)
Per migliorare la rilevazione delle AU garantendo equità, introduciamo un nuovo approccio chiamato Paired Moment Matching (PM2). Questo metodo si concentra sull'allineamento delle caratteristiche dei dati reali e sintetici che condividono la stessa espressione. Invece di cercare di abbinare le distribuzioni complessive, il PM2 abbina caratteristiche specifiche basate su etichette di classe, il che aiuta a mantenere le caratteristiche uniche di ogni unità d'azione.
Il PM2 allinea specificamente le caratteristiche dei dati reali sia con avatar maschili che femminili per garantire equità nella rappresentazione di genere. In questo modo, il modello può riconoscere meglio le azioni facciali attraverso diverse presentazioni di genere, portando a un approccio più bilanciato.
Risultati Sperimentali
Gli esperimenti condotti mostrano che l'uso di dati sintetici insieme al modello PM2 migliora significativamente sia l'accuratezza che l'equità della rilevazione delle AU. Il PM2 ha superato altri modelli di baseline in vari scenari, dimostrando l'efficacia della combinazione di set di dati sintetici con tecniche di allineamento progettate con attenzione.
Panoramica sui Dati
I principali set di dati utilizzati in questo studio includono BP4D, DISFA e GFT. BP4D ha la qualità e quantità di dati più alta, mentre DISFA e GFT presentano più sfide in termini di condizioni di illuminazione variabili e soggetti.
Creazione di Dati Sintetici
Utilizzando il ri-targeting delle espressioni facciali, creiamo un set di dati sintetico bilanciato con rappresentazione uguale dei generi. Questo set di dati è cruciale per contrastare i pregiudizi presenti nei set di dati tradizionali.
Metriche di Valutazione
Per valutare l'efficacia del modello, abbiamo usato metriche come F1-score, opportunità equa e differenza di parità statistica per misurare sia le prestazioni che l'equità.
Discussione dei Risultati
I risultati suggeriscono che il nostro modello non solo migliora le prestazioni di rilevazione ma raggiunge anche equità tra diversi gruppi di genere. Gli esperimenti mostrano che i dati sintetici possono integrare efficacemente i dati reali limitati e portare a risultati migliori attraverso più set di dati.
Risultati Dentro il Dominio
Valutare il modello all'interno dello stesso set di dati mostra che il modello PM2 performa costantemente meglio rispetto ai metodi tradizionali, indicando la sua robustezza e capacità di sfruttare i diversi dati sintetici per una maggiore accuratezza.
Risultati Cross-Dominio
Quando testato su diversi set di dati, il modello PM2 continua a mostrare una migliore generalizzazione rispetto ai modelli di baseline. Questo evidenzia l'importanza di usare un set di dati bilanciato e una tecnica di allineamento che consideri la diversità di genere.
Valutazione dell'equità
La valutazione dell'equità conferma che il modello PM2 riduce significativamente i pregiudizi che di solito sono presenti nei compiti di rilevazione delle AU facciali. Le metriche di opportunità equa e parità statistica riflettono miglioramenti in come il modello performa tra diversi gruppi di genere.
Lavori Futuri
Guardando avanti, l'obiettivo è espandere il processo di generazione di dati sintetici per includere altri attributi come razza e età. Inoltre, automatizzare la pipeline di creazione dei dati potrebbe portare a set di dati più grandi e scalabili. Le future iterazioni di questa ricerca mireranno a migliorare ulteriormente le capacità di generalizzazione del modello, minimizzando il divario tra le prestazioni dei domini sorgente e target.
Conclusione
In sintesi, l'uso di dati sintetici fornisce una direzione promettente per avanzare la tecnologia di rilevazione delle AU facciali. Generando set di dati diversi e impiegando l'approccio di allineamento PM2, possiamo migliorare l'accuratezza e l'equità nei compiti di riconoscimento delle emozioni. Questo lavoro apre la strada a una migliore analisi delle espressioni facciali nelle applicazioni del mondo reale.
Titolo: Leveraging Synthetic Data for Generalizable and Fair Facial Action Unit Detection
Estratto: Facial action unit (AU) detection is a fundamental block for objective facial expression analysis. Supervised learning approaches require a large amount of manual labeling which is costly. The limited labeled data are also not diverse in terms of gender which can affect model fairness. In this paper, we propose to use synthetically generated data and multi-source domain adaptation (MSDA) to address the problems of the scarcity of labeled data and the diversity of subjects. Specifically, we propose to generate a diverse dataset through synthetic facial expression re-targeting by transferring the expressions from real faces to synthetic avatars. Then, we use MSDA to transfer the AU detection knowledge from a real dataset and the synthetic dataset to a target dataset. Instead of aligning the overall distributions of different domains, we propose Paired Moment Matching (PM2) to align the features of the paired real and synthetic data with the same facial expression. To further improve gender fairness, PM2 matches the features of the real data with a female and a male synthetic image. Our results indicate that synthetic data and the proposed model improve both AU detection performance and fairness across genders, demonstrating its potential to solve AU detection in-the-wild.
Autori: Liupei Lu, Yufeng Yin, Yuming Gu, Yizhen Wu, Pratusha Prasad, Yajie Zhao, Mohammad Soleymani
Ultimo aggiornamento: 2024-03-15 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2403.10737
Fonte PDF: https://arxiv.org/pdf/2403.10737
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.