Sfide nel Riconoscimento delle Espressioni Facciali con le Mascherine
Nuovo dataset mira a migliorare il riconoscimento delle emozioni con le mascherine.
― 6 leggere min
Indice
- La Sfida delle Mascherine
- Dataset Esistenti
- Necessità di un Nuovo Dataset
- Descrizione del Dataset
- Processo di Verifica delle Etichette
- Sfide nel Dataset
- Importanza di Sistemi di Riconoscimento Robusti
- Approcci di Addestramento
- Valutazione Sperimentale
- Metodi all'Avanguardia
- Test Cross-Dataset
- Conclusione
- Fonte originale
- Link di riferimento
Le espressioni facciali sono super importanti nella comunicazione umana. Ci aiutano a capire come si sentono e reagiscono gli altri. Riconoscere queste espressioni è fondamentale per creare interazioni migliori tra umani e macchine. Il Riconoscimento Automatico delle Espressioni Facciali (FER) si propone di insegnare ai computer a identificare diverse espressioni facciali. Però, questa cosa sta affrontando un sacco di problemi, soprattutto di recente a causa della pandemia globale.
La Sfida delle Mascherine
Durante la pandemia di Covid-19, indossare mascherine è diventato normale. Questo ha reso difficile per i sistemi FER già esistenti funzionare bene. Le mascherine coprono parti essenziali del volto, come bocca e naso, che danno informazioni importanti sulle emozioni di una persona. Di conseguenza, i sistemi FER perdono la capacità di interpretare accuratamente le espressioni quando le persone portano le mascherine.
Dataset Esistenti
I ricercatori hanno provato a risolvere il problema di riconoscere le espressioni con volti coperti. Ci sono alcuni dataset disponibili che includono immagini di volti mascherati, ma per lo più sono stati creati usando metodi sintetici. Ad esempio, alcuni studi hanno preso dataset di espressioni facciali esistenti e hanno aggiunto maschere alle immagini. Però, questi dataset sintetici non catturano completamente la varietà reale delle espressioni facciali e delle mascherine.
Necessità di un Nuovo Dataset
Vista la mancanza di dati affidabili nel mondo reale, è stato creato un nuovo dataset specifico per riconoscere le espressioni con le mascherine. Questo dataset consiste in immagini vere di persone con e senza mascherina, mostrando un’ampia gamma di emozioni. Include oltre 1.900 immagini raccolte da volontari, garantendo alta qualità e precisione nell’etichettatura delle espressioni.
Descrizione del Dataset
Il nuovo dataset include immagini di partecipanti che esprimono varie emozioni. Le espressioni sono suddivise in sette sentimenti base: sorpresa, paura, disgusto, felicità, tristezza, rabbia e neutrale. Ogni volontario ha fatto queste espressioni con e senza mascherina, risultando in una raccolta completa di immagini che riflettono situazioni reali.
I partecipanti allo studio provenivano da background diversi, garantendo un mix di età, genere e tipi di mascherine. Questa varietà aggiunge profondità e realismo al dataset, permettendo ai ricercatori di esplorare come diverse espressioni siano influenzate dai vari tipi di mascherine.
Processo di Verifica delle Etichette
Una preoccupazione con i dataset è l’affidabilità delle etichette assegnate a ciascuna immagine. Per verificare l'accuratezza delle etichette delle espressioni, un gruppo di volontari ha valutato ciascuna immagine. Hanno determinato se l'espressione corrispondeva all'etichetta, se necessitava di una nuova etichetta o se doveva essere rimossa del tutto. Questo rigoroso processo di validazione ha assicurato che il dataset sia affidabile e utile per addestrare i sistemi di riconoscimento.
Sfide nel Dataset
Anche se il dataset offre una grande quantità di informazioni, presenta anche delle sfide. La varietà di mascherine utilizzate dai partecipanti e i modi in cui le persone esprimono le emozioni possono rendere il riconoscimento difficile. Ad esempio, alcune espressioni sono più forti e facili da identificare, mentre altre sono più sottili e potrebbero essere interpretate male.
Inoltre, alcuni partecipanti indossavano diversi tipi di mascherine, comprese quelle di stoffa, chirurgiche e N95. Ogni tipo di mascherina contribuisce in modo diverso a come possono essere viste e riconosciute le espressioni. Questa diversità riflette la situazione reale in cui le persone indossano varie mascherine, rendendo il dataset una risorsa preziosa per addestrare i sistemi FER.
Importanza di Sistemi di Riconoscimento Robusti
Mentre la società continua ad adattarsi alla vita con le mascherine, è fondamentale sviluppare sistemi FER che possano identificare correttamente le emozioni in queste condizioni. L'obiettivo è costruire modelli che funzionino bene in modo coerente, sia che una persona indossi una mascherina o meno. Riconoscere le emozioni in situazioni mascherate può migliorare l'interazione uomo-computer in applicazioni come il servizio clienti, riunioni virtuali e monitoraggio della salute mentale.
Approcci di Addestramento
Per affrontare le sfide presentate dal dataset, i ricercatori hanno impiegato due tecniche principali di addestramento: l'Apprendimento Contrastivo e la Distillazione della Conoscenza. Questi metodi mirano a migliorare l'accuratezza dei modelli di riconoscimento delle espressioni quando si trattano immagini mascherate.
Apprendimento Contrastivo
L'apprendimento contrastivo prevede l'addestramento del modello con coppie di immagini - una con mascherina e una senza. L'obiettivo è aiutare il modello a riconoscere somiglianze nelle caratteristiche sottostanti di entrambe le immagini, anche quando alcune caratteristiche facciali sono coperte da una maschera. Questo approccio incoraggia il modello a concentrarsi sulle aree visibili del viso, che possono ancora fornire informazioni preziose per comprendere le emozioni.
Distillazione della Conoscenza
La distillazione della conoscenza funziona diversamente utilizzando un modello "insegnante" addestrato su immagini non mascherate. Un modello "studente" impara dall'insegnante cercando di allineare le sue uscite quando gli vengono fornite sia immagini non mascherate che mascherate. Questo metodo aiuta il modello studente a migliorare le sue abilità di riconoscimento in scenari mascherati, mantenendo comunque le prestazioni su immagini non mascherate.
Valutazione Sperimentale
Per convalidare l'efficacia del nuovo dataset e dei metodi di addestramento, sono stati condotti vari esperimenti. Le prestazioni di base di un modello di riconoscimento comune sono state prima stabilite utilizzando il nuovo dataset. Successivamente, sono state applicate le tecniche di apprendimento contrastivo e distillazione della conoscenza per vedere come influenzassero l'accuratezza del riconoscimento sia in situazioni mascherate che non mascherate.
I risultati hanno indicato che entrambi i metodi di addestramento hanno migliorato la capacità del modello di riconoscere espressioni in immagini mascherate. L'approccio di apprendimento contrastivo ha ottenuto miglioramenti significativi in termini di accuratezza, rendendolo un metodo promettente per future ricerche.
Metodi all'Avanguardia
Oltre a esplorare nuove tecniche di addestramento, i ricercatori hanno anche valutato quanto bene le metodologie esistenti all'avanguardia performassero sul nuovo dataset. Questi metodi, progettati per essere robusti contro l'occlusione, sono stati testati per verificare se potessero riconoscere efficacemente espressioni nel contesto mascherato. Sebbene alcuni di questi metodi abbiano mostrato miglioramenti rispetto alla base, hanno comunque avuto difficoltà con le sfide uniche presentate dalle espressioni mascherate.
Test Cross-Dataset
Per indagare ulteriormente la coerenza del nuovo dataset, sono stati eseguiti test cross-dataset. Immagini di un dataset ben noto sono state utilizzate per addestrare modelli che sono stati poi testati sul dataset appena creato. Questa analisi mirava a determinare quanto bene i modelli potessero generalizzare le loro conoscenze delle espressioni su diversi dataset. I risultati hanno messo in evidenza che i modelli addestrati su immagini mascherate sintetiche non si sono comportati bene su immagini mascherate reali, sottolineando la necessità di avere dati reali per un riconoscimento efficace.
Conclusione
Mentre ci adattiamo alla presenza costante delle mascherine nella nostra vita quotidiana, è essenziale migliorare il modo in cui le macchine riconoscono le emozioni mentre le persone le indossano. Introducendo un nuovo dataset focalizzato sulle espressioni mascherate, i ricercatori sperano di ispirare ulteriori studi in quest'area. Con sistemi di riconoscimento migliori, possiamo migliorare come gli umani e le macchine interagiscono in vari contesti.
La combinazione di raccolta dati rigorosa, pratiche di etichettatura affidabili e tecniche di addestramento avanzate offre una via da seguire per sviluppare sistemi FER efficaci. Man mano che questi sistemi migliorano, giocheranno un ruolo importante nel colmare il divario tra le emozioni umane e la comprensione delle macchine, creando interazioni più fluide nel nostro mondo sempre più digitale.
Titolo: Masked Student Dataset of Expressions
Estratto: Facial expression recognition (FER) algorithms work well in constrained environments with little or no occlusion of the face. However, real-world face occlusion is prevalent, most notably with the need to use a face mask in the current Covid-19 scenario. While there are works on the problem of occlusion in FER, little has been done before on the particular face mask scenario. Moreover, the few works in this area largely use synthetically created masked FER datasets. Motivated by these challenges posed by the pandemic to FER, we present a novel dataset, the Masked Student Dataset of Expressions or MSD-E, consisting of 1,960 real-world non-masked and masked facial expression images collected from 142 individuals. Along with the issue of obfuscated facial features, we illustrate how other subtler issues in masked FER are represented in our dataset. We then provide baseline results using ResNet-18, finding that its performance dips in the non-masked case when trained for FER in the presence of masks. To tackle this, we test two training paradigms: contrastive learning and knowledge distillation, and find that they increase the model's performance in the masked scenario while maintaining its non-masked performance. We further visualise our results using t-SNE plots and Grad-CAM, demonstrating that these paradigms capitalise on the limited features available in the masked scenario. Finally, we benchmark SOTA methods on MSD-E.
Autori: Sridhar Sola, Darshan Gera
Ultimo aggiornamento: 2023-04-07 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2304.03867
Fonte PDF: https://arxiv.org/pdf/2304.03867
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.