Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli# Intelligenza artificiale# Apprendimento automatico

Avanzamenti nel riconoscimento delle espressioni facciali

Questo articolo presenta nuovi metodi per identificare emozioni complesse nell'IA.

― 9 leggere min


Svolta nel riconoscimentoSvolta nel riconoscimentodelle emozioni con l'IAcomplesse.dell'IA di riconoscere emozioniNuovi metodi migliorano la capacità
Indice

Il riconoscimento delle emozioni complesse è fondamentale per creare macchine che possano capire i sentimenti umani guardando le espressioni facciali. È un compito difficile, soprattutto perché le emozioni umane non sono sempre così nette. Per permettere a una macchina di identificare con precisione emozioni complesse, deve imparare rapidamente nuovi concetti con poche informazioni, proprio come fanno gli esseri umani. Gli umani riescono a cogliere rapidamente nuove idee ricordando i dettagli importanti e dimenticando quelli meno rilevanti.

Per raggiungere questo obiettivo, si usano due metodi chiave nell'apprendimento automatico: l'Apprendimento Continuo e l'apprendimento con pochi esempi. L'apprendimento continuo si concentra sull'acquisire nuove conoscenze mantenendo quelle già note. L'apprendimento con pochi esempi, d'altra parte, consente a un modello di imparare nuovi compiti con pochissimi esempi. Questo articolo presenta un nuovo metodo che migliora queste strategie di apprendimento per riconoscere correttamente nuove espressioni facciali complesse utilizzando un numero molto limitato di campioni di addestramento.

Utilizzando strumenti visivi avanzati, dimostriamo come il nostro metodo colleghi espressioni facciali di base e complesse. Il nostro approccio utilizza conoscenze da espressioni conosciute per aiutare a identificare quelle nuove. I risultati mostrano che il nostro metodo ottiene prestazioni significativamente migliori rispetto ai metodi tradizionali. Con un'accuratezza complessiva del 74,28% su nuove classi di espressioni complesse, il nostro metodo rappresenta un notevole miglioramento rispetto agli approcci precedenti. In particolare, abbiamo anche raggiunto un'accuratezza perfetta utilizzando solo un esempio per ciascuna nuova classe di espressione.

Il Ruolo dell'Intelligenza Artificiale

Siamo in un periodo in cui l'intelligenza artificiale (IA) sta diventando sempre più importante in vari settori. La capacità dell'IA di eguagliare o superare le prestazioni umane in compiti complessi come il riconoscimento delle immagini e l'elaborazione del linguaggio significa che può assistere in attività complicate come guidare auto, diagnosticare condizioni mediche e gestire le richieste dei clienti. Tuttavia, questi sistemi di IA devono anche incorporare gli aspetti umani della comunicazione, empatia e compassione.

Una comunicazione efficace è essenziale per l'apprendimento umano, la collaborazione e lo sviluppo sociale. Le espressioni facciali sono potenti indicatori di emozioni e intenzioni, trasmettendo più della metà della nostra comunicazione emotiva. Pertanto, il riconoscimento accurato delle espressioni facciali è cruciale per ruoli che richiedono comprensione sfumata, come infermieristica, assistenza e servizio clienti. Se l'IA può riconoscere le emozioni umane a un livello paragonabile a quello degli esseri umani, può essere fidata per assistere in questi ruoli impegnativi.

Per raggiungere questo livello di comprensione, l'IA deve imparare come gli esseri umani, afferrando rapidamente nuovi concetti e collegandoli alla conoscenza esistente. Questo articolo discute come l'apprendimento continuo e l'apprendimento con pochi esempi possano migliorare i sistemi di IA nel riconoscere espressioni facciali complesse. Mantenendo la conoscenza di base delle espressioni facciali, le macchine possono ottenere prestazioni migliori quando apprendono nuove emozioni complesse.

Comprensione di Base delle Espressioni Facciali

La maggior parte della ricerca sul Riconoscimento delle Espressioni Facciali (FER) segue un sistema categoriale stabilito dagli psicologi, che identifica sei emozioni di base: rabbia, disgusto, paura, felicità, tristezza e sorpresa, successivamente includendo il disprezzo. Si crede che queste espressioni di base siano riconosciute universalmente in tutte le culture.

Nonostante questo framework, gli esseri umani possono esprimere una vasta gamma di sentimenti complicati che non si adattano perfettamente a queste categorie. Le persone possono identificare e comprendere nuove emozioni complesse man mano che emergono, cosa con cui le macchine attualmente faticano. Ad esempio, una persona potrebbe mostrare un’espressione di “felicità disgustata”, che combina elementi di felicità e disgusto. Riconoscere tali espressioni composte richiede a una macchina di sintetizzare caratteristiche provenienti da più emozioni di base.

I metodi di Deep Learning per FER apprendono automaticamente caratteristiche e modelli da set di dati ampi. Tuttavia, i dati di addestramento per emozioni complesse sono limitati rispetto a quelli disponibili per le emozioni di base. Questo pone una sfida significativa. Inoltre, i pregiudizi legati a caratteristiche personali come età, sesso e etnia nei dati di addestramento possono influenzare la capacità della macchina di generalizzare correttamente su soggetti non familiari.

L'Importanza dell'Apprendimento Continuo e dell'Apprendimento con Pochi Esempi

Per migliorare il FER complesso, è necessario un nuovo approccio che consenta l'apprendimento incrementale di nuove emozioni. L'apprendimento continuo aiuta le macchine ad aggiungere gradualmente nuove classi emotive mantenendo la conoscenza di quelle apprese in precedenza.

Uno dei problemi principali nell'apprendimento continuo è il "dimenticare catastrofico". Questo si verifica quando un modello diventa meno preciso nel riconoscere emozioni precedentemente apprese a causa di cambiamenti sostanziali apportati ai suoi pesi quando impara nuove. Diverse tecniche, come il replay della memoria e la distillazione del sapere, aiutano a mitigare questo problema.

L'apprendimento con pochi esempi si concentra sull'addestrare modelli con esempi molto limitati - a volte solo un'immagine. È utile in scenari reali come brevi apparizioni in video di sicurezza o social media, dove le istanze di emozioni possono essere rare. Applicando l'apprendimento con pochi esempi nel FER complesso, i sistemi di IA possono essere addestrati a riconoscere nuove emozioni da un numero limitato di esempi, migliorando le interazioni umane-computer.

Progettazione della Ricerca e Metodologia

Il nostro metodo proposto consiste in tre fasi principali:

  1. Fase di FER di Base: In questa fase iniziale, un modello impara a riconoscere sei espressioni di base utilizzando un dataset di immagini etichettate.

  2. Fase di Apprendimento Continuo: Il modello, ora addestrato sulle espressioni di base, impara a identificare nuove espressioni complesse in sequenza mantenendo la conoscenza delle classi precedenti.

  3. Fase di Apprendimento con Pochi Esempi: Il modello impara a riconoscere nuove espressioni complesse utilizzando pochissimi esempi alla volta. Questa fase verifica quanto bene il modello possa usare ciò che ha appreso dalle espressioni di base.

Fase di FER di Base

Nella Fase di FER di Base, il modello impara la relazione tra le immagini e le rispettive etichette di espressione. Questa fase si concentra sul riconoscere correttamente sei emozioni di base, e quindi è fondamentale raggiungere un'alta accuratezza in questo passaggio poiché getta le basi per le fasi successive.

L'architettura del modello è composta da due parti chiave. La prima parte è un estrattore di caratteristiche che utilizza una rete residua per apprendere caratteristiche chiave dalle immagini. Questa rete è pre-addestrata per identificare forme e linee comuni nelle immagini prima di essere affinata sul dataset delle espressioni facciali. La seconda parte è uno strato di classificazione che restituisce previsioni basate sulle caratteristiche estratte.

Le immagini fornite al modello subiscono un preprocessing per garantire qualità coerente, inclusa la rilevazione del volto e tecniche di aumento dei dati per introdurre variabilità, migliorando così le prestazioni del modello.

Fase di Apprendimento Continuo

Nella Fase di Apprendimento Continuo, il modello impara nuove espressioni complesse in una serie di iterazioni. In ogni iterazione, viene selezionata una nuova classe di espressione per l'addestramento, e il modello adatta la sua architettura per includere un nuovo nodo di output corrispondente alla nuova espressione mantenendo la conoscenza precedente.

Durante questa fase, un sistema di memoria conserva una parte dei campioni di addestramento dalle classi precedentemente apprese. Questa memoria aiuta a rinforzare la comprensione del modello delle espressioni precedenti mentre impara quelle nuove. Il modello richiama selettivamente i campioni più rappresentativi per ottimizzare le prestazioni e ridurre il dimenticare.

Questa fase sottolinea l'importanza di un apprendimento fluido, in cui il modello può adattarsi e incorporare nuove conoscenze in tempo reale, simile a come gli esseri umani imparano dalle loro esperienze.

Fase di Apprendimento con Pochi Esempi

Nella Fase di Apprendimento con Pochi Esempi, il modello impara nuove espressioni complesse con pochissimi campioni di addestramento, da uno a cinque. Utilizzando la stessa architettura delle fasi precedenti, questa sezione mette alla prova l'adattabilità e l'efficienza del modello nell'imparare da dati limitati.

Durante questa fase, i parametri del modello vengono reimpostati per ciascuna nuova classe di espressione per valutare la sua capacità di imparare in isolamento. L'addestramento comporta la minimizzazione della perdita tra i risultati previsti e le etichette vere, simile alle fasi precedenti.

Le prestazioni in questa fase evidenziano l'efficacia della distillazione del sapere dalle espressioni di base, dimostrando che una solida base porta a capacità di apprendimento migliorate.

Valutazione e Risultati

Abbiamo utilizzato il database Compound Facial Expressions of Emotion (CFEE) per la valutazione. Questo dataset contiene migliaia di immagini di soggetti vari che mostrano emozioni complesse, fornendo un terreno di prova completo per il nostro modello.

Il metodo di valutazione ha coinvolto una validazione incrociata k-fold, dove il dataset viene suddiviso in dieci parti. Ogni iterazione tiene una parte per la validazione mentre utilizza il resto per l'addestramento. Questo metodo assicura che il modello venga testato su dati non visti ogni volta e aiuta a ridurre i bias derivati da soggetti specifici.

Nella Fase di FER di Base, il modello si allena per ottenere la massima precisione possibile. Una volta stabilita l'accuratezza, procediamo a valutare le prestazioni nelle fasi di Apprendimento Continuo e Apprendimento con Pochi Esempi, registrando i risultati di ciascuna iterazione.

I risultati hanno mostrato che il nostro metodo ha raggiunto un'alta accuratezza durante la Fase di Apprendimento Continuo, migliorando significativamente le prestazioni rispetto agli approcci standard. Inoltre, nella Fase di Apprendimento con Pochi Esempi, il modello ha mostrato un'accuratezza perfetta utilizzando un numero minimo di campioni di addestramento, il che rappresenta un notevole avanzamento nel campo.

Conclusione

Questo lavoro presenta un approccio innovativo per riconoscere espressioni facciali complesse attraverso strategie di apprendimento continuo e con pochi esempi migliorate. I risultati indicano che una comprensione di base ben strutturata delle emozioni migliora la capacità dei sistemi di IA di apprendere e adattarsi a nuove espressioni emotive in modo efficiente.

I nostri metodi dimostrano vantaggi tangibili rispetto ai sistemi tradizionali, raggiungendo tassi di accuratezza impressionanti mentre minimizzano il numero di esempi di addestramento richiesti. Questi progressi indicano percorsi promettenti per migliorare l'interazione umana-computer, specialmente in settori in cui l'intelligenza emotiva è fondamentale, come sanità e servizio clienti.

I futuri sviluppi potrebbero esplorare ulteriori dataset per la validazione, mirando a migliorare la robustezza e la versatilità del modello nel riconoscere emozioni complesse in contesti reali diversi.

Fonte originale

Titolo: Complex Facial Expression Recognition Using Deep Knowledge Distillation of Basic Features

Estratto: Complex emotion recognition is a cognitive task that has so far eluded the same excellent performance of other tasks that are at or above the level of human cognition. Emotion recognition through facial expressions is particularly difficult due to the complexity of emotions expressed by the human face. For a machine to approach the same level of performance in complex facial expression recognition as a human, it may need to synthesise knowledge and understand new concepts in real-time, as humans do. Humans are able to learn new concepts using only few examples by distilling important information from memories. Inspired by human cognition and learning, we propose a novel continual learning method for complex facial expression recognition that can accurately recognise new compound expression classes using few training samples, by building on and retaining its knowledge of basic expression classes. In this work, we also use GradCAM visualisations to demonstrate the relationship between basic and compound facial expressions. Our method leverages this relationship through knowledge distillation and a novel Predictive Sorting Memory Replay, to achieve the current state-of-the-art in continual learning for complex facial expression recognition, with 74.28% Overall Accuracy on new classes. We also demonstrate that using continual learning for complex facial expression recognition achieves far better performance than non-continual learning methods, improving on state-of-the-art non-continual learning methods by 13.95%. Our work is also the first to apply few-shot learning to complex facial expression recognition, achieving the state-of-the-art with 100% accuracy using only a single training sample per class.

Autori: Angus Maiden, Bahareh Nakisa

Ultimo aggiornamento: 2023-11-05 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2308.06197

Fonte PDF: https://arxiv.org/pdf/2308.06197

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili