Usare didascalie e modelli linguistici per stimare le emozioni nelle immagini
Questo studio esplora come i sottotitoli e i LLM possono aiutare a identificare le emozioni nelle immagini.
― 8 leggere min
Stimare le emozioni dalle immagini è una bella sfida. Di solito, si tratta di guardare i volti e i movimenti del corpo delle persone per capire come si sentono. In questo lavoro, vediamo se i grandi modelli di linguaggio (LLM) possono aiutare in questo compito. Lo facciamo prima creando didascalie per le immagini e poi usando un LLM per indovinare le emozioni. Le grandi domande a cui vogliamo rispondere sono: Quanto bene possono gli LLM comprendere le emozioni umane? E quali informazioni li aiutano a fare questa stima?
Una delle prime sfide è scrivere una buona didascalia che descriva una persona in una scena in modo da aiutare a capire le loro emozioni. Per farlo, abbiamo messo insieme un elenco di descrittori in linguaggio naturale per volti, corpi e le scene in cui si trovano. Abbiamo usato questo per creare didascalie e etichette emotive per 331 immagini di una collezione chiamata EMOTIC dataset. Le didascalie che abbiamo generato aiutano a mostrare come diverse parti di una scena possono influenzare come le emozioni sono percepite dagli LLM.
Dopo, abbiamo testato quanto sia bravo un grande modello di linguaggio a indovinare le emozioni da queste didascalie. Abbiamo scoperto che GPT-3.5, una versione specifica dell’LLM, ha fatto previsioni sorprendentemente buone che corrispondevano a quelle umane, anche se l'accuratezza variava per i diversi sentimenti.
Esempio di Annotazione Manuale
Ecco una didascalia che abbiamo creato per un'immagine: "Sean è un uomo adulto. Sean è un passeggero. Sean sta alzando le sopracciglia e guardando di lato. Mia è una bambina seduta dietro Sean che calcia la sua sedia. Sean è su un aereo." Questo mostra come la scrittura può aiutare a trasmettere emozioni. Gli scrittori sanno che descrivere una scena con scelte di parole accurate, senza dire direttamente l’Emozione, può far provare qualcosa al lettore. Allo stesso modo, una foto può catturare i sentimenti di una persona in una scena.
Sistemi automatici che indovinano le emozioni da immagini o video potrebbero aiutare a migliorare le interazioni umane-macchina, ma le loro prestazioni in situazioni reali sono ancora carenti. Molti studi sulle emozioni si concentrano su caratteristiche facciali o corporee, ma anche il Contesto gioca un ruolo importante. Per esempio, se il volto di una persona è nascosto, le sue emozioni possono ancora essere dedotte dal contesto in cui si trova. Questo ha portato alla creazione di compiti volti a riconoscere le emozioni basandosi sul contesto.
Negli ultimi anni, i grandi modelli di linguaggio sono diventati un argomento caldo nel trattamento del testo. L'introduzione di un modello chiamato transformer nel 2017 ha reso più facile gestire sequenze di dati. Da allora, sono emersi diversi metodi basati su queste strutture, consentendo ai potenti modelli di linguaggio di gestire una varietà di compiti in modo accurato ed efficiente. Questi progressi negli LLM hanno migliorato non solo il trattamento del testo, ma anche molti problemi legati alla visione, come rispondere a domande su immagini e generare didascalie.
La chiave del successo di questi modelli nel comprendere il linguaggio e memorizzare informazioni risiede nel loro design. Tuttavia, non si comprende ancora pienamente quanto bene possano percepire i sentimenti umani.
In questo studio, ci siamo posti due domande principali: Quanto bene comprendono gli LLM le emozioni umane? E quali tipi di informazioni li aiutano a capire queste emozioni? Abbiamo prima creato uno strumento per aiutare ad annotare le immagini con vari fattori legati alle emozioni, come segnali fisici, interazioni sociali e ambiente. Usando queste informazioni, abbiamo creato didascalie che descrivevano le espressioni facciali e i movimenti corporei delle persone, i loro contesti sociali e i loro dintorni, prima di inviare queste didascalie al modello GPT-3.5 per prevedere le emozioni.
Abbiamo condotto un esperimento in cui abbiamo usato didascalie complete, poi abbiamo svolto due studi più piccoli modificando le didascalie per vedere come alcuni elementi informativi impattassero la rilevazione delle emozioni. Volevamo vedere come l'eliminazione delle interazioni sociali e dei contesti ambientali influisse sulle previsioni. I nostri contributi includono:
- Compilare un elenco di segnali fisici per le nostre emozioni utilizzando modelli di linguaggio e un thesaurus.
- Sviluppare uno strumento per annotare dati delle immagini e raccogliere etichette e descrizioni emotive.
- Offrire un'analisi iniziale della capacità di GPT-3.5 di prevedere le emozioni umane usando le didascalie delle immagini.
- Analizzare come il contesto influisce su come gli LLM percepiscono le emozioni e come diversi tipi di contesto possono cambiare le previsioni.
Segnali Fisici Usati nelle Didascalie delle Immagini
Il nostro obiettivo è verificare se le emozioni umane nelle immagini possano essere stimate automaticamente, prima creando didascalie adeguate e poi inserendo queste didascalie in un grande modello di linguaggio. Il nostro approccio comprende tre passaggi:
- Generare un elenco di segnali fisici che indicano emozioni.
- Annotare le immagini usando questi segnali e raccogliere informazioni demografiche e contestuali.
- Usare un grande modello di linguaggio per prevedere le emozioni in base alle didascalie create.
Per assicurarci di coprire una varietà di emozioni, ci siamo concentrati sulle emozioni negative dal dataset EMOTIC, che ha 13 etichette come rabbia, tristezza e paura. Abbiamo creato descrizioni dettagliate dei segnali fisici che si riferiscono a ciascuna emozione. Per le emozioni non elencate nella guida per scrittori che abbiamo usato, ci siamo rivolti ai grandi modelli di linguaggio per generare idee aggiuntive.
Usando domande come "Elenca i segnali fisici per l'emozione di 'disapprovazione'", abbiamo raccolto una collezione di segnali fisici per ciascuna emozione target. L'elenco comprendeva un totale di 222 segnali fisici distinti che possono indicare come qualcuno si sente in un'immagine. Nel nostro studio, non abbiamo presunto che alcun segnale specifico fosse collegato a un'emozione particolare.
Abbiamo creato un'interfaccia per aiutare ad annotare le immagini. Le immagini dal dataset EMOTIC contenevano scatole colorate attorno alle persone, permettendoci di concentrarci su una persona alla volta. Durante l'annotazione, sia i segnali fisici che i dettagli contestuali sono stati considerati. I segnali fisici erano organizzati in base alle parti del corpo, permettendo ai annotatori di selezionare facilmente le descrizioni.
Sono state considerate anche informazioni contestuali sulle interazioni sociali di una persona, come se fossero sole o in gruppo, e il loro ambiente. Queste informazioni hanno aiutato a creare una didascalia adeguata che l'annotatore poteva poi rivedere prima di salvarla.
Dai 222 segnali fisici che abbiamo proposto, 153 sono stati utilizzati in questo studio.
Testare gli LLM con la Previsione delle Emozioni
Dopo aver completato le annotazioni, abbiamo usato GPT-3.5 per prevedere le emozioni, fornendogli un prompt che conteneva le annotazioni delle immagini. Il prompt era strutturato per incoraggiare una previsione di un'unica emozione. Per esempio, "Sean è un uomo adulto. Sean è un passeggero. Sta alzando le sopracciglia e guardando di lato. Mia è una bambina che calcia la sedia di Sean. Sean è su un aereo. Sean si sente probabilmente a un alto livello di ____? Scegli un'emozione dalla lista."
Per controllare le prestazioni del modello, abbiamo confrontato le sue previsioni con la verità di base annotata. Abbiamo eseguito tre esperimenti diversi utilizzando le nostre didascalie annotate.
Il primo ha utilizzato didascalie complete delle immagini che includevano tutti i dettagli contestuali come età percepita, sesso percepito e relazioni sociali. Il secondo esperimento ha rimosso le informazioni sulle interazioni sociali per vedere come impattassero le previsioni. L'ultimo esperimento ha tolto il contesto ambientale per verificarne l'effetto.
Per esempio, quando i dettagli ambientali venivano rimossi, a volte le emozioni cambiavano da "paura" a "disapprovazione" e così via.
Risultati e Approfondimenti
I risultati hanno mostrato l'efficacia del modello GPT-3.5 nel prevedere le emozioni basate sulle didascalie. L'esperimento che utilizzava didascalie complete ha avuto la massima accuratezza nella previsione delle emozioni. Quando i contesti ambientali venivano omessi, l'accuratezza diminuiva significativamente.
Analizzando i risultati, abbiamo trovato che certe emozioni venivano previste con maggiore precisione rispetto ad altre. Per esempio, rabbia e tristezza venivano frequentemente riconosciute, ma emozioni come avversione e disconnessione non venivano previste bene.
Un risultato interessante è stato come il contesto delle interazioni sociali sembrasse influenzare quanto bene veniva riconosciuta l'imbarazzo. Senza quelle interazioni, il modello faticava a prevedere correttamente l'imbarazzo. Allo stesso modo, l'importanza della descrizione ambientale era essenziale per riconoscere emozioni come dolore fisico e paura.
Abbiamo anche osservato che il modello occasionalmente prevedeva emozioni positive, come eccitazione e felicità, anche se fornivamo solo un elenco di emozioni negative. Questo accadeva soprattutto quando mancavano alcuni dettagli contestuali.
Discussione e Studi Futuri
In sintesi, questo lavoro crea un nuovo modo per stimare le emozioni collegando le didascalie delle persone nelle immagini con i grandi modelli di linguaggio. Abbiamo esaminato come i segnali sociali e un contesto più ampio aiutino a capire le emozioni umane.
Tuttavia, ci sono alcune limitazioni. Ci siamo concentrati solo sulle emozioni negative, e l'elenco dei segnali fisici non era esaustivo. Ogni cultura può esprimere emozioni in modo diverso, il che significa che i nostri risultati potrebbero non essere applicabili universalmente.
Le ricerche future potrebbero includere più emozioni, uno studio di percezione indipendente e ulteriori esplorazioni del ruolo di segnali fisici specifici nella previsione delle emozioni. In generale, questa ricerca può aiutare a migliorare il nostro modo di comprendere le emozioni rappresentate nelle immagini e potrebbe ispirare future indagini sulla rilevazione delle emozioni in diverse lingue e culture.
Titolo: Contextual Emotion Estimation from Image Captions
Estratto: Emotion estimation in images is a challenging task, typically using computer vision methods to directly estimate people's emotions using face, body pose and contextual cues. In this paper, we explore whether Large Language Models (LLMs) can support the contextual emotion estimation task, by first captioning images, then using an LLM for inference. First, we must understand: how well do LLMs perceive human emotions? And which parts of the information enable them to determine emotions? One initial challenge is to construct a caption that describes a person within a scene with information relevant for emotion perception. Towards this goal, we propose a set of natural language descriptors for faces, bodies, interactions, and environments. We use them to manually generate captions and emotion annotations for a subset of 331 images from the EMOTIC dataset. These captions offer an interpretable representation for emotion estimation, towards understanding how elements of a scene affect emotion perception in LLMs and beyond. Secondly, we test the capability of a large language model to infer an emotion from the resulting image captions. We find that GPT-3.5, specifically the text-davinci-003 model, provides surprisingly reasonable emotion predictions consistent with human annotations, but accuracy can depend on the emotion concept. Overall, the results suggest promise in the image captioning and LLM approach.
Autori: Vera Yang, Archita Srivastava, Yasaman Etesam, Chuxuan Zhang, Angelica Lim
Ultimo aggiornamento: 2023-09-22 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2309.13136
Fonte PDF: https://arxiv.org/pdf/2309.13136
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.