Usando legendas e modelos de linguagem pra estimar emoções em imagens
Esse estudo explora como legendas e LLMs podem ajudar a identificar emoções em imagens.
― 9 min ler
Estimar emoções a partir de imagens é um desafio e tanto. Geralmente, envolve olhar para os rostos e os movimentos das pessoas para entender como elas se sentem. Neste trabalho, a gente checa se modelos de linguagem grandes (LLMs) podem ajudar nessa tarefa. Fazemos isso criando Legendas para as imagens e depois usando um LLM para adivinhar as emoções. As grandes perguntas que queremos responder são: Qual é a capacidade dos LLMs de entender emoções humanas? E que tipo de informação ajuda eles a fazerem esse palpite?
Um dos primeiros desafios é como escrever uma boa legenda que descreva uma pessoa em uma cena de um jeito que ajude a entender suas emoções. Para isso, juntamos uma lista de descritores de linguagem natural para rostos, corpos e as cenas em que estão. Usamos isso para criar legendas e rótulos de emoções para 331 imagens de uma coleção chamada EMOTIC. As legendas que geramos ajudam a mostrar como diferentes partes de uma cena podem afetar como as emoções são percebidas pelos LLMs.
Depois, testamos quão bom um modelo de linguagem grande é em adivinhar emoções a partir dessas legendas. Descobrimos que o GPT-3.5, uma versão específica do LLM, fez previsões surpreendentemente boas que combinaram com os palpites humanos, embora a precisão variou para diferentes sentimentos.
Exemplo de Anotação Manual
Aqui está uma legenda que criamos para uma imagem: "Sean é um adulto do sexo masculino. Sean é um passageiro. Sean está levantando as sobrancelhas e olhando de lado. Mia é uma criança sentada atrás de Sean e chutando sua cadeira. Sean está em um avião." Isso mostra como escrever pode ajudar a transmitir Emoção. Os escritores sabem que descrever uma cena com escolhas de palavras cuidadosas, sem dizer diretamente a emoção, pode fazer o leitor sentir algo. Da mesma forma, uma foto pode capturar os sentimentos de uma pessoa em uma cena.
Sistemas automáticos que adivinham emoções a partir de imagens ou vídeos poderiam ajudar a melhorar as interações humano-máquina, mas seu desempenho em situações reais ainda deixa a desejar. Muitos estudos que analisam emoções focam em características faciais ou corporais, mas o contexto também desempenha um papel importante. Por exemplo, se o rosto de uma pessoa está escondido, suas emoções ainda podem ser inferidas pelo contexto em que estão. Isso levou à criação de tarefas voltadas para reconhecer emoções com base no contexto.
Nos últimos anos, os modelos de linguagem grandes se tornaram um assunto quente em processamento de texto. A introdução de um modelo chamado transformers em 2017 facilitou o manuseio de sequências de dados. Desde então, diferentes métodos baseados nessas estruturas surgiram, permitindo que modelos de linguagem poderosos lidem com uma variedade de tarefas de maneira precisa e eficiente. Esses avanços nos LLMs melhoraram não apenas o processamento de texto, mas também muitos problemas relacionados à visão, como responder perguntas sobre imagens e gerar legendas.
A chave para o sucesso desses modelos em entender a linguagem e armazenar informações está no seu design. No entanto, quão bem eles podem perceber sentimentos humanos ainda não é totalmente compreendido.
Neste estudo, nos propusemos a responder duas perguntas principais: Quão bem os LLMs entendem emoções humanas? E quais tipos de informação ajudam eles a descobrir essas emoções? Primeiro, criamos uma ferramenta para ajudar a anotar imagens com vários fatores relacionados às emoções, como sinais físicos, interações sociais e o ambiente. Usando essas informações, criamos legendas que descreviam as expressões faciais e movimentos corporais das pessoas, seus Contextos sociais e seu entorno, antes de enviar essas legendas para o modelo GPT-3.5 prever emoções.
Fizemos um experimento onde usamos legendas completas, depois realizamos dois estudos menores alterando as legendas para ver como certas informações impactavam a detecção de emoções. Queríamos ver como a remoção de interações sociais e contextos ambientais afetava as previsões. Nossas contribuições incluem:
- Compilar uma lista de sinais físicos para nossas emoções usando modelos de linguagem e um dicionário.
- Desenvolver uma ferramenta para anotar dados de imagens e coletar rótulos e descrições de emoções.
- Oferecer uma análise inicial da capacidade do GPT-3.5 de prever emoções humanas usando legendas de imagem.
- Analisar como o contexto afeta a forma como os LLMs percebem emoções e como diferentes tipos de contexto podem mudar as previsões.
Sinais Físicos Usados em Legendas de Imagens
Nosso objetivo é verificar se as emoções humanas em imagens podem ser estimadas automaticamente, criando primeiro legendas adequadas e depois alimentando essas legendas em um modelo de linguagem grande. Nossa abordagem inclui três etapas:
- Gerar uma lista de sinais físicos que indicam emoções.
- Anotar imagens usando esses sinais e coletar informações demográficas e contextuais.
- Usar um modelo de linguagem grande para prever emoções com base nas legendas criadas.
Para garantir que cobrimos uma variedade de emoções, focamos em emoções negativas do conjunto de dados EMOTIC, que tem 13 rótulos como raiva, tristeza e medo. Criamos descrições detalhadas de sinais físicos que se relacionam com cada emoção. Para emoções não listadas em um guia de escritores que usamos, recorremos a modelos de linguagem grandes para gerar ideias adicionais.
Usando prompts como "Liste sinais físicos para a emoção de 'desaprovação'", reunimos uma coleção de sinais físicos para cada emoção-alvo. A lista consistiu em um total de 222 sinais físicos distintos que podem indicar como alguém está se sentindo em uma imagem. Em nosso estudo, não presumimos que qualquer sinal específico estava ligado a qualquer emoção.
Criamos uma interface para ajudar na anotação de imagens. Imagens do conjunto de dados EMOTIC continham caixas coloridas ao redor das pessoas, permitindo que focássemos em uma pessoa de cada vez. Durante a anotação, tanto sinais físicos quanto detalhes contextuais foram considerados. Os sinais físicos foram organizados com base nas partes do corpo, permitindo que os anotadores escolhessem descrições facilmente.
Informações contextuais sobre as interações sociais de uma pessoa, como se estavam sozinhas ou em grupo, e seu ambiente também foram consideradas. Essas informações ajudaram a criar uma legenda apropriada que o anotador poderia revisar antes de salvar.
Dos 222 sinais físicos que propusemos, 153 foram usados neste estudo.
Testando LLMs com Previsão de Emoções
Após completar as anotações, usamos o GPT-3.5 para prever emoções, dando-lhe um prompt que continha as anotações da imagem. O prompt foi estruturado para incentivar uma única previsão de emoção. Por exemplo, "Sean é um adulto do sexo masculino. Sean é um passageiro. Ele está levantando as sobrancelhas e olhando de lado. Mia é uma criança chutando a cadeira de Sean. Sean está em um avião. Sean provavelmente está se sentindo um alto nível de ____? Escolha uma emoção da lista."
Para checar o desempenho do modelo, comparamos suas previsões com a verdade registrada pelos anotadores. Fizemos três experimentos diferentes usando nossas legendas de imagem anotadas.
O primeiro usou legendas completas que incluíam todos os detalhes contextuais, como idade percebida, sexo percebido e relacionamentos sociais. O segundo experimento removeu informações de interação social para ver como isso impactava as previsões. O experimento final tirou o contexto ambiental para checar seu efeito.
Por exemplo, quando os detalhes ambientais foram removidos, às vezes as emoções mudavam de "medo" para "desaprovação" e assim por diante.
Resultados e Insights
Os resultados mostraram a eficácia do modelo GPT-3.5 em prever emoções com base nas legendas. O experimento usando legendas completas teve a maior precisão na previsão de emoções. Quando os contextos ambientais foram omitidos, a precisão diminuiu significativamente.
Ao analisar os resultados, descobrimos que certas emoções foram previstas com mais precisão do que outras. Por exemplo, raiva e tristeza foram frequentemente reconhecidas, mas emoções como aversão e desconexão não foram bem previstas.
Uma descoberta interessante foi como o contexto das interações sociais parecia influenciar a forma como a vergonha foi reconhecida. Sem essas interações, o modelo teve dificuldade em prever a vergonha com precisão. Da mesma forma, a importância da descrição ambiental foi essencial para reconhecer emoções como dor física e medo.
Também observamos que o modelo ocasionalmente previa emoções positivas, como empolgação e alegria, mesmo que apenas tivéssemos fornecido uma lista de emoções negativas. Isso aconteceu principalmente quando certos detalhes contextuais estavam faltando.
Discussão e Estudos Futuros
Em resumo, este trabalho cria uma nova forma de estimar emoções ao ligar legendas de pessoas em imagens com modelos de linguagem grandes. Examinamos como sinais sociais e um contexto mais amplo ajudam a descobrir emoções humanas.
No entanto, existem algumas limitações. Focamos apenas em emoções negativas, e a lista de sinais físicos não foi exaustiva. Cada cultura pode expressar emoções de maneira diferente, o que significa que nossas descobertas podem não se aplicar universalmente.
Pesquisas futuras poderiam incluir mais emoções, um estudo de percepção independente e uma exploração mais aprofundada do papel de sinais físicos específicos na previsão de emoções. No geral, esta pesquisa pode ajudar a melhorar nossa compreensão das emoções retratadas em imagens e pode inspirar investigações futuras sobre detecção de emoções em diferentes línguas e culturas.
Título: Contextual Emotion Estimation from Image Captions
Resumo: Emotion estimation in images is a challenging task, typically using computer vision methods to directly estimate people's emotions using face, body pose and contextual cues. In this paper, we explore whether Large Language Models (LLMs) can support the contextual emotion estimation task, by first captioning images, then using an LLM for inference. First, we must understand: how well do LLMs perceive human emotions? And which parts of the information enable them to determine emotions? One initial challenge is to construct a caption that describes a person within a scene with information relevant for emotion perception. Towards this goal, we propose a set of natural language descriptors for faces, bodies, interactions, and environments. We use them to manually generate captions and emotion annotations for a subset of 331 images from the EMOTIC dataset. These captions offer an interpretable representation for emotion estimation, towards understanding how elements of a scene affect emotion perception in LLMs and beyond. Secondly, we test the capability of a large language model to infer an emotion from the resulting image captions. We find that GPT-3.5, specifically the text-davinci-003 model, provides surprisingly reasonable emotion predictions consistent with human annotations, but accuracy can depend on the emotion concept. Overall, the results suggest promise in the image captioning and LLM approach.
Autores: Vera Yang, Archita Srivastava, Yasaman Etesam, Chuxuan Zhang, Angelica Lim
Última atualização: 2023-09-22 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2309.13136
Fonte PDF: https://arxiv.org/pdf/2309.13136
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.