Avaliando Histórias Visuais Geradas por Máquinas
Uma nova método pra avaliar a qualidade das histórias contadas por máquinas foi apresentado.
― 9 min ler
Índice
- O que é Contação de Histórias Visual?
- Limitações dos Métodos de Avaliação Atuais
- Fundamentação Visual
- Coerência
- Repetição
- Comparando Histórias de Máquinas e Humanas
- Avaliando Modelos
- Conjuntos de Dados Usados
- Modelos de Aprendizado de Máquina
- Modelos Populares
- Configuração Experimental
- Desempenho do Modelo
- Insights Obtidos
- Avaliação Humana
- Conclusão
- Trabalhos Futuros
- Fonte original
- Ligações de referência
Contar histórias visualmente é criar uma narrativa a partir de uma sequência de imagens. Essa tarefa pode ser difícil tanto para pessoas quanto para máquinas. Para as máquinas, descobrir quão bem elas contam histórias é ainda mais complicado porque não existe um consenso claro sobre o que faz uma boa história.
Nesse estudo, foi apresentada uma nova forma de avaliar a qualidade das histórias. Esse método foca em quão bem as histórias geradas se parecem com as criadas por humanos. Ele analisa três pontos principais: quão bem as imagens se conectam à história (fundamentação visual), quão consistente a história é (coerência) e quão repetitiva ela é (Repetição).
Depois de aplicar essa avaliação em diferentes modelos de contação de histórias, descobriu-se que um modelo chamado LLaVA é o melhor em geral. No entanto, outro modelo menor chamado TAPM, que é muito mais leve, consegue resultados quase tão bons. Quando as características visuais e linguísticas do TAPM foram melhoradas, ele alcançou resultados bem parecidos com o LLaVA, apesar de ser menor.
Uma avaliação humana também foi feita, revelando que simplesmente igualar os níveis de fundamentação visual, coerência e repetição não é suficiente para fazer uma história ser incrível. As pessoas ainda preferem histórias escritas por humanos em vez das criadas por máquinas.
O que é Contação de Histórias Visual?
Contar histórias visualmente envolve criar uma narrativa a partir de uma série de imagens ou quadros de vídeo. Essa tarefa não diz respeito apenas a descrever o que acontece nas fotos; é sobre entrelaçá-las em uma história que faça sentido. Para tanto, a ligação do conteúdo visual é crucial.
Um dos principais desafios em avaliar histórias geradas por máquinas é a sua natureza criativa. Normalmente, histórias escritas por humanos são usadas para treinar esses modelos, acreditando-se que oferecem um padrão de qualidade. No entanto, comparar diretamente as histórias de máquinas com as humanas muitas vezes não dá certo. Isso porque ignora aspectos importantes como quão bem as imagens estão ligadas à história, quão coerente a história é no geral e o nível de repetição presente.
Esforços recentes buscaram superar essas limitações propondo novas métricas. Essas métricas avaliam histórias com base em seus próprios méritos, ao invés de simplesmente checar semelhanças com uma história de referência. Como uma sequência de imagens pode inspirar muitas histórias plausíveis, essa avaliação de alto nível é essencial.
Limitações dos Métodos de Avaliação Atuais
Embora coerência e fundamentação visual sejam importantes, depender apenas desses critérios pode não dar uma visão suficiente sobre a qualidade da história. Não existem regras fixas que determinam os níveis ideais para esses elementos, tornando difícil saber quando uma história é "boa".
Para lidar com isso, foi sugerido um novo método de avaliação que mede quão próxima uma história gerada por máquina está das escritas por humanos. Isso é feito avaliando várias dimensões importantes com métricas que não dependem de comparações diretas com histórias humanas.
Fundamentação Visual
A fundamentação visual avalia quão bem uma história se conecta com as imagens. A técnica usada para isso envolve comparar as frases nominais na história com os objetos vistos nas imagens. Usando pontuações específicas, a conexão entre o texto e os elementos visuais pode ser quantificada. Uma pontuação mais alta indica um laço mais forte entre a história e as imagens.
Coerência
A coerência avalia quão logicamente conectadas estão as frases em uma história. Uma maneira comum de determinar a coerência é calcular a probabilidade de cada frase vir após a anterior. Isso é feito usando modelos que foram treinados para prever ordens de frases. Uma pontuação mais alta significa que as frases se encaixam bem, sugerindo um fluxo narrativo mais suave.
Repetição
A repetição verifica se há repetições desnecessárias na história. É fundamental que as histórias evitem repetir as mesmas frases ou ideias com muita frequência. Essa medida é calculada comparando diferentes partes do texto e procurando palavras sobrepostas. Uma pontuação mais baixa indica que a história é menos repetitiva, o que é geralmente considerado melhor.
Comparando Histórias de Máquinas e Humanas
Para ver como as histórias geradas por máquinas se comparam com as humanas, aplicam-se as três métricas de coerência, fundamentação visual e repetição. As diferenças absolutas entre as histórias geradas por máquinas e as humanas são calculadas para cada métrica. Então, uma pontuação geral é determinada pela média dessas diferenças. Uma pontuação mais baixa sugere que a história gerada por máquina está mais próxima dos padrões humanos.
Avaliando Modelos
Vários modelos de máquinas projetados para contar histórias visualmente foram comparados usando esse método de avaliação. O popular conjunto de dados VIST, que inclui imagens e histórias escritas por humanos correspondentes, serviu como referência.
Conjuntos de Dados Usados
O conjunto de dados VIST é o primeiro grande conjunto criado para contação de histórias visuais. Ele inclui sequências ordenadas de imagens junto com histórias criadas por pessoas. Cada sequência geralmente consiste em cinco imagens com uma história correspondente. Esse conjunto de dados inspirou muitos modelos ao longo do tempo.
Em contraste, outros conjuntos de dados surgiram para simplificar os desafios envolvidos na contação de histórias do mundo real. Alguns conjuntos usam imagens sintéticas para limitar a complexidade, enquanto outros garantem uma representação consistente de personagens usando quadros de filmes.
Modelos de Aprendizado de Máquina
Vários métodos computacionais foram usados para gerar histórias a partir de dados visuais. Isso inclui redes neurais e transformers. No entanto, apesar das diferenças na arquitetura, muitos modelos enfrentam desafios semelhantes quando se trata de avaliação.
Modelos Populares
GLAC Net: Esse modelo usa um layout padrão de codificador-decodificador para avaliar o contexto global a partir de sequências de imagens e gerar histórias.
AREL: Esse modelo implementa uma abordagem adversarial, combinando um modelo de política que gera histórias com um modelo de recompensa que avalia essas histórias em relação a pontos de referência.
TAPM: Esse modelo mais novo combina componentes de linguagem e visão pré-treinados para gerar narrativas coerentes.
BLIP-2 e LLaVA: Esses são modelos fundamentais projetados para tarefas amplas de linguagem-visão. Eles também podem gerar histórias quando solicitados de maneira adequada.
Configuração Experimental
Histórias foram geradas para o conjunto de testes VIST usando os diferentes modelos. Cada modelo empregou estratégias e configurações diferentes para criar narrativas. A eficácia de cada modelo foi avaliada com base nas pontuações de distância derivadas das métricas de avaliação propostas.
Desempenho do Modelo
As pontuações revelaram que o LLaVA produziu histórias que estavam mais próximas das criações humanas, seguido de perto pelo TAPM. Curiosamente, mesmo sendo significativamente maior, o TAPM demonstrou qualidade comparável com seu tamanho menor.
Insights Obtidos
Os desempenhos mostraram como a melhoria dos componentes linguísticos e visuais do TAPM levou a melhores capacidades de contação de histórias. Essas melhorias fizeram com que o TAPM funcionasse de forma semelhante ao LLaVA, provando que até modelos menores podem alcançar resultados fortes com as atualizações certas.
Avaliação Humana
Para entender se as pontuações numéricas correspondiam às percepções das pessoas, foi realizada uma avaliação humana, comparando os dois melhores modelos-TAPM e LLaVA. Os participantes analisaram histórias geradas por modelo selecionadas aleatoriamente ao lado de histórias humanas.
Os resultados da avaliação indicaram uma clara preferência por histórias humanas, destacando que narrativas geradas por máquinas, mesmo aquelas com altas pontuações métricas, frequentemente carecem de certos elementos valorizados pelos revisores humanos. Esses elementos podem incluir profundidade emocional ou uma narrativa clara.
Conclusão
O trabalho realizado fornece uma nova forma de avaliar histórias geradas por modelos, focando em suas semelhanças com histórias humanas. Através da testagem de vários modelos, descobriu-se que até mesmo modelos avançados de aprendizado de máquina ainda têm espaço para crescer nas capacidades de contação de histórias. Embora a tecnologia tenha avançado muito, o toque humano na construção de narrativas continua sendo único.
Trabalhos Futuros
Embora essa pesquisa apresente descobertas valiosas, a escala do estudo poderia ser expandida. Conjuntos de dados mais diversos e uma variedade maior de modelos poderiam proporcionar uma compreensão ainda mais rica da contação de histórias geradas por máquinas. A comunidade é encorajada a criar conjuntos de dados que incluam diversas perspectivas culturais.
As descobertas aqui estabelecem a base para futuros avanços na contação de histórias visuais e ajudam a identificar os elementos necessários para narrativas verdadeiramente envolventes. À medida que a contação de histórias continua a evoluir, tanto máquinas quanto humanos podem aprender uns com os outros para melhorar suas narrativas.
Título: Not (yet) the whole story: Evaluating Visual Storytelling Requires More than Measuring Coherence, Grounding, and Repetition
Resumo: Visual storytelling consists in generating a natural language story given a temporally ordered sequence of images. This task is not only challenging for models, but also very difficult to evaluate with automatic metrics since there is no consensus about what makes a story 'good'. In this paper, we introduce a novel method that measures story quality in terms of human likeness regarding three key aspects highlighted in previous work: visual grounding, coherence, and repetitiveness. We then use this method to evaluate the stories generated by several models, showing that the foundation model LLaVA obtains the best result, but only slightly so compared to TAPM, a 50-times smaller visual storytelling model. Upgrading the visual and language components of TAPM results in a model that yields competitive performance with a relatively low number of parameters. Finally, we carry out a human evaluation study, whose results suggest that a 'good' story may require more than a human-like level of visual grounding, coherence, and repetition.
Autores: Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle
Última atualização: 2024-10-25 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.04559
Fonte PDF: https://arxiv.org/pdf/2407.04559
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.