Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Avaliação de Modelos de Linguagem com Dados de Gráficos

Esse estudo analisa como os modelos interpretam dados de gráficos e seu desempenho em várias tarefas.

― 7 min ler


Análise de Dados dosAnálise de Dados dosModelos de Linguagemde modelos em tarefas de dados visuais.Uma análise aprofundada do desempenho
Índice

Na nossa pesquisa, usamos o conjunto de dados ChartQA, particularmente seu conjunto de teste. Esse conjunto de teste tem dois tipos principais de perguntas: aquelas feitas por pessoas e aquelas criadas por modelos. Existem 625 gráficos diferentes com um total de 1250 pares de perguntas e respostas gerados por humanos. O conjunto criado por modelos consiste em 987 gráficos únicos com também 1250 pares de perguntas e respostas.

Mudamos esse conjunto de dados um pouco. Na nossa versão, os gráficos não têm rótulos de dados mostrando valores exatos ao lado dos elementos do gráfico, como barras ou linhas. Em vez disso, o modelo precisa descobrir esses valores olhando para os gráficos, usando dicas como a altura das barras e rótulos nos eixos. Fazemos isso para testar se o desempenho dos modelos de linguagem depende de ter rótulos claros ou se eles conseguem trabalhar com pistas visuais. Para fazer essa versão, usamos uma ferramenta chamada Matplotlib e tiramos os rótulos de dados, mantendo o resto igual. Dos 1509 gráficos que analisamos, 1340 foram modificados com sucesso, enquanto 169 imagens não foram usadas porque faltavam metadados importantes.

Verificação de Fatos com Gráficos

Para outra parte do nosso estudo, usamos o conjunto de dados ChartFC. Esse conjunto é criado de maneira que cada entrada tenha uma afirmação claramente expressa em palavras, uma imagem de gráfico relacionada e um rótulo que diz se o gráfico 'apoia' ou 'refuta' a afirmação. Observamos modelos de linguagem no conjunto de teste desse conjunto, que tem 885 exemplos que apoiam as afirmações e 706 que as refutam. O conjunto de dados consiste principalmente em gráficos de barras, que podem ser horizontais ou verticais.

Estudo de Resumo de Gráficos

No nosso trabalho sobre resumir gráficos, usamos o benchmark Chart-to-Text. Esse benchmark consiste em dois principais conjuntos de dados: Statista e Pew. Cada exemplo em ambos os conjuntos tem uma imagem de gráfico, uma tabela de dados subjacente, um título do gráfico e um resumo escrito por uma pessoa. Para nossos experimentos, usamos todo o conjunto de teste de ambos os conjuntos, que inclui 1.393 amostras do Pew e 5.222 amostras do Statista.

Tarefa de Perguntas e Respostas Abertas sobre Gráficos

Para ver como os modelos de linguagem se saem em perguntas abertas sobre gráficos, usamos o conjunto de dados OpenCQA. Esse conjunto contém cinco tipos de gráficos: barras, linhas, áreas, dispersão e pizza. Em nossos experimentos, pegamos o conjunto de teste, que tem 1159 gráficos junto com 1159 pares de perguntas e respostas.

Quatro Níveis de Semântica

Para avaliar os modelos em quatro níveis semânticos, usamos gráficos do conjunto de dados ChartQA e selecionamos 50 exemplos para os níveis 1, 2 e 3, e 150 exemplos para o nível 4.

Resultados de Avaliação

Métricas de Desempenho

Avaliamo diferentes modelos no conjunto de dados OpenCQA. Notas mais altas são melhores, enquanto notas mais baixas são melhores para certas métricas.

ModeloMétrica 1Métrica 2Métrica 3Métrica 4
Gemini52.0438.5313.51%
GPT-4V57.5120.5236.99%

Precisão Relaxada

Os resultados do ChartQA mostram como os modelos se saíram tanto nos conjuntos de teste do ChartQA regular quanto no modificado. A queda no desempenho em comparação com os dados padrão do ChartQA também é observada.

ConjuntoModeloDesempenho 1Desempenho 2
PewGemini-0.31.79
StatistaGPT-4V-0.31.34

Construção de Prompts

Para encontrar os melhores prompts para os modelos, testamos várias estratégias e escolhemos a que deu resultados consistentes. No experimento zero-shot PAL, criamos um prompt pedindo ao modelo para escrever um script em Python que produza a resposta final quando executado. Para o teste de semântica de 4 níveis, escrevemos perguntas específicas para cada nível semântico para ver como os modelos conseguem identificar diferentes níveis de significado na imagem do gráfico.

Exemplos de Prompts Usados

Exemplos de Tarefas:

  1. ChartQA

    • Prompt CoT: Dada a imagem do gráfico e uma pergunta, gere uma resposta.
    • Prompt PAL: Crie um script em Python para a pergunta de entrada.
  2. Semântica de 4 Níveis

    • Nível 1: Perguntas sobre tipo de gráfico, rótulos dos eixos, significados das cores, etc.
    • Nível 2: Perguntas sobre valores máximos e mínimos, valores atípicos, etc.
    • Nível 3: Perguntas sobre tendências ou padrões no gráfico.
    • Nível 4: Analise o gráfico em um parágrafo.
  3. Prompt de QA sobre Gráficos Abertos: Forneça uma resposta à seguinte pergunta com base no gráfico fornecido.

  4. Prompt de Resumo de Gráficos: Resuma o gráfico enfatizando tendências e pontos de dados-chave.

  5. Prompt de Verificação de Fatos com Gráficos: Determine se a afirmação de entrada é apoiada pelo gráfico.

Resultados Experimentais Adicionais

Aqui, mostramos mais detalhes das nossas avaliações automáticas em três conjuntos de dados: Chart-to-Text, OpenCQA e o benchmark ChartQA modificado.

Tabelas de Desempenho

Incluímos tabelas que representam o desempenho dos modelos em várias métricas para diferentes conjuntos de dados. Um exemplo mostraria como cada modelo se saiu no conjunto de dados Chart-to-Text.

Amostras de Saídas

Também apresentamos exemplos de respostas de diferentes modelos a perguntas específicas do conjunto de teste ChartQA, tanto respostas corretas quanto incorretas.

Resultados de Avaliação Semântica

Avaliação de Nível 1

No nível 1, os modelos respondem a perguntas simples como qual tipo de gráfico é e quais são os intervalos dos eixos. Por exemplo, se perguntado sobre o tipo de gráfico, um modelo pode simplesmente dizer "gráfico de barras" enquanto outro pode descrever de forma mais completa.

Avaliação de Nível 2

No nível 2, os modelos precisam identificar intervalos numéricos e valores. Por exemplo, eles podem indicar qual eixo tem valores máximos e quais são esses valores.

Avaliação de Nível 3

Nas avaliações de nível 3, os modelos descrevem as tendências vistas nos gráficos. Eles devem ser capazes de notar tendências de alta ou baixa com base nos dados apresentados nos gráficos.

Avaliação de Nível 4

Finalmente, no nível 4, os modelos fornecem uma análise mais profunda sobre os gráficos. Eles devem ser capazes de discutir implicações dos dados, comparar regiões ou grupos e, possivelmente, sugerir razões para o que veem.

Erros Comuns e Alucinações

Enquanto testamos, anotamos erros comuns e alucinações nas saídas dos modelos. Às vezes, os modelos cometem erros sobre cores, tendências ou pontos de dados específicos. Classificamos esses erros em respostas subjetivas, contradições e informações inventadas.

Conclusão

Resumindo, analisamos como os modelos de linguagem podem interpretar dados de gráficos de várias maneiras, desde identificação simples até análise detalhada. Este estudo nos permite avaliar suas capacidades e áreas que precisam de melhorias, especialmente no contexto da interpretação de dados visuais.

Trabalho Futuro

Avançando, pretendemos aprimorar como os modelos processam e analisam dados de gráficos, focar em uma comunicação mais clara dos resultados e aumentar a precisão deles na produção de resumos e respostas com base em informações visuais.

Fonte original

Título: Are Large Vision Language Models up to the Challenge of Chart Comprehension and Reasoning? An Extensive Investigation into the Capabilities and Limitations of LVLMs

Resumo: Natural language is a powerful complementary modality of communication for data visualizations, such as bar and line charts. To facilitate chart-based reasoning using natural language, various downstream tasks have been introduced recently such as chart question answering, chart summarization, and fact-checking with charts. These tasks pose a unique challenge, demanding both vision-language reasoning and a nuanced understanding of chart data tables, visual encodings, and natural language prompts. Despite the recent success of Large Language Models (LLMs) across diverse NLP tasks, their abilities and limitations in the realm of data visualization remain under-explored, possibly due to their lack of multi-modal capabilities. To bridge the gap, this paper presents the first comprehensive evaluation of the recently developed large vision language models (LVLMs) for chart understanding and reasoning tasks. Our evaluation includes a comprehensive assessment of LVLMs, including GPT-4V and Gemini, across four major chart reasoning tasks. Furthermore, we perform a qualitative evaluation of LVLMs' performance on a diverse range of charts, aiming to provide a thorough analysis of their strengths and weaknesses. Our findings reveal that LVLMs demonstrate impressive abilities in generating fluent texts covering high-level data insights while also encountering common problems like hallucinations, factual errors, and data bias. We highlight the key strengths and limitations of chart comprehension tasks, offering insights for future research.

Autores: Mohammed Saidul Islam, Raian Rahman, Ahmed Masry, Md Tahmid Rahman Laskar, Mir Tafseer Nayeem, Enamul Hoque

Última atualização: 2024-10-03 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2406.00257

Fonte PDF: https://arxiv.org/pdf/2406.00257

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes