A Luta da IA com Interpretação de Gráficos nos Negócios
Analisando como modelos de IA leem e interpretam gráficos rotulados e não rotulados.
― 5 min ler
Índice
A inteligência artificial (IA) virou um assunto quente nos negócios, principalmente quando se trata de ler e entender as informações que aparecem nas apresentações de slides. Este artigo dá uma olhada em como dois modelos de IA, o GPT-4o e o Gemini Flash, conseguem ler gráficos e tabelas que normalmente aparecem em apresentações de negócios. Esses modelos foram feitos pra interpretar imagens e extrair dados relevantes. Mas tem perguntas sobre quão bem eles conseguem fazer isso, especialmente com informações visuais complexas.
O Que São Gráficos Rotulados e Não Rotulados?
Primeiro, vamos esclarecer o que são gráficos rotulados e não rotulados.
Gráficos Rotulados: Esses são gráficos onde os pontos de dados estão claramente marcados. Por exemplo, um gráfico de barras que mostra os números de vendas de diferentes produtos, com os valores das vendas impressos em cima de cada barra.
Gráficos Não Rotulados: Esses gráficos não têm os pontos de dados explicitamente marcados. Em vez disso, os usuários têm que estimar valores com base na posição dos itens no gráfico. Por exemplo, um gráfico de linhas que mostra tendências de crescimento ao longo dos anos sem números exatos indicados.
Avaliando o Desempenho da IA
O objetivo da avaliação era ver quão bem esses modelos de IA conseguiam responder perguntas específicas sobre os dados exibidos nesses gráficos. As perguntas foram feitas pra serem diretas, e os modelos não precisavam fazer cálculos complicados-apenas ler números e interpretar dados.
Quão Precisos São os Modelos com Gráficos Rotulados?
Em um teste com vários gráficos rotulados, ficou claro que os modelos de IA tiveram mais dificuldades do que o esperado. Ambos os modelos foram avaliados em vários tipos de gráficos rotulados, incluindo os simples, como gráficos de barras, e os mais complexos, como gráficos empilhados ou em cascata.
Quando foram questionados sobre dados específicos em gráficos rotulados, o GPT-4o conseguiu ler corretamente cerca de 8 de 15 gráficos. Por outro lado, o Gemini Flash se saiu um pouco pior, acertando apenas 7 gráficos. Mas, quando erraram, geralmente foi por confundir números ou rótulos. Por exemplo, em algumas situações, o GPT-4o leu um '3' como um '8', levando a respostas erradas. De forma similar, o Gemini Flash teve dificuldades em entender o contexto das perguntas e às vezes escolheu os dados errados pra responder.
Desafios com Gráficos Não Rotulados
O desempenho desses modelos de IA foi ainda pior ao lidar com gráficos não rotulados. Aqui, os modelos tiveram que adivinhar valores com base na posição dos pontos de dados em relação aos eixos. Nesse cenário, as taxas de erro foram alarmantemente altas. O GPT-4o teve uma taxa de erro de cerca de 83%, enquanto o Gemini Flash foi um pouco melhor, com 79%. Isso significa que os modelos frequentemente davam respostas bem longe dos valores corretos, levando a interpretações muito imprecisas.
Por exemplo, se um gráfico mostrava dados econômicos sem números específicos, ambos os modelos falharam várias vezes em fornecer até mesmo estimativas próximas, frequentemente errando por mais da metade do valor real. Isso indica uma limitação significativa na capacidade deles de interpretar visuais complexos onde pontos de dados precisos não estão marcados.
Tipos de Perguntas Feitas
Para avaliar a compreensão deles, uma série de perguntas foi feita aos modelos de IA. Essas incluíam:
- Identificar um ponto de dado específico no gráfico.
- Encontrar o maior ou menor ponto de dado.
- Contar o número de pontos de dados presentes.
Essas perguntas eram diretas e tinham o objetivo de testar a capacidade da IA de ler e interpretar dados sem precisar de habilidades matemáticas profundas. A precisão dos modelos foi avaliada através de duas métricas principais: taxa de acerto para gráficos rotulados e erro percentual absoluto médio para gráficos não rotulados.
Resumo dos Resultados
Depois de testar ambos os modelos de IA em uma variedade de gráficos e gráficos, ficou claro que, embora eles mostrassem algumas capacidades avançadas, também tinham deficiências significativas.
Para gráficos rotulados, a taxa de erro ficou em torno de 15% em média, o que já é um número preocupante para aplicações empresariais onde a precisão é crucial. Em outras palavras, se uma empresa dependesse somente desses modelos pra extrair dados dos slides, provavelmente teria problemas com bastante frequência.
Com gráficos não rotulados, a situação foi ainda pior. Os modelos frequentemente ultrapassavam 100% de erro em suas estimativas para visuais complexos. Isso significa que não apenas erraram os valores corretos, mas também deram palpites totalmente imprecisos.
Conclusão
Embora o GPT-4o e o Gemini Flash mostrem potencial em lidar com grandes quantidades de dados e interpretação visual, atualmente eles ficam devendo quando se trata de ler e interpretar gráficos em apresentações de negócios. O desempenho deles é inconsistente, especialmente com gráficos complexos e não rotulados.
Os usuários de negócios devem estar cientes de que, embora essas ferramentas de IA possam ajudar a resumir e interpretar gráficos, elas ainda não são confiáveis o suficiente pra substituir o olhar humano. Para decisões críticas baseadas em dados, é mais seguro ter um humano revisando as informações extraídas das apresentações de slides. À medida que esses modelos se desenvolverem, suas capacidades podem melhorar, mas por enquanto, eles ainda têm um longo caminho a percorrer para alcançar a precisão adequada para aplicações empresariais críticas.
Título: ChatBCG: Can AI Read Your Slide Deck?
Resumo: Multimodal models like GPT4o and Gemini Flash are exceptional at inference and summarization tasks, which approach human-level in performance. However, we find that these models underperform compared to humans when asked to do very specific 'reading and estimation' tasks, particularly in the context of visual charts in business decks. This paper evaluates the accuracy of GPT 4o and Gemini Flash-1.5 in answering straightforward questions about data on labeled charts (where data is clearly annotated on the graphs), and unlabeled charts (where data is not clearly annotated and has to be inferred from the X and Y axis). We conclude that these models aren't currently capable of reading a deck accurately end-to-end if it contains any complex or unlabeled charts. Even if a user created a deck of only labeled charts, the model would only be able to read 7-8 out of 15 labeled charts perfectly end-to-end. For full list of slide deck figures visit https://www.repromptai.com/chat_bcg
Autores: Nikita Singh, Rob Balian, Lukas Martinelli
Última atualização: 2024-07-16 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.12875
Fonte PDF: https://arxiv.org/pdf/2407.12875
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.