Simple Science

Ciência de ponta explicada de forma simples

# Informática# Inteligência Artificial# Visão computacional e reconhecimento de padrões

Modelos de Visão e Linguagem Têm Dificuldade com Tarefas Visuais Básicas

Pesquisas mostram que VLMs têm uma precisão ruim em tarefas visuais simples comparado aos humanos.

― 5 min ler


VLMs Não Mandam Bem emVLMs Não Mandam Bem emTarefas Visuais Básicasformas simples e contar.Modelos têm dificuldade em identificar
Índice

Modelos grandes de linguagem que também conseguem processar imagens estão se tornando mais populares. Esses modelos conseguem lidar com tarefas que envolvem texto e imagens. No entanto, nossa pesquisa mostra que esses modelos têm dificuldade com tarefas visuais básicas que os humanos conseguem fazer facilmente.

Nós examinamos especificamente quatro modelos avançados de linguagem visual (VLMs) e testamos a habilidade deles em sete tarefas visuais simples. Essas tarefas incluíam identificar se Formas estão sobrepondo, contar certas formas e identificar letras que estão circuladas. Apesar de conseguirem se sair bem em contextos complexos, os VLMs mostraram desempenho fraco nessas tarefas básicas.

Visão Geral das Tarefas

Criamos um conjunto de tarefas para avaliar quão bem os VLMs conseguem ver e entender informações visuais. Nossas tarefas envolviam formas simples, como círculos e linhas, que são comuns em testes visuais humanos. Queríamos ver se os VLMs conseguiam reconhecer essas formas quando estavam próximas ou sobrepostas.

As tarefas incluíam:

  1. Contar interseções entre duas linhas.
  2. Determinar se dois círculos estão sobrepondo ou se tocando.
  3. Identificar qual letra está circulada em uma palavra.
  4. Contar formas sobrepostas, como círculos ou pentágonos.
  5. Contar quadrados aninhados, onde um quadrado está dentro do outro.
  6. Contar linhas e colunas em uma grade.
  7. Seguir caminhos de uma única cor em um mapa de metrô.

Resumo dos Resultados

Em todas as tarefas, os VLMs conseguiram uma Precisão média de 58,57%. Esse desempenho é bem abaixo do nível esperado de precisão para os humanos, que é próximo de 100%. O modelo que teve o melhor desempenho alcançou apenas 74,94% de precisão.

Tarefa 1: Contando Interseções de Linhas

Nesta tarefa, testamos se os VLMs conseguiam contar quantas vezes duas linhas se cruzam. Criamos uma variedade de imagens com dois segmentos de linha e pedimos aos modelos para contar suas interseções. Os resultados mostraram que os VLMs tiveram uma precisão média de apenas 56,84%, o que está longe de ser perfeito.

Tarefa 2: Dois Círculos

Em seguida, examinamos se os modelos conseguiam dizer se dois círculos estavam sobrepondo ou tocando. Novamente, os VLMs enfrentaram dificuldades, com a melhor precisão sendo apenas 92,78%. Eles costumavam errar, especialmente quando os círculos estavam muito próximos.

Tarefa 3: A Letra Circulada

Nesta tarefa, testamos se os VLMs conseguiam identificar qual letra estava sendo circulada em uma palavra. Enquanto os modelos podiam ler as letras com precisão quando estavam apresentadas sozinhas, eles tiveram dificuldades quando um círculo cobria uma letra. A precisão média foi de apenas 81,39%. Os modelos frequentemente adivinhavam letras que estavam ao lado da letra que estava circulada.

Tarefa 4: Contando Formas Sobrepostas

Os VLMs também foram testados em contar formas sobrepostas, como círculos e pentágonos. A precisão caiu significativamente, com os modelos alcançando apenas 30,99% ao contar pentágonos sobrepostos. Isso mostrou que reconhecer formas quando estão sobrepostas é desafiador para esses modelos.

Tarefa 5: Contando Quadrados Aninhados

Quando pedimos para contar quadrados que estavam aninhados uns dentro dos outros, os VLMs se saíram um pouco melhor, mas ainda assim tiveram uma precisão média de 73,29%. Essa tarefa destacou como era difícil para os modelos acompanhar formas quando suas bordas estavam muito próximas, mesmo que não estivessem sobrepostas.

Tarefa 6: Contando Linhas e Colunas de uma Grade

Em seguida, testamos os VLMs contando o número de linhas e colunas em uma grade. A precisão média para contar linhas foi de 60,83%, enquanto foi melhor para contar colunas, com 70,53%. No entanto, ambos os números ainda estavam abaixo do que esperaríamos de um humano, que conseguiria facilmente contar linhas e colunas.

Tarefa 7: Seguindo Caminhos de Uma Única Cor

A última tarefa envolveu contar caminhos entre estações em um mapa de metrô. Essa tarefa avalia a habilidade de reconhecer e seguir caminhos distintos. Os VLMs tiveram uma precisão média de apenas 42,06%, lutando significativamente à medida que o número de caminhos aumentava.

Discussão

Nossos resultados mostram uma diferença clara entre como os humanos percebem e processam tarefas visuais simples e as habilidades dos atuais VLMs. Esses modelos se destacam em tarefas de linguagem de alto nível e conseguem analisar imagens complexas. No entanto, eles falham em identificar e contar formas básicas com precisão.

Isso indica que os VLMs podem não estar realmente "vendo" imagens da mesma forma que os humanos. O desempenho deles sugere que muitas vezes dependem de um processo de extração de características visuais antes de entender o prompt de texto, o que pode levar à confusão quando as formas estão muito próximas ou sobrepostas.

Para melhorar os VLMs, pode ser necessário desenvolver métodos que permitam uma "fusão precoce" de informações visuais e textuais, em vez do método atual de "fusão tardia". Treinar VLMs especificamente em tarefas visuais de baixo nível poderia ajudar a aprimorar suas capacidades de visão.

Conclusão

Em resumo, enquanto os VLMs mostram um potencial notável para lidar com tarefas complexas de imagem e texto, seu desempenho em tarefas visuais básicas é preocupante. Eles têm dificuldades com tarefas simples de identificação e contagem que qualquer humano, até mesmo uma criança, conseguiria realizar facilmente.

Nossas descobertas levantam questões significativas sobre como os VLMs processam informações visuais e destacam a necessidade de mais pesquisas nessa área. Melhorar suas capacidades visuais pode ser essencial para avançar o desempenho desses modelos em aplicações do mundo real.

Fonte original

Título: Vision language models are blind

Resumo: While large language models with vision capabilities (VLMs), e.g., GPT-4o and Gemini 1.5 Pro, are powering various image-text applications and scoring high on many vision-understanding benchmarks, we find that they are surprisingly still struggling with low-level vision tasks that are easy to humans. Specifically, on BlindTest, our suite of 7 very simple tasks such as identifying (a) whether two circles overlap; (b) whether two lines intersect; (c) which letter is being circled in a word; and (d) counting circles in an Olympic-like logo, four state-of-the-art VLMs are only 58.57% accurate on average. Claude 3.5 Sonnet performs the best at 74.94% accuracy, but this is still far from the human expected accuracy of 100%. Across different image resolutions and line widths, VLMs consistently struggle with tasks that require precise spatial information and recognizing geometric primitives that overlap or are close together. Code and data are available at: https://vlmsareblind.github.io

Autores: Pooyan Rahmanzadehgervi, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen

Última atualização: 2024-07-25 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.06581

Fonte PDF: https://arxiv.org/pdf/2407.06581

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes