Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Computação e linguagem# Aprendizagem de máquinas

Avançando na Avaliação de Modelos de Linguagem Visual com o Benchmark VisMin

Um novo padrão pra testar modelos de linguagem visual com mudanças mínimas em imagens e legendas.

― 7 min ler


VisMin: Testando ModelosVisMin: Testando Modelosde Linguagem Visualimagens.mudanças mínimas nas legendas dasUm benchmark que desafia modelos com
Índice

É importante que os modelos de linguagem visual (VLMs) entendam objetos, suas qualidades e como eles se relacionam. Pra checar como esses modelos sacam esses detalhes, a maioria dos testes atuais compara duas legendas bem parecidas pra mesma imagem. Este artigo muda o foco pra ver como bem esses modelos conseguem combinar imagens com legendas quando as imagens mudam só um pouquinho.

Pra isso, a gente introduz um novo benchmark chamado Visual Minimal-Change Understanding (VisMin). Esse benchmark desafia os modelos a preverem a combinação certa de imagem e legenda dado um par de imagens e um par de legendas, onde só uma pequena mudança foi feita cada vez. As mudanças podem incluir objetos diferentes, qualidades dos objetos (tipo cor ou material), contagem de objetos ou como os objetos estão posicionados um em relação ao outro. O objetivo é testar direitinho como os modelos conseguem captar esses detalhes finos.

Pra criar esse benchmark, usamos um sistema com modelos de linguagem grande e modelos de difusão pra gerar as imagens e legendas. Depois, validamos os resultados através de um processo detalhado em quatro etapas com revisores humanos. Nossos experimentos mostraram que os VLMs atuais têm dificuldade em entender Relações Espaciais e contagem. Aproveitando nosso método de criação de dados, geramos um grande conjunto de dados pra ajustar os modelos CLIP e Idefics2, levando a melhorias significativas na compreensão de detalhes finos.

Visão Geral do Benchmark

Nosso benchmark tem quatro tipos de mudanças mínimas: objeto, atributo, contagem e relação espacial. A tarefa de avaliação exige que os modelos prevejam a combinação correta de imagem e legenda usando as seguintes configurações: 1) duas imagens com uma legenda, ou 2) duas legendas com uma imagem.

Entender bem os objetos e suas relações é fundamental pros VLMs se saírem bem em novas cenas. Benchmarks anteriores já mostraram fraquezas nos modelos, focando principalmente em entender as diferenças de texto entre as legendas. Embora a criação de exemplos difíceis negativos tenha sido possível pras legendas, é mais complicado fazer isso pras imagens.

Os benchmarks existentes que usam negativos visuais têm duas desvantagens principais: eles costumam diferir em vários níveis, o que dificulta avaliar os modelos com precisão, e geralmente vêm de cenas simples que não oferecem complexidade suficiente.

O VisMin visa resolver esses problemas usando imagens do conjunto de dados COCO, que é composto por cenas cotidianas ricas. O benchmark mede como os VLMs conseguem perceber mudanças mínimas, garantindo que enquanto um aspecto muda por vez, os outros permanecem tão consistentes quanto possível.

Criação do Benchmark

Pra montar nosso benchmark, desenvolvemos um sistema pra gerar dados de mudança mínima, abrangendo três etapas principais:

Etapa 1: Síntese de Pares de Mudança Mínima

Nessa etapa, sintetizamos pares de imagem-legenda de mudança mínima focando em quatro categorias principais: objetos, Atributos, contagem e relações espaciais. Começamos com legendas originais e usamos um modelo de linguagem grande (LLM) pra gerar instruções de edição específicas e as legendas editadas correspondentes. Pra mudar objetos ou atributos, usamos legendas escritas por humanos de conjuntos de dados existentes pra garantir edições realistas.

Pra contagem e relações espaciais, as legendas são geradas usando um processo diferente, onde o LLM cria legendas junto com layouts propostos dos objetos.

Depois, seguimos com um modelo de difusão que edita as imagens com base nas instruções geradas. Isso envolve controlar como os objetos são modificados enquanto garantimos que a cena permaneça realista e coerente.

Etapa 2: Filtragem Automática

Aplicamos um processo de filtragem pra checar a precisão das edições. Isso envolve um sistema de Pergunta e Resposta Visual (VQA), que verifica se as imagens editadas refletem com precisão as legendas editadas. Se as respostas pras perguntas geradas não baterem, as imagens são excluídas.

Essa filtragem mostra que uma grande parte das imagens geradas não atende aos critérios de qualidade, o que destaca a importância dessa etapa pra garantir que apenas exemplos de alta qualidade sejam incluídos no nosso conjunto de dados.

Etapa 3: Verificação Humana

Depois da filtragem automática, partimos pra verificação humana, onde usamos revisores pra avaliar os dados gerados em quatro passos:

  1. Naturalidade e Correspondência Imagem-Tex: Os revisores determinam se as imagens parecem reais e se as legendas fazem sentido e se alinham corretamente.
  2. Verificação da Edição Visual: Isso confere se as edições feitas nas imagens correspondem às mudanças mínimas pretendidas.
  3. Verificação das Instruções de Edição: Isso garante que as instruções dadas pra edições sejam mínimas e específicas a um aspecto.
  4. Verificação da Edição Textual: Isso valida que as legendas editadas refletem com precisão as edições feitas nas imagens.

Esse processo rigoroso ajuda a garantir que o benchmark VisMin seja de alta qualidade e útil pra avaliar o desempenho dos modelos.

Resultados do Benchmark

Testamos oito VLMs de código aberto, incluindo modelos conhecidos como CLIP e Idefics2, além de alguns modelos fechados. Nossos achados mostram que, embora esses modelos tenham se saído melhor em entender objetos e atributos, eles tiveram dificuldades com contagem e relações espaciais.

Mais especificamente, enquanto MLLMs (Modelos de Linguagem Multimodal Grandes) mostraram vantagem em entender relações espaciais, tanto MLLMs quanto modelos fundamentais apresentaram desempenho abaixo da chance aleatória. Isso enfatiza a necessidade de um treinamento melhor em contagem e raciocínio espacial nas futuras avaliações dos VLMs.

Criação do Conjunto de Dados

A combinação de filtragem automática e verificação humana nos permitiu criar um conjunto de dados robusto. Nosso conjunto de dados de treinamento contém mais de 64.000 amostras, enquanto o benchmark consiste em cerca de 2.000 amostras. Isso garante uma abordagem equilibrada ao testar modelos em diferentes categorias.

Resultados de Ajuste Fino

Ao ajustar os modelos CLIP e Idefics2 com nosso conjunto de dados de mudança mínima, vimos melhorias significativas no desempenho deles em tarefas de compreensão mais detalhadas. O CLIP, em particular, mostrou avanços na compreensão de objetos, atributos e contagem.

A gente também estendeu nossas avaliações pra outros benchmarks existentes, onde os modelos ajustados continuaram a se destacar, indicando que nossos dados são úteis não só pra tarefas específicas, mas também ajudam a melhorar as capacidades gerais de um modelo.

Principais Descobertas

Mais exploração revelou algumas descobertas principais:

  1. Escalabilidade: Descobrimos que modelos maiores se saíram melhor depois de serem treinados com nosso conjunto de dados de mudança mínima, destacando a complexidade da tarefa e a necessidade de uma capacidade de modelo mais robusta.
  2. Capacidades Originais: O treinamento com nossos dados também levou a melhorias em tarefas comuns de recuperação, significando que os modelos tinham um melhor alinhamento entre diferentes tipos de tarefas.

Conclusão

O VisMin serve como um benchmark valioso pra avaliar a compreensão visual detalhada em VLMs. Enquanto esses modelos costumam se sair bem em reconhecer objetos e atributos, eles enfrentam desafios com contagem e relações espaciais. Ao usar nosso conjunto de dados de mudança mínima pra ajuste fino, conseguimos aumentar significativamente o desempenho de modelos como CLIP e Idefics2.

No entanto, ainda existem desafios com o ruído presente nos dados de mudança mínima, que podem surgir das limitações dos modelos atuais. Avanços futuros nessas tecnologias poderiam resolver esses problemas, aprimorando ainda mais os recursos de treinamento pros VLMs.

Pra fechar, o benchmark VisMin representa um passo essencial pra melhorar as capacidades dos VLMs em entender tarefas visuais complexas, e a gente espera que novos desenvolvimentos nessa área tragam ainda mais avanços.

Fonte original

Título: VisMin: Visual Minimal-Change Understanding

Resumo: Fine-grained understanding of objects, attributes, and relationships between objects is crucial for visual-language models (VLMs). Existing benchmarks primarily focus on evaluating VLMs' capability to distinguish between two very similar \textit{captions} given an image. In this paper, we introduce a new, challenging benchmark termed \textbf{Vis}ual \textbf{Min}imal-Change Understanding (VisMin), which requires models to predict the correct image-caption match given two images and two captions. The image pair and caption pair contain minimal changes, i.e., only one aspect changes at a time from among the following: \textit{object}, \textit{attribute}, \textit{count}, and \textit{spatial relation}. These changes test the models' understanding of objects, attributes (such as color, material, shape), counts, and spatial relationships between objects. We built an automatic framework using large language models and diffusion models, followed by a rigorous 4-step verification process by human annotators. Empirical experiments reveal that current VLMs exhibit notable deficiencies in understanding spatial relationships and counting abilities. We also generate a large-scale training dataset to finetune CLIP and Idefics2, showing significant improvements in fine-grained understanding across benchmarks and in CLIP's general image-text alignment. We release all resources, including the benchmark, training data, and finetuned model checkpoints, at \url{https://vismin.net/}.

Autores: Rabiul Awal, Saba Ahmadi, Le Zhang, Aishwarya Agrawal

Última atualização: 2024-07-23 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.16772

Fonte PDF: https://arxiv.org/pdf/2407.16772

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes