Avançando na Avaliação de Modelos de Linguagem Visual com o Benchmark VisMin

Índice

Visão Geral do Benchmark
Criação do Benchmark
Resultados do Benchmark
Criação do Conjunto de Dados
Resultados de Ajuste Fino
Principais Descobertas
Conclusão
Fonte original
Ligações de referência

É importante que os modelos de linguagem visual (VLMs) entendam objetos, suas qualidades e como eles se relacionam. Pra checar como esses modelos sacam esses detalhes, a maioria dos testes atuais compara duas legendas bem parecidas pra mesma imagem. Este artigo muda o foco pra ver como bem esses modelos conseguem combinar imagens com legendas quando as imagens mudam só um pouquinho.

Pra isso, a gente introduz um novo benchmark chamado Visual Minimal-Change Understanding (VisMin). Esse benchmark desafia os modelos a preverem a combinação certa de imagem e legenda dado um par de imagens e um par de legendas, onde só uma pequena mudança foi feita cada vez. As mudanças podem incluir objetos diferentes, qualidades dos objetos (tipo cor ou material), contagem de objetos ou como os objetos estão posicionados um em relação ao outro. O objetivo é testar direitinho como os modelos conseguem captar esses detalhes finos.

Pra criar esse benchmark, usamos um sistema com modelos de linguagem grande e modelos de difusão pra gerar as imagens e legendas. Depois, validamos os resultados através de um processo detalhado em quatro etapas com revisores humanos. Nossos experimentos mostraram que os VLMs atuais têm dificuldade em entender Relações Espaciais e contagem. Aproveitando nosso método de criação de dados, geramos um grande conjunto de dados pra ajustar os modelos CLIP e Idefics2, levando a melhorias significativas na compreensão de detalhes finos.

Visão Geral do Benchmark

Nosso benchmark tem quatro tipos de mudanças mínimas: objeto, atributo, contagem e relação espacial. A tarefa de avaliação exige que os modelos prevejam a combinação correta de imagem e legenda usando as seguintes configurações: 1) duas imagens com uma legenda, ou 2) duas legendas com uma imagem.

Entender bem os objetos e suas relações é fundamental pros VLMs se saírem bem em novas cenas. Benchmarks anteriores já mostraram fraquezas nos modelos, focando principalmente em entender as diferenças de texto entre as legendas. Embora a criação de exemplos difíceis negativos tenha sido possível pras legendas, é mais complicado fazer isso pras imagens.

Os benchmarks existentes que usam negativos visuais têm duas desvantagens principais: eles costumam diferir em vários níveis, o que dificulta avaliar os modelos com precisão, e geralmente vêm de cenas simples que não oferecem complexidade suficiente.

O VisMin visa resolver esses problemas usando imagens do conjunto de dados COCO, que é composto por cenas cotidianas ricas. O benchmark mede como os VLMs conseguem perceber mudanças mínimas, garantindo que enquanto um aspecto muda por vez, os outros permanecem tão consistentes quanto possível.

Criação do Benchmark

Pra montar nosso benchmark, desenvolvemos um sistema pra gerar dados de mudança mínima, abrangendo três etapas principais:

Etapa 1: Síntese de Pares de Mudança Mínima

Nessa etapa, sintetizamos pares de imagem-legenda de mudança mínima focando em quatro categorias principais: objetos, Atributos, contagem e relações espaciais. Começamos com legendas originais e usamos um modelo de linguagem grande (LLM) pra gerar instruções de edição específicas e as legendas editadas correspondentes. Pra mudar objetos ou atributos, usamos legendas escritas por humanos de conjuntos de dados existentes pra garantir edições realistas.

Pra contagem e relações espaciais, as legendas são geradas usando um processo diferente, onde o LLM cria legendas junto com layouts propostos dos objetos.

Depois, seguimos com um modelo de difusão que edita as imagens com base nas instruções geradas. Isso envolve controlar como os objetos são modificados enquanto garantimos que a cena permaneça realista e coerente.

Etapa 2: Filtragem Automática

Aplicamos um processo de filtragem pra checar a precisão das edições. Isso envolve um sistema de Pergunta e Resposta Visual (VQA), que verifica se as imagens editadas refletem com precisão as legendas editadas. Se as respostas pras perguntas geradas não baterem, as imagens são excluídas.

Essa filtragem mostra que uma grande parte das imagens geradas não atende aos critérios de qualidade, o que destaca a importância dessa etapa pra garantir que apenas exemplos de alta qualidade sejam incluídos no nosso conjunto de dados.

Etapa 3: Verificação Humana

Depois da filtragem automática, partimos pra verificação humana, onde usamos revisores pra avaliar os dados gerados em quatro passos:

Naturalidade e Correspondência Imagem-Tex: Os revisores determinam se as imagens parecem reais e se as legendas fazem sentido e se alinham corretamente.
Verificação da Edição Visual: Isso confere se as edições feitas nas imagens correspondem às mudanças mínimas pretendidas.
Verificação das Instruções de Edição: Isso garante que as instruções dadas pra edições sejam mínimas e específicas a um aspecto.
Verificação da Edição Textual: Isso valida que as legendas editadas refletem com precisão as edições feitas nas imagens.

Esse processo rigoroso ajuda a garantir que o benchmark VisMin seja de alta qualidade e útil pra avaliar o desempenho dos modelos.

Resultados do Benchmark

Testamos oito VLMs de código aberto, incluindo modelos conhecidos como CLIP e Idefics2, além de alguns modelos fechados. Nossos achados mostram que, embora esses modelos tenham se saído melhor em entender objetos e atributos, eles tiveram dificuldades com contagem e relações espaciais.

Mais especificamente, enquanto MLLMs (Modelos de Linguagem Multimodal Grandes) mostraram vantagem em entender relações espaciais, tanto MLLMs quanto modelos fundamentais apresentaram desempenho abaixo da chance aleatória. Isso enfatiza a necessidade de um treinamento melhor em contagem e raciocínio espacial nas futuras avaliações dos VLMs.

Criação do Conjunto de Dados

A combinação de filtragem automática e verificação humana nos permitiu criar um conjunto de dados robusto. Nosso conjunto de dados de treinamento contém mais de 64.000 amostras, enquanto o benchmark consiste em cerca de 2.000 amostras. Isso garante uma abordagem equilibrada ao testar modelos em diferentes categorias.

Resultados de Ajuste Fino

Ao ajustar os modelos CLIP e Idefics2 com nosso conjunto de dados de mudança mínima, vimos melhorias significativas no desempenho deles em tarefas de compreensão mais detalhadas. O CLIP, em particular, mostrou avanços na compreensão de objetos, atributos e contagem.

A gente também estendeu nossas avaliações pra outros benchmarks existentes, onde os modelos ajustados continuaram a se destacar, indicando que nossos dados são úteis não só pra tarefas específicas, mas também ajudam a melhorar as capacidades gerais de um modelo.

Principais Descobertas

Mais exploração revelou algumas descobertas principais:

Escalabilidade: Descobrimos que modelos maiores se saíram melhor depois de serem treinados com nosso conjunto de dados de mudança mínima, destacando a complexidade da tarefa e a necessidade de uma capacidade de modelo mais robusta.
Capacidades Originais: O treinamento com nossos dados também levou a melhorias em tarefas comuns de recuperação, significando que os modelos tinham um melhor alinhamento entre diferentes tipos de tarefas.

Conclusão

O VisMin serve como um benchmark valioso pra avaliar a compreensão visual detalhada em VLMs. Enquanto esses modelos costumam se sair bem em reconhecer objetos e atributos, eles enfrentam desafios com contagem e relações espaciais. Ao usar nosso conjunto de dados de mudança mínima pra ajuste fino, conseguimos aumentar significativamente o desempenho de modelos como CLIP e Idefics2.

No entanto, ainda existem desafios com o ruído presente nos dados de mudança mínima, que podem surgir das limitações dos modelos atuais. Avanços futuros nessas tecnologias poderiam resolver esses problemas, aprimorando ainda mais os recursos de treinamento pros VLMs.

Pra fechar, o benchmark VisMin representa um passo essencial pra melhorar as capacidades dos VLMs em entender tarefas visuais complexas, e a gente espera que novos desenvolvimentos nessa área tragam ainda mais avanços.

Avançando na Avaliação de Modelos de Linguagem Visual com o Benchmark VisMin

Um novo padrão pra testar modelos de linguagem visual com mudanças mínimas em imagens e legendas.

Visão Geral do Benchmark

Criação do Benchmark

Etapa 1: Síntese de Pares de Mudança Mínima

Etapa 2: Filtragem Automática

Etapa 3: Verificação Humana

Resultados do Benchmark

Criação do Conjunto de Dados

Resultados de Ajuste Fino

Principais Descobertas

Conclusão

Ligações de referência

Tópicos referenciados

Avançando na Avaliação de Modelos de Linguagem Visual com o Benchmark VisMin

Um novo padrão pra testar modelos de linguagem visual com mudanças mínimas em imagens e legendas.

#Visão Geral do Benchmark

#Criação do Benchmark

#Etapa 1: Síntese de Pares de Mudança Mínima

#Etapa 2: Filtragem Automática

#Etapa 3: Verificação Humana

#Resultados do Benchmark

#Criação do Conjunto de Dados

#Resultados de Ajuste Fino

#Principais Descobertas

#Conclusão

Ligações de referência

Tópicos referenciados

Visão Geral do Benchmark

Criação do Benchmark

Etapa 1: Síntese de Pares de Mudança Mínima

Etapa 2: Filtragem Automática

Etapa 3: Verificação Humana

Resultados do Benchmark

Criação do Conjunto de Dados

Resultados de Ajuste Fino

Principais Descobertas

Conclusão