Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Calcul et langage# Apprentissage automatique

Évaluation avancée des modèles de langage visuel avec le benchmark VisMin

Un nouveau standard pour tester les modèles visuels-linguistiques sur des changements minimaux dans les images et les légendes.

― 8 min lire


VisMin : Tester lesVisMin : Tester lesmodèles de langage visuellégendes d'images.des changements minimes dans lesUn benchmark qui défie les modèles avec
Table des matières

C'est super important pour les modèles de langage visuel (VLMs) de piger les objets, leurs qualités et comment ils se relient entre eux. Pour voir à quel point ces modèles comprennent ces détails, la plupart des tests actuels comparent deux légendes très similaires pour la même image. Cet article change un peu la donne en se concentrant sur la capacité des modèles à associer des images à des légendes quand les images sont juste un peu différentes.

Pour ça, on introduit un nouveau benchmark appelé Visual Minimal-Change Understanding (VisMin). Ce benchmark met au défi les modèles de prédire le bon match image-légende donné une paire d'images et une paire de légendes, où un petit changement a été fait à la fois. Les types de changements peuvent inclure des objets différents, des qualités d'objets (comme la couleur ou le matériau), le nombre d'objets, ou comment les objets sont positionnés les uns par rapport aux autres. Le but, c'est de bien tester à quel point les modèles peuvent saisir ces petits détails.

Pour créer ce benchmark, on a utilisé un système avec de grands modèles de langage et des modèles de diffusion pour générer les images et les légendes. Ensuite, on a validé les résultats à travers un processus détaillé en quatre étapes avec des examinateurs humains. Nos expériences ont montré que les VLMs actuels ont du mal à comprendre les Relations spatiales et le comptage. En exploitant notre méthode de création de données, on a généré un grand jeu de données pour affiner les modèles CLIP et Idefics2, ce qui a mené à des améliorations significatives dans leur compréhension des détails fins.

Benchmark Overview

Notre benchmark consiste en quatre types de changements minimaux : objet, attribut, nombre et relation spatiale. La tâche d'évaluation doit permettre aux modèles de prédire le bon match image-légende en utilisant les configurations suivantes : 1) deux images avec une légende, ou 2) deux légendes avec une image.

Une bonne compréhension des objets et de leurs relations est essentielle pour que les VLMs fonctionnent bien avec de nouvelles scènes. Les benchmarks précédents ont mis en évidence des faiblesses dans les modèles, se concentrant principalement sur la compréhension des différences de texte entre les légendes. Alors que créer des exemples difficiles pour les légendes a été possible, c’est plus compliqué pour les images.

Les benchmarks existants qui utilisent des visuels difficiles ont deux inconvénients principaux : ils diffèrent souvent à plusieurs niveaux, ce qui rend l'évaluation des modèles difficile, et ils viennent en général de scènes simples qui ne fournissent pas assez de complexité.

VisMin vise à résoudre ces problèmes en utilisant des images du jeu de données COCO, composé de scènes quotidiennes riches. Le benchmark mesure à quel point les VLMs peuvent discerner des changements minimes, en s'assurant que pendant qu'un aspect change à la fois, les autres restent aussi constants que possible.

Benchmark Creation

Pour construire notre benchmark, on a développé un système pour générer des données de changements minimaux, comprenant trois étapes principales :

Étape 1 : Synthèse de Paires de Changements Minimaux

À ce stade, on synthétise des paires image-légende de changements minimaux en se concentrant sur quatre catégories principales : objets, Attributs, comptage et relations spatiales. On commence avec des légendes sources et on utilise un grand modèle de langage (LLM) pour générer des instructions d'édition spécifiques et les légendes modifiées correspondantes. Pour changer les objets ou les attributs, on utilise des légendes écrites par des humains dans des jeux de données existants pour garantir des modifications réalistes.

Pour le comptage et les relations spatiales, les légendes sont générées par un process différent, où le LLM crée des légendes accompagnées de mises en page proposées des objets.

On suit ça avec un modèle de diffusion qui édite les images selon les instructions générées. Ça implique de contrôler comment les objets sont modifiés tout en s’assurant que la scène reste réaliste et cohérente.

Étape 2 : Filtrage Automatique

On applique un processus de filtrage pour vérifier l'exactitude des modifications. Cela implique un système de Réponse à des Questions Visuelles (VQA), qui vérifie que les images modifiées reflètent fidèlement les légendes modifiées. Si les réponses aux questions générées ne correspondent pas, les images sont exclues.

Ce filtrage montre qu'une grande partie des images générées ne répondent pas aux critères de qualité, ce qui souligne l'importance de cette étape pour s'assurer que seuls des exemples de haute qualité sont inclus dans notre jeu de données.

Étape 3 : Vérification Humaine

Après le filtrage automatique, on passe à la vérification humaine, où on utilise des examinateurs pour évaluer les données générées en quatre étapes :

  1. Naturel et Correspondance Image-Texte : Les examinateurs déterminent si les images semblent réelles et si les légendes ont du sens et s'alignent correctement.
  2. Vérification de la Modification Visuelle : Ça vérifie que les modifications faites aux images correspondent aux changements minimaux prévus.
  3. Vérification des Instructions d'Édition : Ça assure que les instructions données pour les modifications sont minimales et spécifiques à un aspect.
  4. Vérification de la Modification Textuelle : Ça valide que les légendes modifiées reflètent fidèlement les modifications apportées aux images.

Ce processus rigoureux aide à garantir que le benchmark VisMin est de haute qualité et utile pour évaluer la performance des modèles.

Benchmark Results

On a testé huit VLMs open-source, y compris des modèles connus comme CLIP et Idefics2, ainsi que quelques modèles fermés. Nos résultats montrent que, bien que ces modèles aient mieux performé en compréhension des objets et attributs, ils ont galéré avec le comptage et les relations spatiales.

Plus précisément, bien que les MLLMs (Modèles de Langage Multimodaux) aient montré un avantage pour comprendre les relations spatiales, tant les MLLMs que les modèles de base ont performé en dessous du hasard. Ça souligne le besoin d'un meilleur entraînement sur le comptage et le raisonnement spatial pour les futures évaluations des VLMs.

Dataset Creation

La combinaison du filtrage automatique et de la vérification humaine nous a permis de créer un jeu de données robuste. Notre jeu de données d'entraînement contient plus de 64 000 échantillons, tandis que le benchmark comprend environ 2 000 échantillons. Ça assure une approche équilibrée pour tester les modèles à travers différentes catégories.

Fine-tuning Results

En affinant les modèles CLIP et Idefics2 avec notre jeu de données de changement minimal, on a vu des améliorations significatives dans leur performance sur les tâches de compréhension fine. CLIP, en particulier, a montré des progrès dans la compréhension des objets, des attributs et du comptage.

On a aussi élargi nos évaluations à d'autres benchmarks existants, où les modèles affinés ont continué d'exceller, ce qui indique que nos données sont utiles non seulement pour des tâches spécifiques mais aussi pour améliorer les capacités générales d’un modèle.

Key Findings

Une exploration plus poussée a révélé quelques insights majeurs :

  1. Scalabilité : On a trouvé que les grands modèles avaient de meilleures performances après avoir été entraînés avec notre jeu de données de changement minimal, soulignant la complexité de la tâche et le besoin d'une capacité de modèle plus robuste.
  2. Capacités Originales : L'entraînement avec nos données a aussi conduit à des améliorations dans des tâches de récupération standards, signifiant que les modèles avaient une meilleure alignement à travers différents types de tâches.

Conclusion

VisMin sert de benchmark précieux pour évaluer la compréhension visuelle fine dans les VLMs. Même si ces modèles excellent généralement dans la reconnaissance des objets et des attributs, ils rencontrent des défis avec le comptage et les relations spatiales. En utilisant notre jeu de données de changement minimal pour l'affinage, on a significativement boosté la performance de modèles comme CLIP et Idefics2.

Cependant, des défis persistent avec le bruit présent dans les données de changements minimaux, qui peuvent surgir des limitations des modèles actuels. Les avancées futures dans ces technologies pourraient résoudre de tels problèmes, améliorant encore les ressources d'entraînement pour les VLMs.

Pour conclure, le benchmark VisMin représente une étape essentielle vers l'amélioration des capacités des VLMs dans la compréhension des tâches visuelles complexes, et on s'attend à ce que d'autres développements dans ce domaine entraînent encore plus de progrès.

Source originale

Titre: VisMin: Visual Minimal-Change Understanding

Résumé: Fine-grained understanding of objects, attributes, and relationships between objects is crucial for visual-language models (VLMs). Existing benchmarks primarily focus on evaluating VLMs' capability to distinguish between two very similar \textit{captions} given an image. In this paper, we introduce a new, challenging benchmark termed \textbf{Vis}ual \textbf{Min}imal-Change Understanding (VisMin), which requires models to predict the correct image-caption match given two images and two captions. The image pair and caption pair contain minimal changes, i.e., only one aspect changes at a time from among the following: \textit{object}, \textit{attribute}, \textit{count}, and \textit{spatial relation}. These changes test the models' understanding of objects, attributes (such as color, material, shape), counts, and spatial relationships between objects. We built an automatic framework using large language models and diffusion models, followed by a rigorous 4-step verification process by human annotators. Empirical experiments reveal that current VLMs exhibit notable deficiencies in understanding spatial relationships and counting abilities. We also generate a large-scale training dataset to finetune CLIP and Idefics2, showing significant improvements in fine-grained understanding across benchmarks and in CLIP's general image-text alignment. We release all resources, including the benchmark, training data, and finetuned model checkpoints, at \url{https://vismin.net/}.

Auteurs: Rabiul Awal, Saba Ahmadi, Le Zhang, Aishwarya Agrawal

Dernière mise à jour: 2024-07-23 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.16772

Source PDF: https://arxiv.org/pdf/2407.16772

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires