Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Évaluer la vision de bas niveau dans les MLLMs

Un nouveau benchmark évalue les modèles de langage multi-modalité dans des tâches de vision de bas niveau.

― 8 min lire


MLLMs et Évaluation de laMLLMs et Évaluation de laVision de Bas Niveaudes images.faiblesses des MLLM dans l'évaluationUn benchmark révèle les forces et les
Table des matières

Les modèles de langage multimodaux (MLLMs) sont des outils trop cool en vision par ordinateur et intelligence artificielle qui utilisent du texte, des images, et d'autres données pour faire plein de trucs. Ils ont bien progressé dans la compréhension et l'interprétation des infos visuelles, ce qui les rend utiles dans plein de domaines. Par contre, même si les MLLMs sont au top pour des tâches complexes comme identifier des objets ou générer des légendes, leur niveau pour les tâches de vision plus simples a encore besoin d'être exploré.

La vision de bas niveau, c'est les bases du traitement d'image, comme la couleur, la clarté, l'éclairage, et les distorsions. Ces éléments sont super importants pour des tâches comme l'Évaluation de la qualité d'image, où les goûts humains pour l'esthétique jouent un grand rôle. Évaluer comment les MLLMs gèrent l'info visuelle de bas niveau va nous aider à comprendre leur potentiel et leurs limites.

Comprendre la Vision de Bas Niveau

La vision de bas niveau englobe les caractéristiques fondamentales des images qui influencent notre perception de leur qualité. Des éléments comme la clarté déterminent si une image est nette ou floue, tandis que la couleur et l'éclairage affectent l'esthétique générale et l'ambiance d'une photo. Les distorsions, comme le bruit d'un mauvais appareil photo ou une mise au point floue, peuvent dégrader la qualité de l'image. Ces préoccupations de bas niveau sont cruciales dans diverses applications pratiques, y compris la photographie, les réseaux sociaux, et la création de contenu numérique.

Malgré les avancées des MLLMs, leur performance sur ces tâches de bas niveau n'est pas bien documentée. La plupart des benchmarks existants pour les MLLMs se concentrent sur des fonctions de haut niveau, laissant un trou dans la compréhension de leur capacité à répondre à des requêtes ou descriptions de bas niveau. C'est là que notre nouveau benchmark entre en jeu.

Présentation du Q-Bench

Le Q-Bench est un benchmark conçu pour évaluer comment les MLLMs s'en sortent dans des tâches de vision de bas niveau. Il vise à fournir un moyen structuré de tester leurs capacités dans trois domaines critiques : la perception des attributs visuels de bas niveau, la description du contenu visuel, et l'évaluation de la qualité d'image. En utilisant ce benchmark, on peut mieux comprendre comment les MLLMs se comparent aux capacités humaines dans ces domaines.

Fonctions Clés du Q-Bench

  1. Perception des Attributs de Bas Niveau
    Cet aspect évalue à quel point les MLLMs peuvent répondre correctement aux questions sur les caractéristiques visuelles basiques des images. Par exemple, on pourrait demander à un modèle : "Cette image est-elle claire ?" et il doit répondre correctement en fonction de la qualité de l'image.

  2. Description du Contenu Visuel
    Ici, on évalue à quel point les MLLMs peuvent articuler leurs observations sur une image. Ils devraient fournir des descriptions détaillées qui capturent les éléments visuels de bas niveau comme la clarté, la couleur, et les distorsions présentes.

  3. Évaluation de la Qualité d'Image
    Les MLLMs seront aussi évalués sur leur capacité à noter la qualité des images. Cela implique de prédire des scores qui s'alignent avec les jugements humains, fournissant une mesure de leur fiabilité quand il s'agit d'évaluer des infos visuelles.

Ensembles de Données Utilisés dans le Q-Bench

Pour évaluer efficacement ces capacités, on a créé deux ensembles de données spécifiques :

  1. LLVisionQA Dataset
    Cet ensemble contient 2 990 images uniques et 1 999 paires d'images. Chaque image ou paire est liée à une question concernant ses caractéristiques de bas niveau, permettant aux MLLMs de démontrer leurs compétences de perception.

  2. LLDescribe Dataset
    Cet ensemble inclut 499 images uniques et 450 paires d'images, chacune accompagnée de longues descriptions détaillées écrites par des experts. Ces descriptions servent de références pour évaluer la sortie des MLLMs.

Les deux ensembles couvrent une variété d'attributs visuels et de scénarios, garantissant une évaluation complète des capacités de chaque modèle.

Évaluation des MLLMs en Vision de Bas Niveau

Avec les ensembles de données établis, on peut maintenant explorer comment les MLLMs se sont comportés dans diverses tâches et ce qu'on a appris des résultats.

Perception des Attributs de Bas Niveau

Dans cette section, on a testé les MLLMs sur leur capacité à percevoir et répondre avec précision aux questions sur les attributs de bas niveau dans les images. Par exemple, ils ont été interrogés pour savoir si une image était floue ou claire.

Résultats des Tests de Perception

  1. Performance sur Images Uniques
    La plupart des MLLMs ont plutôt bien performé, dépassant largement les devinettes aléatoires. Certains modèles, comme SPHINX et InternLM-XComposer-VL, ont montré une précision remarquable, suggérant qu'ils ont un bon potentiel pour être utilisés comme assistants visuels de bas niveau.

  2. Défis avec les Distorsions
    Malgré une performance généralement bonne, beaucoup de modèles ont eu du mal avec les questions liées aux distorsions plus qu'avec d'autres attributs de bas niveau. Cela montre que reconnaître et évaluer les distorsions reste un défi pour ces modèles.

  3. Comparaison avec la Performance Humaine
    En comparant la performance des MLLMs open-source à celle de modèles commerciaux comme GPT-4V, ces derniers ont montré des résultats supérieurs. Cependant, même les modèles les mieux notés ont encore du chemin à faire avant d'atteindre la précision humaine dans la reconnaissance des attributs de bas niveau.

Description du Contenu Visuel

Ensuite, on a évalué à quel point les MLLMs pouvaient décrire les images en fonction des caractéristiques visuelles qu'ils détectent. Cette tâche est essentielle car des descriptions précises sont cruciales pour des applications comme le tagging d'images automatisé et la génération de contenu.

Résultats des Tests de Description

  1. Descriptions d'Images Uniques
    Les modèles ont eu des performances variables, avec InternLM-XComposer-VL produisant les meilleurs résultats dans l'ensemble. Cependant, même les meilleurs modèles ont eu du mal avec la complétude et la précision de leurs descriptions, montrant un besoin d'amélioration dans ce domaine.

  2. Descriptions de Paires d'Images
    Décrire les différences et similitudes entre des paires d'images s'est avéré difficile. Les modèles qui avaient été fine-tunés sur des images uniques ne performaient pas forcément mieux quand il s'agissait d'évaluer des paires, soulignant un manque d'aptitude à analyser plusieurs images en même temps.

Évaluation de la Qualité d'Image

Enfin, on a évalué à quel point les MLLMs pouvaient produire des notations de qualité quantifiables pour les images. Cette tâche impliquait de comparer les notations générées par les MLLMs avec des jugements humains pour voir à quel point ils s'alignaient.

Résultats des Tests d'Évaluation

  1. Constatations Générales
    Beaucoup de MLLMs ont mieux performé que les méthodes d'évaluation traditionnelles sur des ensembles de données spécifiques, montrant leur potentiel pour évaluer la qualité d'image. Bien qu'ils ne soient pas encore parfaits, ils démontrent des capacités précieuses dans des contextes spécifiques.

  2. Stratégie Softmax pour les Notations
    En utilisant une approche softmax pour analyser la sortie des modèles, on a trouvé une méthode plus fiable pour générer des notations de qualité. Cette nouvelle stratégie a amélioré la corrélation entre les sorties des MLLMs et les évaluations humaines, indiquant une direction prometteuse pour les futurs développements.

  3. Efficacité de l'Ensemble de Prompts
    Mettre en œuvre une méthode qui utilise plusieurs prompts a amélioré la performance de nombreux modèles. Cette approche permet aux modèles de mieux comprendre les différences subtiles lors de l'évaluation des images, ce qui reflète des progrès dans leurs capacités d'évaluation.

Conclusion

En résumé, le Q-Bench fournit un cadre précieux pour évaluer comment les MLLMs gèrent les tâches de vision de bas niveau. En évaluant leurs capacités en perception, description, et évaluation de qualité, on obtient des aperçus sur leurs forces et leurs domaines d'amélioration.

Bien que certains MLLMs montrent des capacités prometteuses dans les tâches de bas niveau, il reste encore beaucoup de travail à faire avant qu'ils ne puissent rivaliser de manière fiable avec la performance humaine. Néanmoins, les enseignements tirés de cette recherche peuvent guider les futurs développements dans ce domaine, aidant à améliorer les capacités des MLLMs à comprendre et interpréter efficacement les informations visuelles.

En continuant à affiner ces modèles et à élargir leur formation sur des tâches de vision de bas niveau, on pourrait bientôt voir les MLLMs devenir des outils robustes pour diverses applications impliquant l'analyse, l'évaluation, et la description d'images. L'évolution continue de l'intelligence artificielle dans ce domaine est une frontière excitante, avec des impacts potentiels dans de nombreuses industries et dans la vie quotidienne.

Source originale

Titre: Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs

Résumé: The rapid development of Multi-modality Large Language Models (MLLMs) has navigated a paradigm shift in computer vision, moving towards versatile foundational models. However, evaluating MLLMs in low-level visual perception and understanding remains a yet-to-explore domain. To this end, we design benchmark settings to emulate human language responses related to low-level vision: the low-level visual perception (A1) via visual question answering related to low-level attributes (e.g. clarity, lighting); and the low-level visual description (A2), on evaluating MLLMs for low-level text descriptions. Furthermore, given that pairwise comparison can better avoid ambiguity of responses and has been adopted by many human experiments, we further extend the low-level perception-related question-answering and description evaluations of MLLMs from single images to image pairs. Specifically, for perception (A1), we carry out the LLVisionQA+ dataset, comprising 2,990 single images and 1,999 image pairs each accompanied by an open-ended question about its low-level features; for description (A2), we propose the LLDescribe+ dataset, evaluating MLLMs for low-level descriptions on 499 single images and 450 pairs. Additionally, we evaluate MLLMs on assessment (A3) ability, i.e. predicting score, by employing a softmax-based approach to enable all MLLMs to generate quantifiable quality ratings, tested against human opinions in 7 image quality assessment (IQA) datasets. With 24 MLLMs under evaluation, we demonstrate that several MLLMs have decent low-level visual competencies on single images, but only GPT-4V exhibits higher accuracy on pairwise comparisons than single image evaluations (like humans). We hope that our benchmark will motivate further research into uncovering and enhancing these nascent capabilities of MLLMs. Datasets will be available at https://github.com/Q-Future/Q-Bench.

Auteurs: Zicheng Zhang, Haoning Wu, Erli Zhang, Guangtao Zhai, Weisi Lin

Dernière mise à jour: 2024-08-10 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2402.07116

Source PDF: https://arxiv.org/pdf/2402.07116

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires