Évaluation de la perception visuelle dans les modèles de langage
Un nouveau benchmark révèle des lacunes dans la compréhension visuelle des grands modèles de langage.
― 9 min lire
Table des matières
- Le défi de la Perception Visuelle
- Structure du benchmark
- Comparaison avec la vision par ordinateur traditionnelle
- Importance de la perception visuelle
- Méthodes d'Évaluation actuelles
- Caractéristiques novatrices du benchmark
- Description des échantillons de tâches
- Configuration expérimentale
- Principaux résultats
- Comparaison avec des modèles spécialisés
- Analyse des erreurs
- Conclusions et directions futures
- La nécessité de modèles améliorés
- Importance des perspectives interdisciplinaires
- Dernières réflexions
- Source originale
- Liens de référence
Les grands modèles de langage (LLMs) sont des programmes informatiques capables de comprendre et de générer le langage humain. Récemment, certains de ces modèles ont été conçus pour fonctionner avec du texte et des images. Ça veut dire qu'ils peuvent regarder des photos et répondre à des questions ou décrire ce qu'ils voient. Mais il y a une grosse différence entre juste "voir" une image et vraiment "percevoir" ce qu'elle représente. La perception implique comprendre et interpréter ce qu'on voit, ce que les humains font très bien, mais les LLMs actuels ont du mal avec ça.
Perception Visuelle
Le défi de laLes humains peuvent souvent répondre à des questions sur des images presque instantanément. Par exemple, on peut facilement dire quel objet est plus proche sur une photo ou quelle image est un reflet. Mais pour les LLMs qui travaillent avec des images, ces Tâches sont beaucoup plus dures. Cet article présente un benchmark spécial, qui est un ensemble de tests conçus pour évaluer à quel point ces modèles peuvent comprendre l'information visuelle. Le benchmark est basé sur des problèmes classiques en vision par ordinateur, mais ces problèmes ont été transformés en questions à choix multiples adaptées aux LLMs.
Structure du benchmark
Le benchmark se compose de 14 tâches différentes de perception visuelle, toutes conçues pour être répondues rapidement par les humains, mais difficiles pour les machines. Alors que les humains obtiennent environ 95 % en moyenne pour ces tâches, les meilleurs LLMs ne marquent qu'environ 51 %. Ça veut dire qu'il y a un écart notable entre les capacités humaines et celles des LLMs. Le benchmark inclut divers types de questions sur les images, des comparaisons de base comme identifier des couleurs à des tâches de raisonnement plus complexes impliquant la profondeur et la distance entre les objets.
Comparaison avec la vision par ordinateur traditionnelle
Traditionnellement, la vision par ordinateur visait à analyser les images comme des scènes en 3D plutôt que comme de simples images plates. Les premières recherches en vision par ordinateur ont établi beaucoup de tâches qui se concentraient sur la compréhension de divers aspects des images, comme la manière dont la lumière interagit avec les matériaux et comment reconnaître des objets spécifiques. Cependant, avec l'essor des LLMs, l'accent a été mis sur les tâches linguistiques qui combinent images et mots. Ce changement n'a peut-être pas été bénéfique, car beaucoup de tâches qui nécessitent une vraie compréhension des images ne sont pas bien abordées en utilisant uniquement le langage.
Importance de la perception visuelle
La capacité de percevoir et d'interpréter des informations visuelles est essentielle pour de nombreuses applications, y compris la robotique, les soins de santé et la sécurité. Comprendre comment les LLMs se comportent sur ces tâches visuelles peut aider à améliorer leur conception. Cet article vise à mettre en lumière les lacunes des LLMs actuels et à encourager de nouveaux développements dans ce domaine.
Évaluation actuelles
Méthodes d'Les benchmarks existants pour évaluer la performance des LLMs confondent souvent la perception visuelle avec la compréhension linguistique. Par exemple, ils pourraient demander à un modèle de décrire une image ou de deviner ce qui va se passer ensuite sur la base d'une image. De telles tâches se concentrent plus sur les connaissances linguistiques que sur la vraie perception. Ça peut conduire à une mauvaise interprétation des capacités des modèles, car ils peuvent sembler compétents dans ces tâches alors qu'en réalité, ils s'appuient beaucoup sur leurs compétences linguistiques.
Caractéristiques novatrices du benchmark
Ce nouveau benchmark a plusieurs aspects uniques qui le distinguent des précédents.
Invitations visuelles diverses : Contrairement aux benchmarks précédents, qui utilisaient généralement seulement des questions textuelles, celui-ci inclut différentes invitations visuelles. Ça veut dire que le modèle doit analyser des zones spécifiques d'images, ce qui améliore l'évaluation de sa compréhension.
Gamme complète de tâches : Le benchmark va au-delà des simples questions de reconnaissance pour inclure des capacités de raisonnement complexes, comme comprendre la profondeur et les relations spatiales.
Problèmes de bon sens visuel : Beaucoup de questions sont conçues pour être simples pour les humains, permettant une comparaison plus claire entre la performance humaine et celle des machines.
Formats entrelacés : Certaines questions présentent à la fois du texte et des images, défiant les LLMs à démontrer une vraie compréhension plutôt que juste une reconnaissance.
Collection d'images diversifiée : Le benchmark comprend des images de divers contextes, assurant une évaluation complète des compétences dans des environnements intérieurs et extérieurs.
Description des échantillons de tâches
Le benchmark inclut diverses tâches qui évaluent différents niveaux de compréhension visuelle :
Correspondance visuelle : Cette tâche teste la capacité à identifier les mêmes points dans des images prises sous différents angles ou éclairages. Elle mesure à quel point un modèle peut reconnaître les changements de perspective.
Réflectance relative : Ici, les modèles doivent évaluer la luminosité de différentes zones d'une image, ce qui évalue leur compréhension des matériaux et de l'éclairage.
Profondeur relative : Cette tâche vérifie si le modèle peut déterminer quels objets sont plus proches ou plus éloignés de la caméra.
Relations spatiales : Comprendre où se trouvent les objets par rapport les uns aux autres est essentiel pour saisir les scènes, et cette tâche aide à mesurer cette compétence.
Raisonnement multi-vue : Cela évalue à quel point les modèles peuvent inférer des mouvements ou des actions à partir d'images prises sous différents angles.
Reconnaissance de motifs : Les modèles doivent reconnaître des formes ou des couleurs similaires à travers plusieurs images pour évaluer leur capacité à identifier des motifs.
Évaluation de style artistique : Cette tâche vérifie si le modèle peut déterminer des similarités dans le style artistique entre des images.
Localisation d'objets : Ici, les modèles doivent identifier avec précision les positions des objets dans des scènes complexes.
Détection forensic : Cela consiste à distinguer les vraies et les fausses images, un aspect important dans le paysage numérique d'aujourd'hui.
Similarité visuelle : Les modèles doivent identifier laquelle de plusieurs images est la plus similaire à une image de référence donnée.
Correspondance fonctionnelle : Cette tâche vérifie si le modèle peut reconnaître des fonctions similaires à travers différentes images d'objets.
Correspondance sémantique : Les modèles doivent associer des parties sémantiquement similaires de différentes images, testant leur compréhension des significations sous-jacentes.
Configuration expérimentale
Pour ce benchmark, 16 LLMs multimodaux différents ont été évalués pour mesurer leur performance. L'évaluation a utilisé une variété de configurations standard pour garantir la cohérence et la fiabilité. Les résultats ont montré un écart de performance clair entre les humains et les modèles, confirmant l'insuffisance des LLMs actuels dans les tâches visuelles.
Principaux résultats
Les résultats illustrent que, bien que les LLMs puissent atteindre une certaine compréhension des images, leur performance globale est significativement inférieure à celle des humains. Les LLMs les plus performants ont obtenu environ 51 %, tandis que les humains ont atteint plus de 95 %. Ces résultats soulignent la nécessité d'améliorer la manière dont les LLMs sont formés et évalués.
Comparaison avec des modèles spécialisés
Le benchmark permet également de comparer les LLMs avec des modèles spécialisés qui se concentrent uniquement sur des tâches visuelles. Ces modèles ont obtenu de bien meilleurs résultats sur diverses tâches, offrant un aperçu de ce que les LLMs multimodaux pourraient atteindre s'ils étaient formés avec les bonnes données et méthodologies.
Analyse des erreurs
Une analyse des erreurs a révélé des problèmes communs parmi les LLMs. Beaucoup ont eu du mal à reconnaître de petits détails ou à comprendre les relations spatiales. De telles erreurs montrent que les LLMs ne saisissent souvent pas complètement les images qu'ils analysent.
Conclusions et directions futures
En conclusion, l'écart entre la perception visuelle humaine et la compréhension machine est évident. Le nouveau benchmark fournit un cadre plus clair pour évaluer les capacités visuelles des LLMs et suggère des voies pour de futures améliorations. En se concentrant sur des tâches clés de perception visuelle, on peut obtenir de meilleures idées sur la façon d'améliorer ces modèles.
La nécessité de modèles améliorés
Les améliorations en perception visuelle seront essentielles non seulement pour faire progresser la technologie des LLMs, mais aussi pour améliorer les applications dans divers domaines. À mesure que ces modèles continuent de se développer, intégrer des idées provenant de modèles spécialisés pourrait offrir les avancées nécessaires en compréhension visuelle.
Importance des perspectives interdisciplinaires
Réunir les tâches de perception visuelle traditionnelles et les capacités multimodales modernes peut conduire à de meilleurs systèmes. Alors que les chercheurs explorent l'intersection entre le langage et la vision, il est important de se rappeler les principes fondamentaux de la perception qui peuvent et doivent être intégrés dans les futurs modèles.
Dernières réflexions
Alors que la technologie continue d'évoluer, comprendre et améliorer la manière dont les machines perçoivent les informations visuelles sera essentiel. L'introduction de ce nouveau benchmark est une étape significative dans cette direction, offrant une plateforme pour une évaluation continue et des avancées dans l'IA multimodale. Le travail effectué ici aidera à orienter de futures recherches et développements visant à réduire l'écart entre les capacités de perception humaine et machine.
Titre: BLINK: Multimodal Large Language Models Can See but Not Perceive
Résumé: We introduce Blink, a new benchmark for multimodal language models (LLMs) that focuses on core visual perception abilities not found in other evaluations. Most of the Blink tasks can be solved by humans "within a blink" (e.g., relative depth estimation, visual correspondence, forensics detection, and multi-view reasoning). However, we find these perception-demanding tasks cast significant challenges for current multimodal LLMs because they resist mediation through natural language. Blink reformats 14 classic computer vision tasks into 3,807 multiple-choice questions, paired with single or multiple images and visual prompting. While humans get 95.70% accuracy on average, Blink is surprisingly challenging for existing multimodal LLMs: even the best-performing GPT-4V and Gemini achieve accuracies of 51.26% and 45.72%, only 13.17% and 7.63% higher than random guessing, indicating that such perception abilities have not "emerged" yet in recent multimodal LLMs. Our analysis also highlights that specialist CV models could solve these problems much better, suggesting potential pathways for future improvements. We believe Blink will stimulate the community to help multimodal LLMs catch up with human-level visual perception.
Auteurs: Xingyu Fu, Yushi Hu, Bangzheng Li, Yu Feng, Haoyu Wang, Xudong Lin, Dan Roth, Noah A. Smith, Wei-Chiu Ma, Ranjay Krishna
Dernière mise à jour: 2024-07-03 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2404.12390
Source PDF: https://arxiv.org/pdf/2404.12390
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.wikiart.org/
- https://huggingface.co/datasets/huggan/wikiart
- https://wenku.baidu.com/view/1456a3165b0102020740be1e650e52ea5518ce9b.html?fr=income4-doc-search&_wkts_=1709522468939&wkQuery=%E4%B8%AD%E5%9B%BD%E5%85%AC%E5%8A%A1%E5%91%98%E5%9B%BD%E8%80%83%E5%9B%BE%E5%BD%A2%E6%8E%A8%E7%90%86%E9%A2%98+100%E9%81%93&needWelcomeRecommand=1
- https://www.01.ai/
- https://huggingface.co/PerceptionEval
- https://huggingface.co/01-ai/Yi-VL-6B
- https://ctan.org/pkg/axessibility?lang=en
- https://zeyofu.github.io/blink/