Simple Science

La science de pointe expliquée simplement

# Informatique # Intelligence artificielle # Vision par ordinateur et reconnaissance des formes

Les modèles de langage visuel comprennent-ils les graphiques comme les humains ?

Des recherches examinent comment les VLMs interprètent et comprennent les graphiques par rapport aux capacités humaines.

Grace Guo, Jenna Jiayi Kang, Raj Sanjay Shah, Hanspeter Pfister, Sashank Varma

― 6 min lire


VLMs et compréhension des VLMs et compréhension des graphiques données visuelles. aux humains dans la compréhension des Examiner comment les VLMs se comparent
Table des matières

Les Modèles de Langage Visuel (VLMs) sont des outils malins qui peuvent piger à la fois des images et des mots. Ils ont été super utiles dans plein de domaines comme la santé et les voitures autonomes. Maintenant, ils débarquent dans le monde de la visualisation de données, nous aidant à comprendre les Graphiques et les tableaux.

Mais voici le truc : est-ce que ces modèles comprennent les graphiques comme les humains ? S'ils peuvent interpréter les graphiques de la même manière, ça pourrait être vraiment utile pour concevoir et juger ce qui fait une bonne visualisation.

La Quête de la Compréhension des Graphiques

Des chercheurs essaient de comprendre à quel point les VLMs performent par rapport aux humains pour saisir les graphiques. Ils ont utilisé des tests pour mesurer comment les gens peuvent lire des graphiques. Bien que certains modèles montrent qu'ils peuvent repérer des tendances et donner des conseils de design, ils galèrent toujours avec des tâches de base, comme dire quelle couleur est laquelle ou retrouver des chiffres dans un graphique.

Préparer le Terrain pour l'Évaluation

Pour voir si les VLMs peuvent vraiment réfléchir comme des humains en regardant des graphiques, les chercheurs ont décidé de les tester avec des tâches spécifiques. Ces tâches impliquent des opérations visuelles de base comme choisir des chiffres dans des graphiques selon leur position, longueur ou angle. Les chercheurs ont recréé une étude classique où on demandait aux gens de juger des parties d'un graphique, comme quelle section est plus petite ou comment un chiffre se rapporte à un autre.

Comment Ça Marche les Tests

Pour mener leur étude, les chercheurs ont mis en place sept tâches différentes basées sur des expériences passées. Ils ont créé 45 essais pour chaque tâche, demandant au VLM de déterminer quelles parties d'un graphique étaient plus petites et d'estimer quel pourcentage une partie représentait par rapport à une autre.

Ils se sont aussi amusés avec la façon de poser les questions, essayant différentes formulations pour voir comment le VLM répondait. Certaines questions mentionnaient des couleurs, d'autres demandaient des explications. Qui aurait cru que demander à une machine des raisons pouvait faire une telle différence ?

Expérimentations avec les Prompts et Stimuli

Expérience 1 : Changer les Questions

Dans le premier round d'expériences, les chercheurs ont donné au VLM différents types de prompts pour voir comment ça affectait la Performance. Par exemple, un prompt incluait les couleurs dans le graphique, tandis qu'un autre demandait des explications. Les résultats étaient révélateurs !

Quand les prompts incluaient des couleurs et demandaient un raisonnement, le VLM s’en sortait beaucoup mieux pour comprendre les graphiques. Mais quand ils enlevaient ces détails, la précision chutait fortement. Ça montre que la façon dont on pose les questions peut vraiment changer la manière dont le modèle comprend un graphique.

Comparaison des Changements de Couleur et d'Étiquette

Intéressant, les chercheurs ont aussi joué avec les couleurs et les étiquettes. Même s'ils changeaient les couleurs ou les noms des Segments (comme A et B), la performance du modèle restait assez stable. Il semble que le VLM ne soit pas trop difficile avec ces changements.

Le Rôle du Style dans la Performance

En passant à un autre round d'expériences, ils ont remarqué quelque chose de curieux : le VLM réussissait mieux avec certains styles visuels. En utilisant un style par défaut, le modèle performait mieux comparé à d'autres styles avec des schémas de couleurs différents. Ça indique clairement que l’apparence d’un graphique peut influencer la performance, même si les données utilisées restent les mêmes.

Expérience 3 : Proximité des Segments

Les chercheurs ont poussé plus loin en testant comment la proximité des segments affecte la performance du modèle. Ils ont créé deux versions de tâches qui gardaient soit les segments proches, soit les éloignaient avec d'autres segments. Les résultats ont montré quelque chose de surprenant : le VLM avait du mal avec des segments contigus. Ça veut dire que la façon dont les données sont présentées compte pour que le VLM les interprète bien.

Comparaison avec la Performance Humaine

Pour voir comment le VLM se compare aux humains, ils ont analysé à quel point il performait précisément sur les tâches par rapport aux résultats humains. Ils ont découvert qu’en utilisant un ensemble standard de prompts, la performance du VLM correspondait à celle des humains dans certains domaines.

Cela dit, quand ils regardaient les tâches où les gens devaient juger des proportions, le VLM ne s'en sortait pas aussi bien, montrant un décalage dans la façon dont ils faisaient leurs jugements.

La Grande Image

Cette recherche éclaire sur la manière dont les VLMs interprètent l'information visuelle. Ils peuvent performer plutôt bien quand on leur donne des prompts clairs et détaillés, particulièrement avec des références de couleurs. Cependant, ils montrent aussi des faiblesses, surtout avec les jugements de pourcentage.

Bien que les VLMs aient un grand potentiel pour des applications dans la création et l'analyse de graphiques, ils ne remplaceront peut-être pas toujours l'intuition et la précision humaines.

Vers le Futur

Les chercheurs soulignent certaines limites dans leur travail, comme le fait d’avoir testé seulement un VLM. Ils pensent que des VLMs conçus spécifiquement pour la compréhension des graphiques pourraient faire encore mieux. Ce serait intéressant de voir comment différents modèles performent sur des tâches similaires pour avoir une vue plus large.

Un autre point qu'ils mentionnent, c'est que les styles visuels utilisés pourraient ne pas correspondre à ceux que les VLMs voient souvent lors de l'entraînement, ce qui pourrait fausser l'exactitude. Les études futures pourraient vouloir jouer avec ces détails pour mieux aligner les tâches avec la façon dont ces modèles ont été entraînés.

Conclusion

En résumé, les Modèles de Langage Visuel montrent une capacité prometteuse à comprendre les graphiques de manière similaire aux humains, surtout quand les prompts sont bien conçus. Bien qu'ils aient leurs limites, comme des difficultés avec les jugements de pourcentage et une dépendance sur des styles visuels spécifiques, il y a beaucoup de potentiel à les utiliser dans la conception et l'évaluation des visualisations de données.

À l'avenir, ce sera excitant de voir comment ces modèles évoluent et quelles nouvelles tâches ils pourront aborder dans le monde de la visualisation de données. Peut-être qu'un jour, ils créeront leurs propres graphiques – et qui sait, feront même quelques blagues nulles en chemin !

Source originale

Titre: Understanding Graphical Perception in Data Visualization through Zero-shot Prompting of Vision-Language Models

Résumé: Vision Language Models (VLMs) have been successful at many chart comprehension tasks that require attending to both the images of charts and their accompanying textual descriptions. However, it is not well established how VLM performance profiles map to human-like behaviors. If VLMs can be shown to have human-like chart comprehension abilities, they can then be applied to a broader range of tasks, such as designing and evaluating visualizations for human readers. This paper lays the foundations for such applications by evaluating the accuracy of zero-shot prompting of VLMs on graphical perception tasks with established human performance profiles. Our findings reveal that VLMs perform similarly to humans under specific task and style combinations, suggesting that they have the potential to be used for modeling human performance. Additionally, variations to the input stimuli show that VLM accuracy is sensitive to stylistic changes such as fill color and chart contiguity, even when the underlying data and data mappings are the same.

Auteurs: Grace Guo, Jenna Jiayi Kang, Raj Sanjay Shah, Hanspeter Pfister, Sashank Varma

Dernière mise à jour: 2024-10-31 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2411.00257

Source PDF: https://arxiv.org/pdf/2411.00257

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires