Évaluation des modèles de langue avec des données de graphiques
Cette étude examine comment les modèles interprètent les données des graphiques et leur performance sur différentes tâches.
― 7 min lire
Table des matières
- Vérification des Faits avec des Graphiques
- Étude de Résumé de Graphiques
- Tâche de Question-Réponse Ouverte sur Graphiques
- Quatre Niveaux de Sémantique
- Résultats d'Évaluation
- Métriques de Performance
- Précision Détendue
- Construction de Prompts
- Exemples de Prompts Utilisés
- Résultats Expérimentaux Supplémentaires
- Tableaux de Performance
- Exemples de Sorties
- Résultats d'Évaluation Sémantique
- Évaluation de Niveau 1
- Évaluation de Niveau 2
- Évaluation de Niveau 3
- Évaluation de Niveau 4
- Erreurs Courantes et Hallucinations
- Conclusion
- Travaux Futurs
- Source originale
- Liens de référence
Dans notre recherche, on utilise le dataset ChartQA, notamment son jeu de test. Ce jeu de test a deux types de questions principaux : celles faites par des gens et celles créées par des modèles. Il y a 625 graphiques différents avec un total de 1250 paires question-réponse générées par des humains. Le jeu créé par des modèles se compose de 987 graphiques uniques avec aussi 1250 paires question-réponse.
On modifie un peu ce dataset. Dans notre version, les graphiques n'ont pas d'étiquettes de données montrant des valeurs exactes à côté des éléments du graphique, comme des barres ou des lignes. Au lieu de ça, le modèle doit trouver ces valeurs en regardant les graphiques, en utilisant des indices comme la hauteur des barres et les étiquettes sur les axes. On fait ça pour tester si la performance des modèles de langage dépend d'étiquettes claires ou s'ils peuvent travailler à partir d'indices visuels. Pour faire cette version, on a utilisé un outil appelé Matplotlib et on a enlevé les étiquettes de données tout en laissant le reste inchangé. Parmi les 1509 images de graphiques qu'on a examinées, 1340 ont été modifiées avec succès, tandis que 169 images n'ont pas été utilisées car elles manquaient de métadonnées importantes.
Vérification des Faits avec des Graphiques
Pour une autre partie de notre étude, on a utilisé le dataset ChartFC. Ce dataset est conçu de sorte que chaque entrée ait une affirmation clairement exprimée en mots, une image de graphique associée, et une étiquette qui indique si le graphique 'soutient' ou 'contredit' l'affirmation. On regarde les modèles de langage dans le jeu de test de ce dataset, qui contient 885 exemples qui soutiennent les affirmations et 706 qui les contredisent. Le dataset se compose principalement de graphiques à barres, qui peuvent être soit horizontaux soit verticaux.
Étude de Résumé de Graphiques
Dans notre travail sur le résumé de graphiques, on utilise le benchmark Chart-to-Text. Ce benchmark se compose de deux principaux datasets : Statista et Pew. Chaque exemple dans les deux datasets a une image de graphique, un tableau de données sous-jacent, un titre de graphique, et un résumé écrit par une personne. Pour nos expériences, on utilise l'ensemble complet de tests des deux datasets, qui inclut 1,393 échantillons de Pew et 5,222 échantillons de Statista.
Tâche de Question-Réponse Ouverte sur Graphiques
Pour voir comment les modèles de langage performent sur des questions ouvertes sur les graphiques, on utilise le dataset OpenCQA. Ce dataset contient cinq types de graphiques : barres, lignes, aires, nuages de points, et camemberts. Dans nos expériences, on prend le jeu de test, qui a 1159 graphiques avec 1159 paires question-réponse.
Quatre Niveaux de Sémantique
Pour évaluer les modèles à quatre niveaux sémantiques, on utilise des graphiques du dataset ChartQA et on sélectionne 50 exemples pour les niveaux 1, 2 et 3, et 150 exemples pour le niveau 4.
Résultats d'Évaluation
Métriques de Performance
On évalue différents modèles sur le dataset OpenCQA. Des scores plus élevés sont mieux, tandis que des scores plus bas sont mieux pour certaines métriques.
Modèle | Métrique 1 | Métrique 2 | Métrique 3 | Métrique 4 |
---|---|---|---|---|
Gemini | 52.04 | 38.53 | 13.51% | |
GPT-4V | 57.51 | 20.52 | 36.99% |
Précision Détendue
Les résultats de ChartQA montrent comment les modèles ont performé sur les jeux de test ChartQA réguliers et modifiés. La baisse de performance par rapport aux données standards de ChartQA est également notée.
Dataset | Modèle | Performance 1 | Performance 2 |
---|---|---|---|
Pew | Gemini | -0.3 | 1.79 |
Statista | GPT-4V | -0.3 | 1.34 |
Construction de Prompts
Pour trouver les meilleurs prompts pour les modèles, on a essayé plein de stratégies et on a choisi celle qui donnait des résultats constants. Dans l'expérience PAL en zéro-shot, on a créé un prompt demandant au modèle de rédiger un script Python qui produit la réponse finale lorsqu'il est exécuté. Pour le test des 4 niveaux de sémantique, on a écrit des questions spécifiques à chaque niveau sémantique pour voir à quel point les modèles peuvent identifier différents niveaux de signification dans l'image du graphique.
Exemples de Prompts Utilisés
Exemples de Tâches :
ChartQA
- Prompt CoT : Étant donné l'image du graphique et une question, génère une réponse.
- Prompt PAL : Crée un script Python pour la question d'entrée.
Sémantique de Niveau 4
- Niveau 1 : Questions sur le type de graphique, les étiquettes des axes, les significations des couleurs, etc.
- Niveau 2 : Questions sur les valeurs maximales et minimales, les valeurs aberrantes, etc.
- Niveau 3 : Questions sur les tendances ou les motifs dans le graphique.
- Niveau 4 : Analyser le graphique en un paragraphe.
Prompt de QA Ouverte sur Graphique : Fournissez une réponse à la question suivante basée sur le graphique fourni.
Prompt de Résumé de Graphique : Résumez le graphique en mettant l'accent sur les tendances et les points de données clés.
Prompt de Vérification des Faits avec des Graphiques : Déterminez si l'affirmation d'entrée est soutenue par le graphique.
Résultats Expérimentaux Supplémentaires
Ici, on montre plus de détails de nos évaluations automatiques sur trois datasets : Chart-to-Text, OpenCQA, et le benchmark ChartQA modifié.
Tableaux de Performance
On inclut des tableaux qui représentent les performances des modèles sur diverses métriques pour différents datasets. Un exemple montrerait comment chaque modèle a performé sur le dataset Chart-to-Text.
Exemples de Sorties
On présente aussi des exemples de réponses de différents modèles à des questions spécifiques du jeu de test ChartQA, avec des réponses correctes et incorrectes.
Résultats d'Évaluation Sémantique
Évaluation de Niveau 1
Au niveau 1, les modèles répondent à des questions simples comme quel type de graphique c'est et quelles sont les plages des axes. Par exemple, si on leur demande le type de graphique, un modèle pourrait simplement dire "graphique à barres" tandis qu'un autre pourrait le décrire plus en détail.
Évaluation de Niveau 2
Au niveau 2, les modèles doivent identifier les plages et les valeurs numériques. Par exemple, ils pourraient indiquer quel axe a des valeurs maximales et quelles sont ces valeurs.
Évaluation de Niveau 3
Dans les évaluations de niveau 3, les modèles décrivent les tendances observées dans les graphiques. Ils devraient être capables de noter les tendances à la hausse ou à la baisse en fonction des données présentées dans les graphiques.
Évaluation de Niveau 4
Enfin, au niveau 4, les modèles fournissent une analyse plus profonde des graphiques. Ils devraient être capables de discuter des implications des données, de comparer des régions ou des groupes, et éventuellement de suggérer des raisons pour ce qu'ils voient.
Erreurs Courantes et Hallucinations
Lors des tests, on note des erreurs courantes et des hallucinations dans les sorties des modèles. Parfois, les modèles font des erreurs sur les couleurs, les tendances, ou des points de données spécifiques. On catégorise ces erreurs en réponses subjectives, contradictions, et informations inventées.
Conclusion
En résumé, on a analysé comment les modèles de langage peuvent interpréter les données des graphiques de différentes manières, de l'identification simple à l'analyse détaillée. Cette étude nous permet d'évaluer leurs capacités et les domaines nécessitant des améliorations, surtout dans le contexte de l'interprétation des données visuelles.
Travaux Futurs
Pour aller de l'avant, on vise à affiner la manière dont les modèles traitent et analysent les données graphiques, à se concentrer sur une communication plus claire des résultats, et à améliorer leur précision dans la production de résumés et de réponses basées sur des informations visuelles.
Titre: Are Large Vision Language Models up to the Challenge of Chart Comprehension and Reasoning? An Extensive Investigation into the Capabilities and Limitations of LVLMs
Résumé: Natural language is a powerful complementary modality of communication for data visualizations, such as bar and line charts. To facilitate chart-based reasoning using natural language, various downstream tasks have been introduced recently such as chart question answering, chart summarization, and fact-checking with charts. These tasks pose a unique challenge, demanding both vision-language reasoning and a nuanced understanding of chart data tables, visual encodings, and natural language prompts. Despite the recent success of Large Language Models (LLMs) across diverse NLP tasks, their abilities and limitations in the realm of data visualization remain under-explored, possibly due to their lack of multi-modal capabilities. To bridge the gap, this paper presents the first comprehensive evaluation of the recently developed large vision language models (LVLMs) for chart understanding and reasoning tasks. Our evaluation includes a comprehensive assessment of LVLMs, including GPT-4V and Gemini, across four major chart reasoning tasks. Furthermore, we perform a qualitative evaluation of LVLMs' performance on a diverse range of charts, aiming to provide a thorough analysis of their strengths and weaknesses. Our findings reveal that LVLMs demonstrate impressive abilities in generating fluent texts covering high-level data insights while also encountering common problems like hallucinations, factual errors, and data bias. We highlight the key strengths and limitations of chart comprehension tasks, offering insights for future research.
Auteurs: Mohammed Saidul Islam, Raian Rahman, Ahmed Masry, Md Tahmid Rahman Laskar, Mir Tafseer Nayeem, Enamul Hoque
Dernière mise à jour: 2024-10-03 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.00257
Source PDF: https://arxiv.org/pdf/2406.00257
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://tex.stackexchange.com/questions/83101/option-clash-for-package-xcolor
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://ctan.org/pkg/pifont
- https://tex.stackexchange.com/a/40603
- https://ctan.org/pkg/multirow
- https://ctan.org/pkg/hhline
- https://2020.emnlp.org/files/emnlp2020-templates.zip
- https://aclweb.org/anthology/anthology.bib.gz
- https://aclanthology.info/
- https://tug.org/errors.html
- https://www.statista.com/
- https://www.pewresearch.org/