Évaluation des modèles de langue avec des données de graphiques

Table des matières

Vérification des Faits avec des Graphiques
Étude de Résumé de Graphiques
Tâche de Question-Réponse Ouverte sur Graphiques
Quatre Niveaux de Sémantique
Résultats d'Évaluation
Construction de Prompts
Résultats Expérimentaux Supplémentaires
Résultats d'Évaluation Sémantique
Erreurs Courantes et Hallucinations
Conclusion
Source originale
Liens de référence

Dans notre recherche, on utilise le dataset ChartQA, notamment son jeu de test. Ce jeu de test a deux types de questions principaux : celles faites par des gens et celles créées par des modèles. Il y a 625 graphiques différents avec un total de 1250 paires question-réponse générées par des humains. Le jeu créé par des modèles se compose de 987 graphiques uniques avec aussi 1250 paires question-réponse.

On modifie un peu ce dataset. Dans notre version, les graphiques n'ont pas d'étiquettes de données montrant des valeurs exactes à côté des éléments du graphique, comme des barres ou des lignes. Au lieu de ça, le modèle doit trouver ces valeurs en regardant les graphiques, en utilisant des indices comme la hauteur des barres et les étiquettes sur les axes. On fait ça pour tester si la performance des modèles de langage dépend d'étiquettes claires ou s'ils peuvent travailler à partir d'indices visuels. Pour faire cette version, on a utilisé un outil appelé Matplotlib et on a enlevé les étiquettes de données tout en laissant le reste inchangé. Parmi les 1509 images de graphiques qu'on a examinées, 1340 ont été modifiées avec succès, tandis que 169 images n'ont pas été utilisées car elles manquaient de métadonnées importantes.

Vérification des Faits avec des Graphiques

Pour une autre partie de notre étude, on a utilisé le dataset ChartFC. Ce dataset est conçu de sorte que chaque entrée ait une affirmation clairement exprimée en mots, une image de graphique associée, et une étiquette qui indique si le graphique 'soutient' ou 'contredit' l'affirmation. On regarde les modèles de langage dans le jeu de test de ce dataset, qui contient 885 exemples qui soutiennent les affirmations et 706 qui les contredisent. Le dataset se compose principalement de graphiques à barres, qui peuvent être soit horizontaux soit verticaux.

Étude de Résumé de Graphiques

Dans notre travail sur le résumé de graphiques, on utilise le benchmark Chart-to-Text. Ce benchmark se compose de deux principaux datasets : Statista et Pew. Chaque exemple dans les deux datasets a une image de graphique, un tableau de données sous-jacent, un titre de graphique, et un résumé écrit par une personne. Pour nos expériences, on utilise l'ensemble complet de tests des deux datasets, qui inclut 1,393 échantillons de Pew et 5,222 échantillons de Statista.

Tâche de Question-Réponse Ouverte sur Graphiques

Pour voir comment les modèles de langage performent sur des questions ouvertes sur les graphiques, on utilise le dataset OpenCQA. Ce dataset contient cinq types de graphiques : barres, lignes, aires, nuages de points, et camemberts. Dans nos expériences, on prend le jeu de test, qui a 1159 graphiques avec 1159 paires question-réponse.

Quatre Niveaux de Sémantique

Pour évaluer les modèles à quatre niveaux sémantiques, on utilise des graphiques du dataset ChartQA et on sélectionne 50 exemples pour les niveaux 1, 2 et 3, et 150 exemples pour le niveau 4.

Résultats d'Évaluation

Métriques de Performance

On évalue différents modèles sur le dataset OpenCQA. Des scores plus élevés sont mieux, tandis que des scores plus bas sont mieux pour certaines métriques.

Modèle	Métrique 1	Métrique 2	Métrique 3	Métrique 4
Gemini	52.04	38.53	13.51%
GPT-4V	57.51	20.52	36.99%

Précision Détendue

Les résultats de ChartQA montrent comment les modèles ont performé sur les jeux de test ChartQA réguliers et modifiés. La baisse de performance par rapport aux données standards de ChartQA est également notée.

Dataset	Modèle	Performance 1	Performance 2
Pew	Gemini	-0.3	1.79
Statista	GPT-4V	-0.3	1.34

Construction de Prompts

Pour trouver les meilleurs prompts pour les modèles, on a essayé plein de stratégies et on a choisi celle qui donnait des résultats constants. Dans l'expérience PAL en zéro-shot, on a créé un prompt demandant au modèle de rédiger un script Python qui produit la réponse finale lorsqu'il est exécuté. Pour le test des 4 niveaux de sémantique, on a écrit des questions spécifiques à chaque niveau sémantique pour voir à quel point les modèles peuvent identifier différents niveaux de signification dans l'image du graphique.

Exemples de Prompts Utilisés

Exemples de Tâches :

ChartQA
- Prompt CoT : Étant donné l'image du graphique et une question, génère une réponse.
- Prompt PAL : Crée un script Python pour la question d'entrée.
Sémantique de Niveau 4
- Niveau 1 : Questions sur le type de graphique, les étiquettes des axes, les significations des couleurs, etc.
- Niveau 2 : Questions sur les valeurs maximales et minimales, les valeurs aberrantes, etc.
- Niveau 3 : Questions sur les tendances ou les motifs dans le graphique.
- Niveau 4 : Analyser le graphique en un paragraphe.
Prompt de QA Ouverte sur Graphique : Fournissez une réponse à la question suivante basée sur le graphique fourni.
Prompt de Résumé de Graphique : Résumez le graphique en mettant l'accent sur les tendances et les points de données clés.
Prompt de Vérification des Faits avec des Graphiques : Déterminez si l'affirmation d'entrée est soutenue par le graphique.

Résultats Expérimentaux Supplémentaires

Ici, on montre plus de détails de nos évaluations automatiques sur trois datasets : Chart-to-Text, OpenCQA, et le benchmark ChartQA modifié.

Tableaux de Performance

On inclut des tableaux qui représentent les performances des modèles sur diverses métriques pour différents datasets. Un exemple montrerait comment chaque modèle a performé sur le dataset Chart-to-Text.

Exemples de Sorties

On présente aussi des exemples de réponses de différents modèles à des questions spécifiques du jeu de test ChartQA, avec des réponses correctes et incorrectes.

Résultats d'Évaluation Sémantique

Évaluation de Niveau 1

Au niveau 1, les modèles répondent à des questions simples comme quel type de graphique c'est et quelles sont les plages des axes. Par exemple, si on leur demande le type de graphique, un modèle pourrait simplement dire "graphique à barres" tandis qu'un autre pourrait le décrire plus en détail.

Évaluation de Niveau 2

Au niveau 2, les modèles doivent identifier les plages et les valeurs numériques. Par exemple, ils pourraient indiquer quel axe a des valeurs maximales et quelles sont ces valeurs.

Évaluation de Niveau 3

Dans les évaluations de niveau 3, les modèles décrivent les tendances observées dans les graphiques. Ils devraient être capables de noter les tendances à la hausse ou à la baisse en fonction des données présentées dans les graphiques.

Évaluation de Niveau 4

Enfin, au niveau 4, les modèles fournissent une analyse plus profonde des graphiques. Ils devraient être capables de discuter des implications des données, de comparer des régions ou des groupes, et éventuellement de suggérer des raisons pour ce qu'ils voient.

Erreurs Courantes et Hallucinations

Lors des tests, on note des erreurs courantes et des hallucinations dans les sorties des modèles. Parfois, les modèles font des erreurs sur les couleurs, les tendances, ou des points de données spécifiques. On catégorise ces erreurs en réponses subjectives, contradictions, et informations inventées.

Conclusion

En résumé, on a analysé comment les modèles de langage peuvent interpréter les données des graphiques de différentes manières, de l'identification simple à l'analyse détaillée. Cette étude nous permet d'évaluer leurs capacités et les domaines nécessitant des améliorations, surtout dans le contexte de l'interprétation des données visuelles.

Travaux Futurs

Pour aller de l'avant, on vise à affiner la manière dont les modèles traitent et analysent les données graphiques, à se concentrer sur une communication plus claire des résultats, et à améliorer leur précision dans la production de résumés et de réponses basées sur des informations visuelles.

Évaluation des modèles de langue avec des données de graphiques

Cette étude examine comment les modèles interprètent les données des graphiques et leur performance sur différentes tâches.

Vérification des Faits avec des Graphiques

Étude de Résumé de Graphiques

Tâche de Question-Réponse Ouverte sur Graphiques

Quatre Niveaux de Sémantique

Résultats d'Évaluation

Métriques de Performance

Précision Détendue

Construction de Prompts

Exemples de Prompts Utilisés

Résultats Expérimentaux Supplémentaires

Tableaux de Performance

Exemples de Sorties

Résultats d'Évaluation Sémantique

Évaluation de Niveau 1

Évaluation de Niveau 2

Évaluation de Niveau 3

Évaluation de Niveau 4

Erreurs Courantes et Hallucinations

Conclusion

Travaux Futurs

Liens de référence

Sujets référencés

Évaluation des modèles de langue avec des données de graphiques

Cette étude examine comment les modèles interprètent les données des graphiques et leur performance sur différentes tâches.

#Vérification des Faits avec des Graphiques

#Étude de Résumé de Graphiques

#Tâche de Question-Réponse Ouverte sur Graphiques

#Quatre Niveaux de Sémantique

#Résultats d'Évaluation

#Métriques de Performance

#Précision Détendue

#Construction de Prompts

#Exemples de Prompts Utilisés

#Résultats Expérimentaux Supplémentaires

#Tableaux de Performance

#Exemples de Sorties

#Résultats d'Évaluation Sémantique

#Évaluation de Niveau 1

#Évaluation de Niveau 2

#Évaluation de Niveau 3

#Évaluation de Niveau 4

#Erreurs Courantes et Hallucinations

#Conclusion

#Travaux Futurs

Liens de référence

Sujets référencés

Vérification des Faits avec des Graphiques

Étude de Résumé de Graphiques

Tâche de Question-Réponse Ouverte sur Graphiques

Quatre Niveaux de Sémantique

Résultats d'Évaluation

Métriques de Performance

Précision Détendue

Construction de Prompts

Exemples de Prompts Utilisés

Résultats Expérimentaux Supplémentaires

Tableaux de Performance

Exemples de Sorties

Résultats d'Évaluation Sémantique

Évaluation de Niveau 1

Évaluation de Niveau 2

Évaluation de Niveau 3

Évaluation de Niveau 4

Erreurs Courantes et Hallucinations

Conclusion

Travaux Futurs