Présentation de SciGraphQA : un nouveau jeu de données pour les graphes scientifiques
SciGraphQA offre un super dataset pour comprendre les graphes scientifiques grâce au question-réponse.
― 7 min lire
Table des matières
Dans le monde de la science, les articles contiennent souvent des Graphiques qui illustrent des données importantes. Ces graphiques peuvent être complexes et demandent beaucoup de temps et d'efforts pour être compris. Beaucoup d'étudiants et de chercheurs galèrent à interpréter les infos présentées dans ces graphiques. Pour y remédier, on a développé SciGraphQA, un gros dataset conçu pour répondre aux questions sur des graphiques scientifiques.
SciGraphQA est bien plus gros que les datasets précédents, ce qui en fait une ressource précieuse pour les chercheurs. Il a été créé en utilisant plus de 290 000 articles des domaines de l'informatique et de l'apprentissage automatique, en se concentrant sur les travaux publiés entre 2010 et 2020. Grâce à une technologie IA avancée, on a pu générer des Dialogues consistant en questions et réponses sur les graphiques de ces articles.
Le but de ce dataset est non seulement d'aider les gens à mieux comprendre les graphiques, mais aussi de fournir un benchmark pour évaluer les modèles capables de gérer ce type de données. SciGraphQA inclut un contexte riche pour chaque question, combinant titres, résumés, et paragraphes spécifiques des articles. Nos Évaluations avec un modèle de langage populaire ont noté la qualité des réponses très hautement, indiquant que le dataset remplit bien son objectif.
Related Work
Il y a plusieurs datasets axés sur la réponse à des questions visuelles, surtout concernant les graphiques et les diagrammes. Beaucoup des datasets plus anciens reposaient sur des données synthétiques, où les questions étaient créées à l'aide de modèles fixes. Cela limitait souvent la variété et la profondeur des questions posées.
Des initiatives plus récentes, comme ChartQA, ont cherché à améliorer la qualité des données en utilisant de vrais graphiques et des annotateurs humains. Cependant, ces datasets ont encore des limites, surtout dans leur nature synthétique et les types de questions restreints.
SciGraphQA se démarque de ces autres efforts en utilisant de vrais graphiques académiques plutôt que des synthétiques. Ça le rend plus applicable à des scénarios réels. Les questions générées sont plus diversifiées et ouvertes, offrant une représentation plus proche de la manière dont les scientifiques interagiraient avec leurs données.
Dataset Construction
Créer le dataset SciGraphQA a impliqué plusieurs étapes. Au départ, on a élargi un dataset précédent appelé SciCap+ qui incluait des légendes et des textes d'illustrations scientifiques. On voulait créer une expérience de question-réponse plus interactive.
Pour ce faire, on a rassemblé des titres, des résumés, et d'autres textes pertinents issus d'articles académiques. Ces éléments ont servi de contexte pour générer des dialogues multi-tours. On a utilisé un modèle IA appelé Palm-2 pour créer ces dialogues, qui pouvaient poser et Répondre à des questions complexes sur le contenu des graphiques.
Grâce à ça, on a pu filtrer les réponses de moindre qualité et se concentrer sur les questions les plus pertinentes pour les graphiques. Le dataset final contient environ 295 000 entrées avec des questions et des réponses de haute qualité, montrant une large gamme d'inquiries et de questions de suivi qui ressemblent à une conversation naturelle.
Evaluation of Language Models
On a voulu évaluer combien les grands modèles de langage existants pouvaient bien gérer les types de questions posées dans SciGraphQA. La performance de ces modèles varie souvent en fonction de leur conception et des données de formation. On a évalué plusieurs modèles bien connus, y compris LLaVA et BLIP-2.
Dans notre évaluation zéro-shot, où les modèles devaient répondre à des questions sans formation préalable sur le dataset, on a trouvé que tous les modèles avaient des difficultés dans une certaine mesure. Cependant, LLaVA-13B a produit les meilleurs résultats lorsqu'il a été évalué selon divers critères. En ajoutant des tableaux de données extraits des graphiques aux questions, on a encore pu améliorer les performances de LLaVA.
On a aussi affiné LLaVA pour voir si un entraînement direct sur SciGraphQA améliorerait ses résultats. Ce fine-tuning a été réussi, menant à une augmentation substantielle de l'exactitude par rapport aux évaluations zéro-shot.
Insights from the Evaluation
Nos évaluations ont mis en lumière des insights importants sur les capacités des grands modèles de langage actuels. Une constatation clé est que simplement augmenter la taille du modèle ne garantit pas de meilleures performances. La conception des modèles et la nature de leurs données d'entraînement sont tout aussi cruciales.
Par exemple, bien que des modèles plus grands comme LLaVA-13B aient mieux performé que des modèles plus petits, l'écart de performance n'était pas aussi large que prévu. Certains modèles, comme OpenFlamingo, avaient des optimisations uniques qui ont influencé leurs résultats. Ça indique que des facteurs comme la structure du modèle, les Jeux de données d'entraînement, et la tâche spécifique comptent beaucoup dans le succès d'un modèle.
Un point intéressant est que le fait d'augmenter les questions avec des données extraites des graphiques a notablement amélioré les performances, prouvant l'importance d'exploiter toutes les infos disponibles pour une meilleure compréhension.
Future Directions
En regardant vers l'avenir, SciGraphQA ouvre la porte à plein de possibilités excitantes pour la recherche et le développement futurs. Le dataset fournit une plateforme pour entraîner et tester des modèles qui doivent interagir avec des graphiques scientifiques.
Alors que les modèles continuent d'évoluer, on s'attend à une plus grande précision et à des capacités plus sophistiquées pour interpréter des données visuelles complexes. Il y a aussi des possibilités d'intégrer des techniques plus avancées, comme des modèles de segmentation, qui pourraient améliorer combien bien les modèles comprennent les relations au sein d'un graphique.
Un autre domaine à explorer est d'utiliser SciGraphQA pour améliorer les techniques d'évaluation. Actuellement, on s'appuie sur des métriques traditionnelles, mais il pourrait être utile de développer des évaluations plus nuancées qui tiennent compte de la nature conversationnelle de la réponse aux questions sur les graphiques.
Conclusion
En résumé, SciGraphQA est une avancée révolutionnaire pour améliorer la façon dont on comprend et interagit avec les graphiques scientifiques. En fournissant un dataset à grande échelle axé sur la réponse à des questions multi-tours, on offre aux chercheurs et développeurs une ressource précieuse pour faire avancer le domaine de la réponse à des questions visuelles.
Grâce à une construction et une évaluation soigneuses, SciGraphQA montre son potentiel à soutenir les modèles dans une meilleure compréhension des données complexes. Alors que de plus en plus de chercheurs utilisent ce dataset, on espère voir des avancées significatives dans la manière dont les machines interprètent les informations scientifiques visualisées dans des graphiques.
En rendant SciGraphQA public, on vise à encourager davantage de recherches et d'innovations dans ce domaine, comblant ainsi le fossé entre des données scientifiques complexes et les outils conçus pour nous aider à les comprendre.
Titre: SciGraphQA: A Large-Scale Synthetic Multi-Turn Question-Answering Dataset for Scientific Graphs
Résumé: In this work, we present SciGraphQA, a synthetic multi-turn question-answer dataset related to academic graphs. SciGraphQA is 13 times larger than ChartVQA, the previously largest chart-visual question-answering dataset. It is also the largest open-sourced chart VQA dataset with non-synthetic charts. To build our dataset, we selected 290,000 Computer Science or Machine Learning ArXiv papers published between 2010 and 2020, and then used Palm-2 to generate 295K samples of open-vocabulary multi-turn question-answering dialogues about the graphs. As context, we provided the text-only Palm-2 with paper title, abstract, paragraph mentioning the graph, and rich text contextual data from the graph itself, obtaining dialogues with an average 2.23 question-answer turns for each graph. We asked GPT-4 to assess the matching quality of our question-answer turns given the paper's context, obtaining an average rating of 8.7/10 on our 3K test set. We evaluated the 0-shot capability of the most popular MLLM models such as LLaVa, mPLUGowl, BLIP-2, and openFlamingo's on our dataset, finding LLaVA-13B being the most performant with a CIDEr score of 0.08. We further enriched the question prompts for LLAVA by including the serialized data tables extracted from the graphs using the DePlot model, boosting LLaVA's 0-shot CIDEr to 0.15. To verify the validity of our dataset, we also fine-tuned LLaVa using our dataset, reaching a substantially higher CIDEr score of 0.26. We anticipate further accuracy improvement by including segmentation mask tokens and leveraging larger LLM backbones coupled with emergent prompting techniques. Our code and data are open-sourced.
Auteurs: Shengzhi Li, Nima Tajbakhsh
Dernière mise à jour: 2023-08-07 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2308.03349
Source PDF: https://arxiv.org/pdf/2308.03349
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.