Présentation du jeu de données SynChart pour comprendre les graphiques
Un nouveau jeu de données pour améliorer les modèles de compréhension des graphiques et de la visualisation des données.
Mengchen Liu, Qixiu Li, Dongdong Chen, Dong Chen, Jianmin Bao, Yunsheng Li
― 5 min lire
Table des matières
Ces dernières années, l'utilisation des Modèles de langage, surtout les dernières versions, a beaucoup attiré l'attention. Ces modèles peuvent aider à créer des Étiquettes et des données pour des tâches impliquant plusieurs sortes d'informations, comme des Graphiques. Cependant, il n'est toujours pas clair comment créer des modèles avancés à partir de modèles de langage basiques. Cet article parle de la création d'un ensemble de données complet axé sur la compréhension des graphiques et comment cet ensemble peut aider à entraîner des modèles compétitifs.
Création de l'ensemble de données SynChart
Pour entraîner un modèle capable de bien comprendre les graphiques, on a besoin d'un grand ensemble de données varié. Cet ensemble, appelé SynChart, comprend environ 4 millions d'images de graphiques différents et plus de 75 millions d'étiquettes détaillées. Les étiquettes fournissent des infos comme des tableaux de données, des codes, des descriptions, et des paires de questions-réponses liées à chaque graphique.
Le processus de création de l'ensemble de données
Créer cet ensemble de données a impliqué plusieurs étapes :
Identifier les types de graphiques : Différents graphiques ont des buts différents. Notre première étape a été de déterminer quels sont les types de graphiques les plus courants. On a consulté divers ensembles de données existants et étiqueté les images, ce qui nous a aidés à nous concentrer sur les types de graphiques les plus populaires.
Générer des tableaux de données : Une fois les types de graphiques identifiés, on a créé des tableaux de données variés ressemblant à des scénarios réels. Cela a été fait pour s'assurer que les données soient pertinentes et utiles.
Création d'images de graphiques : Après avoir généré des tableaux de données, il fallait créer les graphiques eux-mêmes. On a utilisé divers outils de codage conçus pour dessiner des graphiques et on a développé du code pour produire les images. Cette étape incluait aussi la correction d'éventuelles erreurs dans le code pour que les graphiques s'affichent correctement.
Création de questions et réponses : Enfin, on a généré un ensemble de questions et réponses pour chaque graphique. Certaines questions étaient simples et nécessitaient une réponse courte, tandis que d'autres demandaient un raisonnement plus approfondi.
Entraînement du modèle
Une fois l'ensemble de données en main, on a entraîné un modèle spécifique pour travailler avec des graphiques. Ce modèle combine deux composants principaux :
- Un grand modèle de langage qui aide à comprendre et générer du texte et du code.
- Un encodeur visuel qui traite les images des graphiques.
On a réalisé l'entraînement en deux phases : pré-entraînement et post-entraînement. Pendant le pré-entraînement, on a utilisé les annotations initiales comprenant des tableaux de données et des descriptions. Dans la phase de post-entraînement, on s'est concentré sur l'utilisation des questions et réponses générées plus tôt.
Résultats et performances
Le modèle entraîné avec l'ensemble de données SynChart a très bien performé lors de tests conçus pour évaluer ses capacités de compréhension des graphiques, se rapprochant presque des performances de l'un des meilleurs modèles existants. Cette performance montre que notre ensemble de données est efficace pour entraîner des modèles dans ce domaine.
On a effectué plusieurs tests pour analyser comment les différents composants de l'ensemble de données ont contribué au succès du modèle. Les résultats ont montré que la qualité et la variété des données jouent un rôle significatif dans l'amélioration des performances du modèle.
Défis et solutions
Construire cet ensemble de données n'a pas été sans défis. On a dû faire face à des problèmes comme la collecte d'une gamme variée d'images de graphiques et l'obtention d'étiquettes de haute qualité. Voilà comment on a abordé ces défis :
Diversité des données : Il fallait s'assurer que l'ensemble de données couvre divers types de graphiques. En tirant parti de plusieurs sources et en utilisant aussi des outils pour synthétiser de nouveaux graphiques, on a réussi à obtenir une diversité adéquate.
Qualité des étiquettes : Il était crucial d'avoir des étiquettes de haute qualité associées à chaque image de graphique. On a mis en place un processus de révision minutieux pour vérifier l'exactitude des étiquettes et améliorer là où c'était nécessaire.
Conclusion
Le développement de l'ensemble de données SynChart marque une étape importante dans l'amélioration de notre capacité à créer et entraîner des modèles qui comprennent les données graphiques. En synthétisant des données à partir de modèles de langage, on a créé un ensemble de données à grande échelle qui répond non seulement aux besoins d'entraînement mais ouvre aussi la voie à d'autres recherches et avancées dans ce domaine.
En regardant vers l'avenir, on vise à élargir l'ensemble de données en incorporant plus de types de graphiques et en filtrant mieux les images pour améliorer la qualité globale. Cela aidera à créer des modèles encore plus capables qui peuvent servir dans diverses applications liées à la visualisation et à l'analyse des données.
En se concentrant sur des applications pratiques et un perfectionnement continu, on espère contribuer davantage au domaine de l'apprentissage automatique et de la science des données.
Titre: SynChart: Synthesizing Charts from Language Models
Résumé: With the release of GPT-4V(O), its use in generating pseudo labels for multi-modality tasks has gained significant popularity. However, it is still a secret how to build such advanced models from its base large language models (LLMs). This work explores the potential of using LLMs alone for data generation and develop competitive multi-modality models focusing on chart understanding. We construct a large-scale chart dataset, SynChart, which contains approximately 4 million diverse chart images with over 75 million dense annotations, including data tables, code, descriptions, and question-answer sets. We trained a 4.2B chart-expert model using this dataset and achieve near-GPT-4O performance on the ChartQA task, surpassing GPT-4V.
Auteurs: Mengchen Liu, Qixiu Li, Dongdong Chen, Dong Chen, Jianmin Bao, Yunsheng Li
Dernière mise à jour: 2024-09-24 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2409.16517
Source PDF: https://arxiv.org/pdf/2409.16517
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.