Générer des jeux de données en langage naturel à partir des spécifications Vega-Lite
Un cadre pour créer des ensembles de données linguistiques variés pour la visualisation des données.
― 6 min lire
Table des matières
- Contexte
- Problématique
- L'importance de la diversité dans les ensembles de données en langage naturel
- Aperçu du cadre
- Spécifications Vega-Lite
- Collecte de Données
- Génération d'ensembles de données en langage naturel
- Étape 1 : Prétraitement
- Étape 2 : Utilisation de la Découverte Guidée
- Étape 3 : Génération de légendes
- Étape 4 : Création d'énoncés et de questions
- Amélioration de la diversité syntaxique
- Codage qualitatif automatique
- Validation expérimentale
- Résultats
- Discussion
- Limitations
- Travaux futurs
- Conclusion
- Références
- Source originale
- Liens de référence
Cet article parle d'un cadre qui génère des ensembles de données en langage naturel à partir de spécifications Vega-Lite. L'idée, c'est de faciliter le travail avec des visualisations de données en utilisant le langage naturel. Les méthodes traditionnelles pour interagir avec les données requièrent souvent des compétences techniques que beaucoup de gens n'ont pas. En utilisant le langage naturel, on veut offrir une manière plus intuitive d'interagir avec les données visuelles.
Contexte
Les Interfaces en Langage Naturel (ILN) sont en vogue parce qu'elles permettent aux utilisateurs d'interagir avec les données sans avoir à maîtriser des langages de programmation compliqués. C'est super utile pour ceux qui n'ont pas de compétences analytiques solides. Les ILN permettent aux utilisateurs de poser des questions et d'obtenir des infos directement à partir des données visuelles, rendant le processus plus convivial.
Problématique
Malgré les avantages des ILN, il manque des ensembles de données de haute qualité pour développer ces interfaces. Beaucoup d'ensembles de données existants manquent de Diversité et de complexité. Du coup, c'est compliqué de créer des ILN efficaces qui puissent répondre à un large éventail d'utilisateurs.
L'importance de la diversité dans les ensembles de données en langage naturel
La diversité dans les ensembles de données en langage naturel est cruciale. Différents utilisateurs s'expriment de manières différentes, selon leur parcours et leur expertise. Si l'ensemble de données manque de variété, l'ILN aura du mal à comprendre et à répondre correctement aux questions des utilisateurs.
Aperçu du cadre
On propose un cadre qui utilise un Modèle de Langage de Grande Taille (MLGT) pour générer des ensembles de données en langage naturel diversifiés à partir de spécifications Vega-Lite. En utilisant deux techniques clés, on peut améliorer la qualité et la diversité des ensembles de données générés.
Découverte guidée : Cela consiste à inciter le MLGT avec des questions spécifiques pour l'encourager à explorer plus en profondeur divers aspects des données.
Paraphrase Basée sur le Score : Cette méthode permet au MLGT de reformuler des phrases dans différents styles, ce qui améliore la diversité syntaxique du langage généré.
Spécifications Vega-Lite
Vega-Lite est un format de spécification utilisé pour créer des visualisations. Il permet aux utilisateurs de définir comment les données sont représentées graphiquement. Les spécifications Vega-Lite sont structurées de manière à pouvoir être facilement manipulées, ce qui les rend adaptées à notre cadre.
Collecte de Données
On a collecté 1 981 spécifications Vega-Lite provenant de différentes sources. Cette grande collection aide à s'assurer que notre cadre peut fonctionner efficacement sur différents types et complexités de visualisations.
Génération d'ensembles de données en langage naturel
Le cœur de notre cadre est le processus de génération d'ensembles de données en langage naturel en utilisant les spécifications Vega-Lite collectées. On va décomposer ça en plusieurs étapes :
Étape 1 : Prétraitement
Avant d'utiliser les spécifications Vega-Lite, on doit les prétraiter. Ça implique de nettoyer les données pour s'assurer qu'elles sont dans un format adéquat pour le MLGT.
Étape 2 : Utilisation de la Découverte Guidée
À cette étape, on incite le MLGT à réfléchir de manière critique sur les graphiques et leurs composants. En posant des questions spécifiques, on guide le modèle pour qu'il se concentre sur des aspects importants des données, ce qui donne des résultats plus précis et informatifs.
Étape 3 : Génération de légendes
On génère des légendes de niveau 1 et niveau 2 pour chaque graphique. Les légendes de niveau 1 donnent des infos basiques sur le graphique, tandis que celles de niveau 2 plongent plus profondément dans les détails statistiques et les relations au sein des données.
Étape 4 : Création d'énoncés et de questions
On génère aussi différents types d'énoncés et de questions que les utilisateurs pourraient poser sur les graphiques. Ça inclut des commandes, des requêtes et des questions, ce qui améliore l'utilisabilité de notre cadre.
Amélioration de la diversité syntaxique
Pour améliorer la gamme d'expressions générées par le cadre, on utilise la paraphrase basée sur le score. Cette méthode génère plusieurs variations de chaque phrase, permettant une interaction plus naturelle.
Codage qualitatif automatique
On utilise un processus de codage pour analyser la diversité des phrases générées. Cette étape est cruciale pour s'assurer que notre cadre produit un large éventail de langage.
Validation expérimentale
On évalue la performance de notre cadre à travers une série d'expériences. On évalue sa capacité à générer des ensembles de données NL de haute qualité qui sont robustes en précision et en diversité.
Résultats
Nos expériences montrent que notre cadre génère de manière fiable des ensembles de données en langage naturel avec une grande précision. Les résultats indiquent que les ensembles de données générés surpassent les références existantes en diversité syntaxique.
Discussion
Les résultats soulignent l'importance d'utiliser un cadre qui combine des MLGT avec des spécifications structurées comme Vega-Lite. En tirant parti des forces des deux, on peut créer des ILN efficaces pour la visualisation des données.
Limitations
Bien que notre cadre ait du potentiel, certaines limitations subsistent. Par exemple, la précision des résultats générés peut varier selon la complexité des spécifications Vega-Lite originales. De plus, certains types d'interactions peuvent ne pas être complètement capturés.
Travaux futurs
Pour pallier ces limitations, on prévoit d'explorer d'autres méthodes pour incorporer des connaissances externes. Cela pourrait inclure l'utilisation de l'apport humain pour affiner davantage les résultats générés. On vise aussi à développer des stratégies pour augmenter la quantité et la qualité des spécifications Vega-Lite.
Conclusion
En conclusion, le cadre proposé représente une avancée significative pour rendre la visualisation des données plus accessible à un plus large public. En générant des ensembles de données en langage naturel diversifiés à partir de spécifications Vega-Lite, on peut améliorer l'efficacité des ILN et encourager un plus grand engagement avec les données.
Références
La section des références inclurait normalement une liste de sources et de lectures supplémentaires. Cependant, comme demandé, cette section n'a pas été incluse.
Titre: Natural Language Dataset Generation Framework for Visualizations Powered by Large Language Models
Résumé: We introduce VL2NL, a Large Language Model (LLM) framework that generates rich and diverse NL datasets using only Vega-Lite specifications as input, thereby streamlining the development of Natural Language Interfaces (NLIs) for data visualization. To synthesize relevant chart semantics accurately and enhance syntactic diversity in each NL dataset, we leverage 1) a guided discovery incorporated into prompting so that LLMs can steer themselves to create faithful NL datasets in a self-directed manner; 2) a score-based paraphrasing to augment NL syntax along with four language axes. We also present a new collection of 1,981 real-world Vega-Lite specifications that have increased diversity and complexity than existing chart collections. When tested on our chart collection, VL2NL extracted chart semantics and generated L1/L2 captions with 89.4% and 76.0% accuracy, respectively. It also demonstrated generating and paraphrasing utterances and questions with greater diversity compared to the benchmarks. Last, we discuss how our NL datasets and framework can be utilized in real-world scenarios. The codes and chart collection are available at https://github.com/hyungkwonko/chart-llm.
Auteurs: Hyung-Kwon Ko, Hyeon Jeon, Gwanmo Park, Dae Hyun Kim, Nam Wook Kim, Juho Kim, Jinwook Seo
Dernière mise à jour: 2024-01-21 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2309.10245
Source PDF: https://arxiv.org/pdf/2309.10245
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.bing.com
- https://docs.google.com/spreadsheets/d/1AcNZhyRNcm4KSkYYzVH7djOuoGrV-wJeriIvR1_eMts/edit#gid=1759873666
- https://www.studysmarter.co.uk/explanations/english/global-english/guided-discovery/
- https://github.com/hyungkwonko/chart-llm
- https://dl.acm.org/ccs.cfm
- https://dl.acm.org/doi/pdf/10.1145/3544548.3580688
- https://arxiv.org/pdf/2306.04140.pdf
- https://vis.csail.mit.edu/pubs/vistext.pdf
- https://s3.eu-central-1.amazonaws.com/eu-st01.ext.exlibrisgroup.com/44SUR_INST/storage/alma/F6/7C/DA/30/E2/E8/3B/C3/CC/7E/17/DC/7B/74/4B/86/Tenenbaum%202011%20Does%20Discovery-Based%20Instruction%20Enhance%20Learning.pdf?response-content-type=application%2Fpdf&X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Date=20230911T090245Z&X-Amz-SignedHeaders=host&X-Amz-Expires=119&X-Amz-Credential=AKIAJN6NPMNGJALPPWAQ%2F20230911%2Feu-central-1%2Fs3%2Faws4_request&X-Amz-Signature=d3ac4228c06afa41132812dac749ae512744ad5b42b89985bc966174f631c916
- https://platform.openai.com/docs/models/gpt-4
- https://arxiv.org/abs/2309.00267
- https://journals.sagepub.com/doi/pdf/10.3102/00346543068002179
- https://www.csl.mtu.edu/cs5631.ck/common/05-Marks-Channels.pdf
- https://docs.github.com/en/rest
- https://vega.github.io/schema/vega-lite/
- https://github.com/vega/schema
- https://vega.github.io/vega-lite/docs
- https://hyungkwonko.info/chart-llm-data