Nouveau dataset chinois pour la génération de texte à partir de données
Un nouvel ensemble de données améliore la compréhension des données structurées grâce à des descriptions en langage naturel.
― 8 min lire
Table des matières
Dans le domaine de la Génération de texte à partir de données, l'objectif est de créer des Descriptions en langage naturel basées sur des données structurées, comme des tableaux ou des bases de données. Ce processus est important parce qu'il aide les gens à comprendre et à utiliser des informations qui sont généralement stockées dans un format complexe. Beaucoup de jeux de données existants pour cette tâche ont plusieurs problèmes. Par exemple, certains grands ensembles de données sont remplis de données incorrectes ou non pertinentes, tandis que les petits ensembles de données qui fournissent des informations pratiques sont souvent limités en taille. En plus, la plupart des ensembles de données se concentrent fortement sur l'anglais, laissant moins d'attention aux autres langues.
Pour aborder ces problèmes, nous introduisons un nouvel ensemble de données chinois de réponse à séquence. Cet ensemble de données vise à créer des descriptions textuelles qui répondent à des réponses spécifiques dans un système appelé TableQA, qui est conçu pour interagir avec les utilisateurs à travers des questions et des requêtes SQL. En comblant le fossé entre les données d'entrée structurées et la sortie textuelle souhaitée, nous espérons améliorer l'efficacité de la génération de texte à partir de données dans des applications réelles.
Contexte
La génération de texte à partir de données aide à fournir des résumés clairs des données d'entrée, rendant l'information complexe plus accessible. Elle a été appliquée à diverses tâches, y compris la génération de rapports à partir de bases de données, la synthèse de tableaux, et plus encore. De nombreux ensembles de données ont été développés pour soutenir ce domaine de recherche, mais ils viennent avec des limitations.
Un problème majeur est que les grands ensembles de données incluent souvent beaucoup de bruit, ce qui fait référence à des informations non pertinentes ou inexactes. Par exemple, certains ensembles de données ne représentent pas efficacement des scénarios du monde réel. D'un autre côté, les ensembles de données qui reflètent des situations pratiques tendent à être petits, ce qui peut rendre difficile l'entraînement de modèles efficaces. En outre, la plupart des ensembles de données existants se concentrent principalement sur l'anglais, ce qui limite la capacité à développer des solutions dans d'autres langues, notamment le chinois.
Solution Proposée
Pour combler ces lacunes, nous présentons un nouvel ensemble de données chinois à grande échelle et de haute qualité. Notre ensemble de données vise à collecter des paires SQL-table et à les annoter avec des descriptions en langage naturel. Cela améliorera non seulement la génération de texte à partir de données existante, mais le rendra également plus applicable à des scénarios du monde réel.
Construction de l’Ensemble de Données
La construction de notre ensemble de données implique deux étapes principales : la collecte de paires SQL-table et leur annotation.
Collecte de SQL-Table : Nous utilisons un grand ensemble de données existant appelé DuSQL, qui comprend une variété de requêtes SQL pertinentes pour des applications réelles. En collectant des paires SQL-table à partir de DuSQL, nous nous assurons que les données sont ancrées dans une utilisation pratique. De plus, nous construisons un pipeline de collecte de données automatique pour rassembler plus de paires SQL-table à partir de diverses sources en ligne, ce qui aide à augmenter la taille de l'ensemble de données.
Annotation des Données : Après avoir rassemblé les paires SQL-table, nous employons des annotateurs pour rédiger des descriptions en langage naturel qui résument le contenu des tableaux tout en s'alignant également sur les requêtes SQL. Nous nous assurons que les descriptions sont fluides, logiquement cohérentes, et couvrent les aspects pertinents des données d'entrée.
Transformation Graphique Unifiée
Étant donné que les requêtes SQL et les tableaux sont structurés différemment, nous avons besoin d'un moyen efficace de connecter ces deux types de données. Pour cela, nous introduisons une méthode appelée Transformation Graphique Unifiée (UGT).
Représentation Graphique
La première étape de l’UGT est de convertir la requête SQL d'entrée et le tableau correspondant en graphes. Pour la requête SQL, nous la modélisons comme une structure d'arbre. Pour le tableau, nous créons un graphe où chaque en-tête de colonne et chaque cellule est un nœud. Nous connectons les en-têtes de colonne à leurs nœuds de cellule respectifs et connectons également les nœuds de cellules dans la même ligne.
Ensuite, nous établissons des connexions entre les nœuds dans le graphe SQL et le graphe de tableau qui correspondent aux mêmes colonnes. Cette représentation graphique unifiée aide à relier les deux morceaux d'informations et nous permet d'appliquer efficacement des techniques basées sur des graphes pour la génération de texte à partir de données.
Cadre du Modèle
Notre cadre de modèle exploite la représentation graphique unifiée pour générer des descriptions textuelles. Nous utilisons une combinaison d'architecture de transformateur et de réseaux neuronaux graphiques (GNN) pour traiter les données d'entrée.
Encodeurs de Nœuds Locaux et Globaux
Notre modèle emploie deux types d'encodeurs : l'Encodeur de Nœud Global (G-NE) et l'Encodeur de Nœud Local (L-NE). Le G-NE se concentre sur les relations globales entre les nœuds dans le graphe, tandis que le L-NE cible les connexions locales. En capturant simultanément les interactions globales et locales, notre modèle est mieux équipé pour comprendre la structure et les relations au sein des données.
Évaluation Expérimentale
Pour tester l'efficacité de notre ensemble de données et de notre méthode proposée, nous menons une série d'expériences. Ces expériences évaluent la performance de notre modèle dans la génération de descriptions en langage naturel à partir d'entrées SQL et de tableaux. Nous comparons notre approche aux modèles existants dans le domaine pour explorer ses forces et ses faiblesses.
Métriques d'Évaluation
Nous appliquons diverses métriques pour évaluer la qualité du texte généré, y compris les scores BLEU et ROUGE, qui mesurent la fluidité et la couverture de contenu. De plus, nous réalisons des évaluations humaines pour obtenir des informations sur la fluidité et la fidélité des descriptions générées.
Résultats et Analyse
Les résultats expérimentaux montrent que notre modèle surpasse significativement les références existantes. Nous observons plusieurs points clés de nos expériences :
Les modèles utilisant la représentation graphique unifiée montrent de meilleures performances, ce qui indique l'importance de maintenir l'information structurelle lors de la génération de texte.
Notre méthode excelle lorsqu'elle est confrontée à des requêtes complexes et à de plus grands tableaux, car elle utilise efficacement la structure graphique pour naviguer dans les données d'entrée.
Les évaluations humaines confirment la capacité du modèle à produire des descriptions fluides et logiquement cohérentes, bien que certains défis demeurent, notamment pour capturer pleinement les subtilités des requêtes SQL.
Importance de l’Ensemble de Données
Notre ensemble de données chinois de réponse à séquence représente un avancement significatif dans le domaine de la génération de texte à partir de données, en particulier dans les langues non anglaises. Ce travail jette les bases pour de futures recherches dans ce domaine et encourage le développement de jeux de données plus diversifiés à travers les langues.
En abordant les limitations actuelles des ensembles de données existants, nous espérons favoriser l'innovation et les améliorations de la technologie qui relie des données structurées à un texte compréhensible par l'homme. Cela peut conduire à des applications plus pratiques dans des scénarios du monde réel, rendant l'information plus accessible aux utilisateurs de différentes langues.
Conclusion
En résumé, nous introduisons un ensemble de données chinois à grande échelle et de haute qualité, accompagné d'une méthode innovante pour générer des descriptions en langage naturel à partir de requêtes SQL structurées et de tableaux. En abordant les défis existants dans le domaine de la génération de texte à partir de données, nous visons à améliorer l'efficacité et l'applicabilité de cette technologie à travers les langues. Notre recherche contribue à une meilleure compréhension de la manière de modéliser les complexités des données d'entrée structurées et de les transformer en sorties textuelles significatives, ouvrant la voie à de futurs avancements dans ce domaine.
Titre: CATS: A Pragmatic Chinese Answer-to-Sequence Dataset with Large Scale and High Quality
Résumé: There are three problems existing in the popular data-to-text datasets. First, the large-scale datasets either contain noise or lack real application scenarios. Second, the datasets close to real applications are relatively small in size. Last, current datasets bias in the English language while leaving other languages underexplored. To alleviate these limitations, in this paper, we present CATS, a pragmatic Chinese answer-to-sequence dataset with large scale and high quality. The dataset aims to generate textual descriptions for the answer in the practical TableQA system. Further, to bridge the structural gap between the input SQL and table and establish better semantic alignments, we propose a Unified Graph Transformation approach to establish a joint encoding space for the two hybrid knowledge resources and convert this task to a graph-to-text problem. The experiment results demonstrate the effectiveness of our proposed method. Further analysis on CATS attests to both the high quality and challenges of the dataset.
Auteurs: Liang Li, Ruiying Geng, Chengyang Fang, Bing Li, Can Ma, Rongyu Cao, Binhua Li, Fei Huang, Yongbin Li
Dernière mise à jour: 2023-06-20 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.11477
Source PDF: https://arxiv.org/pdf/2306.11477
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.