Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Nouveau dataset chinois pour la génération de texte à partir de données

Un nouvel ensemble de données améliore la compréhension des données structurées grâce à des descriptions en langage naturel.

― 8 min lire


Jeu de données chinoisJeu de données chinoispour Data-to-Textdonnées.génération de texte à partir deSolution innovante pour les défis de
Table des matières

Dans le domaine de la Génération de texte à partir de données, l'objectif est de créer des Descriptions en langage naturel basées sur des données structurées, comme des tableaux ou des bases de données. Ce processus est important parce qu'il aide les gens à comprendre et à utiliser des informations qui sont généralement stockées dans un format complexe. Beaucoup de jeux de données existants pour cette tâche ont plusieurs problèmes. Par exemple, certains grands ensembles de données sont remplis de données incorrectes ou non pertinentes, tandis que les petits ensembles de données qui fournissent des informations pratiques sont souvent limités en taille. En plus, la plupart des ensembles de données se concentrent fortement sur l'anglais, laissant moins d'attention aux autres langues.

Pour aborder ces problèmes, nous introduisons un nouvel ensemble de données chinois de réponse à séquence. Cet ensemble de données vise à créer des descriptions textuelles qui répondent à des réponses spécifiques dans un système appelé TableQA, qui est conçu pour interagir avec les utilisateurs à travers des questions et des requêtes SQL. En comblant le fossé entre les données d'entrée structurées et la sortie textuelle souhaitée, nous espérons améliorer l'efficacité de la génération de texte à partir de données dans des applications réelles.

Contexte

La génération de texte à partir de données aide à fournir des résumés clairs des données d'entrée, rendant l'information complexe plus accessible. Elle a été appliquée à diverses tâches, y compris la génération de rapports à partir de bases de données, la synthèse de tableaux, et plus encore. De nombreux ensembles de données ont été développés pour soutenir ce domaine de recherche, mais ils viennent avec des limitations.

Un problème majeur est que les grands ensembles de données incluent souvent beaucoup de bruit, ce qui fait référence à des informations non pertinentes ou inexactes. Par exemple, certains ensembles de données ne représentent pas efficacement des scénarios du monde réel. D'un autre côté, les ensembles de données qui reflètent des situations pratiques tendent à être petits, ce qui peut rendre difficile l'entraînement de modèles efficaces. En outre, la plupart des ensembles de données existants se concentrent principalement sur l'anglais, ce qui limite la capacité à développer des solutions dans d'autres langues, notamment le chinois.

Solution Proposée

Pour combler ces lacunes, nous présentons un nouvel ensemble de données chinois à grande échelle et de haute qualité. Notre ensemble de données vise à collecter des paires SQL-table et à les annoter avec des descriptions en langage naturel. Cela améliorera non seulement la génération de texte à partir de données existante, mais le rendra également plus applicable à des scénarios du monde réel.

Construction de l’Ensemble de Données

La construction de notre ensemble de données implique deux étapes principales : la collecte de paires SQL-table et leur annotation.

  1. Collecte de SQL-Table : Nous utilisons un grand ensemble de données existant appelé DuSQL, qui comprend une variété de requêtes SQL pertinentes pour des applications réelles. En collectant des paires SQL-table à partir de DuSQL, nous nous assurons que les données sont ancrées dans une utilisation pratique. De plus, nous construisons un pipeline de collecte de données automatique pour rassembler plus de paires SQL-table à partir de diverses sources en ligne, ce qui aide à augmenter la taille de l'ensemble de données.

  2. Annotation des Données : Après avoir rassemblé les paires SQL-table, nous employons des annotateurs pour rédiger des descriptions en langage naturel qui résument le contenu des tableaux tout en s'alignant également sur les requêtes SQL. Nous nous assurons que les descriptions sont fluides, logiquement cohérentes, et couvrent les aspects pertinents des données d'entrée.

Transformation Graphique Unifiée

Étant donné que les requêtes SQL et les tableaux sont structurés différemment, nous avons besoin d'un moyen efficace de connecter ces deux types de données. Pour cela, nous introduisons une méthode appelée Transformation Graphique Unifiée (UGT).

Représentation Graphique

La première étape de l’UGT est de convertir la requête SQL d'entrée et le tableau correspondant en graphes. Pour la requête SQL, nous la modélisons comme une structure d'arbre. Pour le tableau, nous créons un graphe où chaque en-tête de colonne et chaque cellule est un nœud. Nous connectons les en-têtes de colonne à leurs nœuds de cellule respectifs et connectons également les nœuds de cellules dans la même ligne.

Ensuite, nous établissons des connexions entre les nœuds dans le graphe SQL et le graphe de tableau qui correspondent aux mêmes colonnes. Cette représentation graphique unifiée aide à relier les deux morceaux d'informations et nous permet d'appliquer efficacement des techniques basées sur des graphes pour la génération de texte à partir de données.

Cadre du Modèle

Notre cadre de modèle exploite la représentation graphique unifiée pour générer des descriptions textuelles. Nous utilisons une combinaison d'architecture de transformateur et de réseaux neuronaux graphiques (GNN) pour traiter les données d'entrée.

Encodeurs de Nœuds Locaux et Globaux

Notre modèle emploie deux types d'encodeurs : l'Encodeur de Nœud Global (G-NE) et l'Encodeur de Nœud Local (L-NE). Le G-NE se concentre sur les relations globales entre les nœuds dans le graphe, tandis que le L-NE cible les connexions locales. En capturant simultanément les interactions globales et locales, notre modèle est mieux équipé pour comprendre la structure et les relations au sein des données.

Évaluation Expérimentale

Pour tester l'efficacité de notre ensemble de données et de notre méthode proposée, nous menons une série d'expériences. Ces expériences évaluent la performance de notre modèle dans la génération de descriptions en langage naturel à partir d'entrées SQL et de tableaux. Nous comparons notre approche aux modèles existants dans le domaine pour explorer ses forces et ses faiblesses.

Métriques d'Évaluation

Nous appliquons diverses métriques pour évaluer la qualité du texte généré, y compris les scores BLEU et ROUGE, qui mesurent la fluidité et la couverture de contenu. De plus, nous réalisons des évaluations humaines pour obtenir des informations sur la fluidité et la fidélité des descriptions générées.

Résultats et Analyse

Les résultats expérimentaux montrent que notre modèle surpasse significativement les références existantes. Nous observons plusieurs points clés de nos expériences :

  1. Les modèles utilisant la représentation graphique unifiée montrent de meilleures performances, ce qui indique l'importance de maintenir l'information structurelle lors de la génération de texte.

  2. Notre méthode excelle lorsqu'elle est confrontée à des requêtes complexes et à de plus grands tableaux, car elle utilise efficacement la structure graphique pour naviguer dans les données d'entrée.

  3. Les évaluations humaines confirment la capacité du modèle à produire des descriptions fluides et logiquement cohérentes, bien que certains défis demeurent, notamment pour capturer pleinement les subtilités des requêtes SQL.

Importance de l’Ensemble de Données

Notre ensemble de données chinois de réponse à séquence représente un avancement significatif dans le domaine de la génération de texte à partir de données, en particulier dans les langues non anglaises. Ce travail jette les bases pour de futures recherches dans ce domaine et encourage le développement de jeux de données plus diversifiés à travers les langues.

En abordant les limitations actuelles des ensembles de données existants, nous espérons favoriser l'innovation et les améliorations de la technologie qui relie des données structurées à un texte compréhensible par l'homme. Cela peut conduire à des applications plus pratiques dans des scénarios du monde réel, rendant l'information plus accessible aux utilisateurs de différentes langues.

Conclusion

En résumé, nous introduisons un ensemble de données chinois à grande échelle et de haute qualité, accompagné d'une méthode innovante pour générer des descriptions en langage naturel à partir de requêtes SQL structurées et de tableaux. En abordant les défis existants dans le domaine de la génération de texte à partir de données, nous visons à améliorer l'efficacité et l'applicabilité de cette technologie à travers les langues. Notre recherche contribue à une meilleure compréhension de la manière de modéliser les complexités des données d'entrée structurées et de les transformer en sorties textuelles significatives, ouvrant la voie à de futurs avancements dans ce domaine.

Source originale

Titre: CATS: A Pragmatic Chinese Answer-to-Sequence Dataset with Large Scale and High Quality

Résumé: There are three problems existing in the popular data-to-text datasets. First, the large-scale datasets either contain noise or lack real application scenarios. Second, the datasets close to real applications are relatively small in size. Last, current datasets bias in the English language while leaving other languages underexplored. To alleviate these limitations, in this paper, we present CATS, a pragmatic Chinese answer-to-sequence dataset with large scale and high quality. The dataset aims to generate textual descriptions for the answer in the practical TableQA system. Further, to bridge the structural gap between the input SQL and table and establish better semantic alignments, we propose a Unified Graph Transformation approach to establish a joint encoding space for the two hybrid knowledge resources and convert this task to a graph-to-text problem. The experiment results demonstrate the effectiveness of our proposed method. Further analysis on CATS attests to both the high quality and challenges of the dataset.

Auteurs: Liang Li, Ruiying Geng, Chengyang Fang, Bing Li, Can Ma, Rongyu Cao, Binhua Li, Fei Huang, Yongbin Li

Dernière mise à jour: 2023-06-20 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2306.11477

Source PDF: https://arxiv.org/pdf/2306.11477

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires