Avancées dans la recherche de tables avec les données ouvertes du gouvernement
De nouvelles méthodes améliorent l'efficacité de la recherche dans les tables en utilisant des données gouvernementales ouvertes.
― 7 min lire
Table des matières
- Pourquoi la recherche de tableaux est importante
- Aperçu des travaux connexes
- Données gouvernementales ouvertes
- Traitement des données gouvernementales
- Types de recherches de tableaux
- Évaluation des recherches de tableaux
- Résultats et découvertes
- L'avenir de la recherche de tableaux
- Source originale
- Liens de référence
Ces dernières années, on a vu une montée en flèche des données structurées provenant de différentes sources, surtout des portails gouvernementaux. Ces données peuvent être super utiles pour la recherche et les entreprises, mais trouver la bonne info, c’est pas toujours évident. Souvent, ces données sont stockées dans un grand réservoir appelé "data lake", qui n’a pas de format cohérent. Ça rend la tâche compliquée pour dénicher les données utiles qu'on cherche.
La recherche de tableaux est devenue un domaine d'étude, mais la plupart des méthodes existantes se concentrent sur des tableaux faits pour l'affichage, comme ceux qu'on voit dans des articles ou des sites web. Ces tableaux sont souvent bien plus petits et formatés différemment par rapport aux tables de données plus larges qu'on trouve dans un data lake. Pour remédier à ce problème, un nouvel ensemble de données a été créé pour benchmarker la recherche de tableaux de données à une plus grande échelle, en utilisant des informations provenant de portails de données gouvernementales ouvertes.
Pourquoi la recherche de tableaux est importante
Quand on cherche des données, ça commence souvent par ce que l'utilisateur veut trouver. Les gens peuvent taper des mots-clés pour exprimer cette intention, ce qui leur permet de rassembler un ensemble de tableaux de données pertinents. À partir de cet ensemble initial, ils peuvent élargir leur recherche pour inclure des tableaux liés. Ça peut impliquer de chercher des tableaux qui se complètent, soit en les combinant, soit en trouvant des tableaux qui couvrent des sujets similaires.
Un défi commun dans les recherches de tableaux passées a été que les ensembles de données utilisés pour les benchmarks étaient limités. Par exemple, les données collectées à partir de pages web ou d'articles scientifiques viennent souvent en plus petite taille avec moins de requêtes. Cette restriction freine l’évaluation des méthodes de recherche qui visent à récupérer plus de données.
Aperçu des travaux connexes
Les recherches antérieures sur la recherche de tableaux se sont surtout concentrées sur des petits ensembles de tableaux destinés à des fins d'affichage. Par exemple, une approche a rassemblé des données à partir de tableaux web et s'est appuyée sur des évaluations participatives pour évaluer la pertinence des résultats. Cependant, cette méthode a ses limites. Elle tend à évaluer l’efficacité des méthodes qui pourraient ne pas améliorer la récupération d'infos.
Certaines études se sont penchées sur des ensembles de données scientifiques, en élaborant des requêtes basées sur des articles de physique. D'autres se sont concentrées sur les relations entre les tableaux en fonction de leur contenu ou de l'organisation qui les a produites. Mais ces méthodes échouaient souvent à évaluer des méthodes qui améliorent l'expérience de recherche.
Données gouvernementales ouvertes
Les données gouvernementales ouvertes sont des infos publiées par les gouvernements, visant à améliorer la transparence et à soutenir la recherche. Ces données sont souvent hébergées sur des portails qui offrent un accès structuré. Une de ces structures de portail s'appelle CKAN, où les données sont organisées en hiérarchie, comprenant des sites, des ensembles de données et des tableaux.
En téléchargeant des données de plusieurs portails gouvernementaux en anglais, les chercheurs peuvent créer un benchmark de recherche de tableaux plus complet. Chaque tableau est accompagné de métadonnées, ce qui inclut des détails sur l'organisation qui a produit les données, des balises descriptives, et d'autres infos clés pour aider à l'organisation.
Traitement des données gouvernementales
Avant de faire des recherches de tableaux, les données doivent être traitées. Ça implique généralement d'extraire des données de table structurées, qui peuvent être sous des formats comme CSV ou des fichiers Excel. Après cette extraction, les tableaux doivent être dédupliqués pour s'assurer que des tableaux similaires ou identiques ne sont pas inclus dans les résultats de recherche.
Pour déterminer si deux tableaux doivent être considérés comme des doublons, plusieurs facteurs sont pris en compte comme les noms, les descriptions, les balises, et des lignes d’exemple des tableaux. L’objectif est de s'assurer que les méthodes de recherche peuvent gérer efficacement des cas délicats.
Types de recherches de tableaux
Il y a deux types principaux de recherches de tableaux : la recherche par mots-clés et la recherche de tableaux connexes. Les deux types aident les utilisateurs à rassembler des ensembles initiaux de tableaux et à les élargir.
Dans la recherche par mots-clés, les utilisateurs saisissent des mots-clés pour trouver des tableaux. Ces tableaux sont jugés selon leur correspondance avec les mots-clés utilisés. Pour améliorer l’expérience de recherche, les chercheurs éliminent les mots-clés trop communs ou trop rares. L'objectif est de créer des requêtes pertinentes qui peuvent récupérer les résultats les plus pertinents.
Pour la recherche de tableaux connexes, un tableau spécifique sert de point de départ, et le but est de trouver des tableaux sémantiquement liés. Différents critères peuvent déterminer la pertinence, que deux tableaux proviennent du même ensemble de données, soient créés par la même organisation, ou partagent des balises similaires.
Évaluation des recherches de tableaux
Pour évaluer l’efficacité de ces recherches de tableaux, certaines méthodes et outils sont employés. Une méthode courante utilise une approche traditionnelle de récupération d'infos, qui peut évaluer à quel point les tableaux sont récupérés selon un certain système de notation. Les tests initiaux utilisent souvent ces méthodes traditionnelles pour établir des bases que les techniques plus récentes peuvent ensuite chercher à améliorer.
Des méthodes plus avancées examinent l'utilisation de réseaux neuronaux pour améliorer la performance de la récupération de tableaux. Ces approches consistent à transformer les tableaux en représentations denses qui peuvent être rapidement comparées, permettant une récupération plus précise.
Résultats et découvertes
Lors des tests des méthodes de recherche de tableaux, les chercheurs ont découvert qu'il reste encore beaucoup de place pour l'amélioration. Bien que certaines méthodes traditionnelles fonctionnent plutôt bien, les modèles neuronaux ont souvent surpassé ces techniques initiales, surtout en termes de correspondance des tableaux pertinents.
Pour les Recherches par mots-clés, les résultats ont montré qu'utiliser même un modèle pré-entraîné peut offrir de meilleurs résultats par rapport aux méthodes traditionnelles. Comprendre comment ces différentes approches fonctionnent aide les chercheurs à saisir les domaines de la recherche de tableaux qui nécessitent plus d'attention.
L'avenir de la recherche de tableaux
Les avancées dans la recherche de tableaux, particulièrement avec l’utilisation des données gouvernementales ouvertes, offrent des possibilités excitantes pour l'avenir. En créant un ensemble de données qui est réaliste et étendu, les chercheurs peuvent continuer à affiner les méthodes utilisées pour trouver et récupérer efficacement les tableaux de données.
Pour l'avenir, la communauté de recherche peut se concentrer sur l'amélioration des méthodes de récupération tout en s'assurant que les outils développés peuvent s'adapter à différents environnements de données, y compris ceux qui n'ont pas de structures cohérentes. Ces développements peuvent mener à de meilleurs outils de découverte de données qui soutiennent à la fois la recherche et les besoins des entreprises.
En résumé, à mesure que la quantité de données structurées continue de croître, les technologies et méthodes pour rechercher et récupérer ces données doivent évoluer en parallèle. En utilisant des données gouvernementales ouvertes et en améliorant les méthodologies de recherche existantes, on peut fournir un meilleur accès à l'information qui est vitale pour diverses applications dans la société d'aujourd'hui.
Titre: Open Government Data Corpus for Table Search
Résumé: Increasing amounts of structured data can provide value for research and business if the relevant data can be located. Often the data is in a data lake without a consistent schema, making locating useful data challenging. Table search is a growing research area, but existing benchmarks have been limited to displayed tables. Tables sized and formatted for display in a Wikipedia page or ArXiv paper are considerably different from data tables in both scale and style. By using metadata associated with open data from government portals, we create the first dataset to benchmark search over data tables at scale. We demonstrate three styles of table-to-table related table search. The three notions of table relatedness are: tables produced by the same organization, tables distributed as part of the same dataset, and tables with a high degree of overlap in the annotated tags. The keyword tags provided with the metadata also permit the automatic creation of a keyword search over tables benchmark. We provide baselines on this dataset using existing methods including traditional and neural approaches.
Auteurs: Michael Glass, Sugato Bagchi, Oktie Hassanzadeh, Gaetano Rossiello, Alfio Gliozzo
Dernière mise à jour: 2023-08-24 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2308.13560
Source PDF: https://arxiv.org/pdf/2308.13560
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://iswc2023.semanticweb.org/call-for-resources-track-papers/
- https://data.gov/privacy-policy/#licensing
- https://open.canada.ca/en/open-government-licence-canada
- https://www.nationalarchives.gov.uk/doc/open-government-licence/version/3/
- https://creativecommons.org/licenses/by/4.0/legalcode
- https://data.gov.ie/pages/opendatalicence
- https://creativecommons.org/licenses/by/3.0/au/
- https://data.gov.au/page/about
- https://africaopendata.org/about/terms-and-conditions
- https://data.gov.sg/open-data-licence