Rationalisation de l'identification des ensembles de données à forte valeur dans les données gouvernementales
Découvrez comment les méthodes automatisées améliorent l'identification des ensembles de données précieux sur les portails gouvernementaux.
― 8 min lire
Table des matières
Les ensembles de données à haute valeur (HVD) sont super importants pour rendre les données gouvernementales accessibles au public parce qu’ils peuvent améliorer la transparence, stimuler la croissance économique, soutenir la recherche et améliorer les services publics. Mais trouver ces ensembles de données à haute valeur peut être galère à cause de la façon dont la valeur des données est déterminée. Cet article parle d'une méthode pour faciliter l'identification des HVD en utilisant des approches automatisées qui demandent moins d'implication humaine.
L'étude se concentre sur l'analyse de l'intérêt que les utilisateurs montrent pour les ensembles de données des portails de données gouvernementales ouvertes. Cet intérêt est identifié grâce aux statistiques d'utilisation, comme le nombre de fois que les ensembles de données sont téléchargés. En regardant ces statistiques, l'objectif est de repérer quels ensembles de données sont les plus appréciés par le public. La méthode consiste à extraire les données de téléchargement de différents portails, à les analyser et à comparer les résultats entre divers portails.
L'Importance des Ensembles de Données à Haute Valeur
Les données gouvernementales ouvertes (OGD) visent à rendre l'information détenue par le gouvernement librement accessible à tous dans un format facile à lire par les machines. Beaucoup de pays ont rejoint ce mouvement, rendant leurs données accessibles à divers groupes comme les ONG, les entreprises, les chercheurs et les médias. Mais avoir simplement une grosse quantité de données ne veut pas dire que ça aura un impact. La vraie valeur vient de la façon dont le public s'engage avec et utilise ces données.
L'accent est passé de la quantité à la qualité, ce qui signifie qu'il est plus important d'identifier les ensembles de données qui sont vraiment précieux et pertinents pour les utilisateurs. Les gouvernements du monde entier reconnaissent que les ensembles de données à haute valeur peuvent aider à créer des sociétés plus informées et équitables. Cela signifie qu'identifier ces ensembles de données est crucial pour maximiser l'impact des données gouvernementales ouvertes.
Défis pour Identifier les Ensembles de Données à Haute Valeur
Un gros défi pour identifier les ensembles de données à haute valeur est que différents groupes d'utilisateurs ont des besoins différents. Par exemple, les organisations de la société civile peuvent avoir des intérêts différents par rapport aux entreprises. Bien que certains gouvernements aient des catégories spécifiques pour les ensembles de données à haute valeur, il y a un besoin croissant de comprendre quels ensembles de données les communautés locales jugent précieux.
Déterminer quels ensembles de données ont une haute valeur implique souvent un mélange de révisions manuelles et de catégories prédéfinies, ce qui peut prendre beaucoup de temps et être gourmand en ressources. Donc, une approche automatisée pour identifier les HVD en fonction de l'intérêt réel des utilisateurs est nécessaire.
Automatiser l'Identification des HVD
La méthode proposée se concentre sur l'utilisation des statistiques de téléchargement des portails OGD pour identifier les ensembles de données à haute valeur. Bien que télécharger un ensemble de données ne garantisse pas qu'il sera utilisé efficacement, ça reste un bon indicateur d'intérêt. La méthode comporte trois étapes clés :
- Extraction de données : Les données de téléchargement sont tirées des métadonnées des ensembles de données trouvés sur différents portails OGD.
- Analyse des données : Les données téléchargées sont analysées à l'aide de différents indicateurs pour identifier quelles catégories d'ensembles de données sont le plus souvent consultées.
- Analyse comparative : Les catégories de HVD sont comparées entre différents portails pour mettre en évidence les tendances clés et les points communs.
En appliquant cette méthode à un échantillon de portails de villes américaines, l'étude montre comment l'approche fonctionne en pratique.
Avantages de la Méthode Proposée
Automatiser l'identification des HVD présente plusieurs avantages. D'abord, ça donne des insights précieux sur quels ensembles de données sont les plus demandés selon les interactions des utilisateurs. Cette information aide les décideurs et les gestionnaires de portails à mieux prioriser quelles données publier ou améliorer.
De plus, la méthode souligne la nécessité d'aligner les catégories entre différents portails, ce qui peut aider à standardiser l'identification des ensembles de données à haute valeur. En faisant cela, il devient plus facile de comparer les ensembles de données et de comprendre leur signification dans divers contextes, comme au niveau local ou national.
L'Étude de Cas des Villes Américaines
La méthodologie a été testée en utilisant une sélection de portails de villes américaines qui se sont révélés bien structurés et accessibles. Des villes comme New York, Los Angeles et Chicago ont été choisies pour leurs riches ensembles de données et leur fort engagement envers les initiatives de données gouvernementales ouvertes. L'étude a analysé les statistiques d'utilisation de ces portails pour voir quels ensembles de données étaient les plus souvent consultés.
L'analyse a montré que certains ensembles de données reçoivent la majorité des téléchargements, révélant des schémas d'intérêt public. Par exemple, des ensembles de données spécifiques liés au transport et à la sécurité publique figuraient constamment parmi les ensembles de données les plus téléchargés dans plusieurs villes. Cela indique un intérêt clair du public dans ces domaines.
Résultats de l'Étude
Les résultats révèlent que certaines catégories d'ensembles de données sont plus susceptibles d'être considérées comme ayant une haute valeur en fonction des statistiques de téléchargement. Les catégories les plus populaires comprenaient la sécurité publique, les transports et les données économiques. Ces résultats soulignent l'importance d'adapter les ensembles de données à haute valeur aux besoins et aux intérêts des communautés locales.
L'étude a également mis en évidence des disparités dans la façon dont différents portails catégorisent les ensembles de données. Cette variabilité rend difficile les comparaisons directes entre différentes régions. Le besoin de standardisation est ressorti comme une évidence de l'analyse, montrant que disposer de catégories communes peut améliorer la compréhension globale des ensembles de données à haute valeur.
Avancer
L'approche d'utiliser les statistiques de téléchargement pour identifier les ensembles de données à haute valeur peut améliorer considérablement la façon dont les gouvernements interagissent avec leurs données. Cependant, il reste encore des défis à relever. Par exemple, se concentrer uniquement sur le nombre de téléchargements peut négliger des problèmes liés à la qualité des ensembles de données ou à la satisfaction des utilisateurs.
Les recherches futures pourraient explorer l'intégration d'évaluations qualitatives avec les données quantitatives pour créer une vue plus complète de ce qui constitue des ensembles de données précieux. De plus, élargir la méthodologie pour inclure d'autres formes d'engagement des utilisateurs, comme les retours ou les commentaires, pourrait donner une compréhension plus riche de la valeur des ensembles de données.
Conclusion
Identifier les ensembles de données à haute valeur dans les portails de données gouvernementales ouvertes est crucial pour favoriser la transparence, aider les services publics et encourager l'engagement citoyen. En automatisant le processus d'identification et en se basant sur les données d'intérêt des utilisateurs, les gouvernements peuvent mieux prioriser leurs efforts en matière de données ouvertes. Cette méthode non seulement optimise les pratiques de diffusion des données, mais s'aligne aussi sur les besoins des citoyens, menant finalement à une société plus informée et engagée.
À travers des études de cas de diverses villes américaines, l'étude montre l'efficacité d'utiliser les statistiques de téléchargement pour comprendre l'intérêt public envers les ensembles de données gouvernementales. En se concentrant sur les ensembles de données à haute valeur, les gouvernements peuvent s'assurer que leurs initiatives de données ouvertes ont un sens et un impact.
Titre: Automating the Identification of High-Value Datasets in Open Government Data Portals
Résumé: Recognized for fostering innovation and transparency, driving economic growth, enhancing public services, supporting research, empowering citizens, and promoting environmental sustainability, High-Value Datasets (HVD) play a crucial role in the broader Open Government Data (OGD) movement. However, identifying HVD presents a resource-intensive and complex challenge due to the nuanced nature of data value. Our proposal aims to automate the identification of HVDs on OGD portals using a quantitative approach based on a detailed analysis of user interest derived from data usage statistics, thereby minimizing the need for human intervention. The proposed method involves extracting download data, analyzing metrics to identify high-value categories, and comparing HVD datasets across different portals. This automated process provides valuable insights into trends in dataset usage, reflecting citizens' needs and preferences. The effectiveness of our approach is demonstrated through its application to a sample of US OGD city portals. The practical implications of this study include contributing to the understanding of HVD at both local and national levels. By providing a systematic and efficient means of identifying HVD, our approach aims to inform open governance initiatives and practices, aiding OGD portal managers and public authorities in their efforts to optimize data dissemination and utilization.
Auteurs: Alfonso Quarati, Anastasija Nikiforova
Dernière mise à jour: 2024-06-15 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.10541
Source PDF: https://arxiv.org/pdf/2406.10541
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.latex-project.org/lppl.txt
- https://orcid.org/0000-0002-1801-3403
- https://orcid.org/0000-0002-0532-3488
- https://www.university.org
- https://data.austintexas.gov
- https://data.cityofnewyork.us
- https://data.buffalony.gov
- https://data.cityofchicago.org
- https://data.lacity.org
- https://www.dallasopendata.com
- https://data.sfgov.org
- https://data.seattle.gov
- https://data.honolulu.gov
- https://www.census.gov/data/tables/time-series/demo/popest/2020s-total-cities-and-towns.html
- https://datos.gob.es/sites/default/files/doc/file/report_dcat-ap_and_its_extensions.pdf
- https://github.com/aq-code/HVD_open_data_portals
- https://data.texas.gov/Transportation/CapMetro-Vehicle-Positions-PB-File/eiei-9rpf/
- https://data.cityofchicago.org/Administration-Finance/Current-Employee-Names-Salaries-and-Position-Title/xzkq-xp2w/about_data
- https://www.dallasopendata.com/Public-Safety/Dallas-Police-Active-Calls/9fxf-t2tr/about_data
- https://data.gov.lv/dati/lv/dataset/groups/2017-gada-republikas-pilsetas-domes-un-novada-domes-velesanu-rezultati-un-veletaju-aktivitate
- https://github.com/higorspinto/category_alignment_open_data_portals
- https://github.com/aq-code/HVD_open_data_portals/blob/main/portals.json