Connecter les données ouvertes et NGSI-LD pour un meilleur accès
Ce papier parle d'intégrer des portails de données ouvertes avec NGSI-LD pour améliorer la découverte des données.
― 12 min lire
Table des matières
- Le Problème des Données
- La Solution Innovante
- Le Paysage Actuel des Open Data
- Travaux Connexes
- Analyse de Modélisation des Données
- Mise en Œuvre du Connecteur NGSI-LD vers CKAN
- Phase 1 : Création de Descriptions
- Phase 2 : Publication des Données dans CKAN
- Phase 3 : Sérialisation DCAT
- Scénario de Validation
- Métriques de Qualité
- Conclusion
- Source originale
- Liens de référence
Aujourd'hui, on a plein de sources de données qui créent énormément d'infos. Ces infos peuvent aider à améliorer plein de trucs, comme les services publics et la transparence du gouvernement. Mais y a encore des problèmes sur la facilité de trouver, d'accéder et d'utiliser ces données. Les portails Open Data ont commencé à régler ces soucis en rendant les données accessibles à tous. Cependant, ces portails ne mettent pas en place des règles strictes sur la façon dont les données doivent être organisées ou décrites.
Le standard NGSI-LD vise à créer une uniformité sur la façon dont les données sont organisées et accessibles. Ce document présente une solution qui connecte les portails Open Data et les données NGSI-LD. Cette connexion nous permet de maintenir des descriptions de données bien structurées provenant des portails Open Data tout en garantissant que les données puissent interagir facilement avec d'autres systèmes utilisant le standard NGSI-LD. Notre solution combine les données en ensembles de données compréhensibles et crée des descriptions de haute qualité, améliorant la découvrabilité, l'interopérabilité et l'accessibilité. On a testé cette solution dans un scénario réel qui partageait des données IoT au format NGSI-LD via le Portail Européen des Données (EDP). Les résultats des évaluations montrent que les descriptions d'ensemble de données que nous avons générées sont bien notées en termes de principes FAIR, qui signifient Findabilité, Accessibilité, Interopérabilité et Réutilisabilité.
Le Problème des Données
Avec l'augmentation du nombre de sources de données, les préoccupations sur la qualité et la compatibilité de ces ensembles de données et de leurs descriptions augmentent aussi. Ça rend l'utilisation des ressources plus difficile. La plupart des plateformes qui gèrent les Open Data, comme CKAN, se concentrent sur la façon dont les ensembles de données sont décrits, connu sous le nom de métadonnées. Cependant, les données elles-mêmes n'ont pas besoin de suivre des standards spécifiques. Ce manque de standardisation conduit souvent à des situations où différents ensembles de données contenant des types de données similaires ne peuvent pas facilement travailler ensemble.
Ce problème devient plus prononcé dans des Portails Open Data plus larges, comme le Portail Européen des Données, qui rassemble des données de diverses sources, y compris des portails nationaux et régionaux. Sans une façon standard d'organiser ces données, il devient difficile d'y accéder ou de les réutiliser efficacement. Il est crucial que les données disponibles sur les portails Open Data suivent des cadres standardisés, les rendant utilisables et faciles à partager entre différents systèmes.
Pour résoudre ces défis, on a besoin d'établir des accords clairs sur la façon dont les données sont partagées et structurées. Le standard NGSI-LD aide à atteindre cela en fixant des spécifications pour gérer les données de contexte. Ce standard facilite l'accès à différents types de données et fait partie du projet open-source FIWARE. Il a été testé dans diverses situations réelles et offre une méthode fiable pour aborder les problèmes de compatibilité lors de l'accès à des données provenant de différentes sources.
Cependant, si on se base uniquement sur NGSI-LD, on rencontre un autre problème : ce standard n'a pas d'outils intégrés pour aider les utilisateurs à trouver les ensembles de données accessibles via son API. En gros, NGSI-LD ne peut pas fonctionner seul pour s'assurer que les données sont faciles à trouver, à accéder et à réutiliser.
La Solution Innovante
L'innovation clé de notre travail est de combiner les portails Open Data, en particulier ceux basés sur CKAN, qui décrivent les ensembles de données en utilisant le format DCAT-AP, avec les données NGSI-LD. En fusionnant ces deux approches, on peut combler les lacunes de l'un et de l'autre et créer une solution qui maximise la Findabilité, l'Accessibilité, l'Interopérabilité et la Réutilisabilité. Notre solution simplifie le processus pour les fournisseurs de données utilisant le standard NGSI-LD pour créer les métadonnées nécessaires pour exposer leurs données sur les portails Open Data basés sur CKAN.
Étant donné l'importance des principes FAIR dans le partage des données, notre solution contribue positivement à créer une base plus solide autour de modèles de données et de métadonnées bien connus, comme NGSI-LD et DCAT-AP. À notre connaissance, aucune approche similaire n'a été proposée dans la littérature.
Dans ce document, on montre le potentiel des portails Open Data, spécifiquement ceux utilisant CKAN et DCAT-AP pour les descriptions d'ensembles de données, d'améliorer la disponibilité des données et la découvrabilité aux côtés de NGSI-LD pour une meilleure compatibilité des données.
Le Paysage Actuel des Open Data
Depuis que des pays comme les États-Unis et le Royaume-Uni ont lancé leurs premiers portails Open Data en 2009 et 2010, beaucoup d'autres pays et organisations ont suivi le mouvement. Ces initiatives aident à fournir un accès public à différents types de données sous divers formats, améliorant la capacité de partager des infos à travers plusieurs secteurs.
Beaucoup de gouvernements, surtout dans les États membres de l'UE, ont adopté cette tendance. Ils utilisent souvent CKAN, une plateforme open-source développée et maintenue par Open Knowledge, pour leurs portails. CKAN fournit une API fiable qui permet la fusion de différents portails en un seul point d'accès pour les données gouvernementales. CKAN supporte aussi la création d'extensions pour améliorer ses fonctionnalités.
La spécification DCAT-AP est la méthode la plus largement adoptée pour décrire des données dans ces portails. Elle fournit un moyen standardisé de décrire les ensembles de données et les services de données, promouvant une meilleure compatibilité et un échange de métadonnées entre différents portails de données.
D'un autre côté, le standard NGSI-LD se concentre sur l'amélioration du partage de données entre différentes entités dans un environnement numérique. Il garantit une communication et un accès efficaces aux informations de contexte en définissant une API et un modèle d'information cohérent. Ce standard est au cœur de l'écosystème FIWARE.
L'initiative Smart Data Models complète NGSI-LD en fournissant un cadre commun pour représenter les données à travers différents secteurs, comme les Villes Intelligentes, l'Agriculture Intelligente, et plus. Cette initiative comprend de nombreux modèles de données conformes à NGSI-LD.
Travaux Connexes
Les portails de Données ouvertes servent d'interface vitale qui promeut la transparence. Mais pour vraiment saisir ces opportunités, ils doivent offrir une gamme de mécanismes pour permettre aux utilisateurs de découvrir, d'extraire et d'utiliser les données efficacement. Il faut se concentrer davantage sur la façon dont la technologie peut aider la transparence et sur comment ces objectifs peuvent être atteints.
Le potentiel des Open Data ne réside pas seulement dans la libération d'informations, mais dans l'assurance de la compatibilité de multiples catalogues, permettant un meilleur partage de données à travers des interfaces bien structurées. Les services de données jouent un rôle vital en rendant les ensembles de données ouverts disponibles dans des formats structurés et lisibles par machine.
Différentes études ont identifié différents types de couches d'interopérabilité, y compris l'interopérabilité technique, sémantique, organisationnelle et légale. Ces cadres guident la promotion d'une gestion de service fluide et d'un partage de données entre les administrations publiques.
Certaines recherches ont tenté d'intégrer des méthodes pour améliorer l'interconnectivité et l'utilisabilité dans les portails Open Data basés sur CKAN. Pourtant, elles mettent souvent l'accent sur l'harmonisation des métadonnées plutôt que sur la façon de rendre les données elles-mêmes plus utilisables.
Le cadre ODDM vise à faciliter la recherche interdisciplinaire en intégrant des données ouvertes provenant de diverses sources. Cependant, il se concentre principalement sur des modèles théoriques plutôt que sur la mise en œuvre pratique basée sur les meilleures pratiques.
Analyse de Modélisation des Données
Le cœur de notre connecteur proposé est de traduire et d'adapter les données entre les données de contexte NGSI-LD et les ensembles de données CKAN décrits en utilisant DCAT-AP. Pour s'assurer que ces deux domaines puissent travailler ensemble, on doit analyser les caractéristiques de leurs modèles de données respectifs.
La première étape de cette analyse consiste à identifier quelles données doivent être représentées. Dans notre conception, l'accent n'est pas seulement mis sur l'accès aux points de données réels, mais aussi sur les métadonnées décrivant ces collections de données. Cela implique d'utiliser la spécification DCAT-AP comme modèle de référence pour partager des informations sur les ensembles de données.
On utilise le Modèle de Données Intelligent comme un intermédiaire entre DCAT-AP et le format CKAN. Les processus de cartographie et de conversion garantissent que les descriptions des ensembles de données soient complètes et cohérentes.
Mise en Œuvre du Connecteur NGSI-LD vers CKAN
La solution proposée se compose de plusieurs composants agissant ensemble pour relier les deux domaines de NGSI-LD et des Données Ouvertes. L'architecture inclut des Context Brokers (CB) fédérés dans le monde NGSI-LD et une instance CKAN dans le monde des Données Ouvertes.
Le rôle principal du connecteur est de créer des descriptions des ensembles de données disponibles via le CB. Une fois ces descriptions générées, CKAN peut les utiliser. Cela garantit que les données des deux paradigmes NGSI-LD et Données Ouvertes fonctionnent de manière cohésive.
Pour atteindre cela, on a défini un processus en trois étapes. La première phase consiste à créer des descriptions compréhensibles des données pour CKAN. La prochaine étape consiste à publier ces descriptions dans l'instance CKAN, permettant aux utilisateurs d'accéder aux données. La dernière phase consiste à s'assurer que ces descriptions respectent le standard DCAT-AP.
Phase 1 : Création de Descriptions
Dans la première phase, on se concentre sur la création de descriptions de données appropriées. Cela implique d'utiliser les Modèles de Données Intelligents pour définir des entités comme des catalogues, des ensembles de données, et des distributions. En regroupant les données selon leurs types et en fournissant des descriptions complètes, on permet à CKAN de comprendre et d'utiliser les données.
Phase 2 : Publication des Données dans CKAN
Une fois les entités de données créées, la prochaine étape est de transférer ces descriptions dans une instance CKAN. Un module d'extension, ckanext-harvest-ngsild, est responsable de cette tâche. Il transforme les données des Modèles de Données Intelligents en le format CKAN approprié et les injecte dans le portail CKAN.
Phase 3 : Sérialisation DCAT
Pour garantir la conformité avec DCAT-AP, on a développé une autre extension CKAN pour transformer les descriptions de données CKAN en documents RDF qui suivent le standard DCAT. Cette étape est essentielle pour une compatibilité et une interopérabilité maximales.
Scénario de Validation
Pour valider nos modules proposés, on a utilisé un cas d'utilisation spécifique et les a intégrés dans un environnement réel. Le Portail Européen des Données sert de consommateur final pour les données générées par le projet SALTED, qui vise à harmoniser et enrichir les données.
L'architecture que nous avons mise en œuvre prend en compte les exigences du processus d'Évaluation de la Qualité des Métadonnées (MQA) de l'EDP. Cela évalue la qualité des ensembles de données publiés et garantit qu'ils répondent à certains critères de Findabilité, Accessibilité, Interopérabilité et Réutilisabilité.
Métriques de Qualité
Le processus MQA évalue les ensembles de données selon divers métriques qui aident à déterminer leur qualité. Ces métriques se concentrent sur des aspects d'utilisabilité et garantissent que les utilisateurs sont conscients de la nature et du contexte des données qu'ils consomment.
Les résultats du scénario de validation montrent que notre architecture de connecteur a atteint ses objectifs. Le déploiement de CKAN en tant que portail Open Data permet un transfert fluide des descriptions de données vers la plateforme. De plus, l'intégration de l'EDP en tant que consommateur de données garantit que les informations partagées sont de haute qualité et facilement accessibles.
Conclusion
En conclusion, notre travail met en avant les bénéfices potentiels de la connexion des données NGSI-LD et des portails Open Data. La combinaison de ces deux domaines crée une solution puissante qui améliore la disponibilité des données publiques. L'architecture proposée, qui inclut divers composants et modules, aide à faciliter l'échange d'informations entre ces mondes.
Les travaux futurs pourraient encore améliorer la fonctionnalité du connecteur, permettant plus de formats et d'intégrations directes sans avoir besoin d'une instance intermédiaire CKAN. L'objectif ultime reste d'assurer que le partage des données soit aussi fluide et efficace que possible, menant à de meilleures idées et décisions à travers divers secteurs.
Titre: A Connector for Integrating NGSI-LD Data into Open Data Portals
Résumé: Nowadays, there are plenty of data sources generating massive amounts of information that, combined with novel data analytics frameworks, are meant to support optimisation in many application domains. Nonetheless, there are still shortcomings in terms of data discoverability, accessibility and interoperability. Open Data portals have emerged as a shift towards openness and discoverability. However, they do not impose any condition to the data itself, just stipulate how datasets have to be described. Alternatively, the NGSI-LD standard pursues harmonisation in terms of data modelling and accessibility. This paper presents a solution that bridges these two domains (i.e., Open Data portals and NGSI-LD-based data) in order to keep benefiting from the structured description of datasets offered by Open Data portals, while ensuring the interoperability provided by the NGSI-LD standard. Our solution aggregates the data into coherent datasets and generate high-quality descriptions, ensuring comprehensiveness, interoperability and accessibility. The proposed solution has been validated through a real-world implementation that exposes IoT data in NGSI-LD format through the European Data Portal (EDP). Moreover, the results from the Metadata Quality Assessment that the EDP implements, show that the datasets' descriptions generated achieve excellent ranking in terms of the Findability, Accessibility, Interoperability and Reusability (FAIR) data principles.
Auteurs: Laura Martín, Jorge Lanza, Víctor González, Juan Ramón Santana, Pablo Sotres, Luis Sánchez
Dernière mise à jour: 2024-03-06 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2403.03648
Source PDF: https://arxiv.org/pdf/2403.03648
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://doi.org/10.3390/s24051695
- https://smartdatamodels.org/dataModel
- https://smartdatamodels.org/dataModel.Parking/ParkingSpot
- https://www.mdpi.com/ethics
- https://www.equator-network.org/
- https://www.issn.org/services/online-services/access-to-the-ltwa/
- https://doi.org/10.1108/TG-12-2015-0050
- https://dx.doi.org/10.1007/s10796-016-9673-7
- https://www.etsi.org/deliver/etsi_gs/CIM/001_099/009/01.07.01_60/gs_CIM009v010701p.pdf
- https://www.etsi.org/deliver/etsi_gs/CIM/001_099/006/01.02.01_60/gs_CIM006v010201p.pdf
- https://dx.doi.org/10.1109/ACCESS.2023.3235863
- https://dx.doi.org/10.3390/s19020229
- https://github.com/SEMICeu/DCAT-AP/blob/b9b20d1d25e6d827754e93af918344a46dc41a1b/releases/2.1.1/dcat-ap_2.1.1.pdf
- https://extensions.ckan.org/
- https://smartdatamodels.org/
- https://dx.doi.org/10.1590/1679-395173241
- https://dx.doi.org/10.1108/TG-02-2017-0015
- https://ec.europa.eu/isa2/sites/default/files/eif_brochure_final.pdf
- https://dx.doi.org/10.1038/sdata.2016.18
- https://www.ncbi.nlm.nih.gov/pubmed/26978244
- https://dx.doi.org/10.3390/electronics12051237
- https://dx.doi.org/10.1109/KSE.2015.56
- https://github.com/smart-data-models/dataModel.DCAT-AP/tree/master
- https://op.europa.eu/en/web/eu-vocabularies/data-catalogue
- https://github.com/tlmat-unican/salted-dataset-registry
- https://docs.ckan.org/en/2.10/extensions/tutorial.html#
- https://github.com/tlmat-unican/ckanext-harvest-ngsild
- https://github.com/tlmat-unican/salted-retriever
- https://github.com/smart-data-models/dataModel.Parking/blob/master/ParkingSpot/doc/spec.md
- https://github.com/ckan/ckanext-dcat
- https://github.com/tlmat-unican/ckanext-dcat-ap-edp-mqa
- https://dx.doi.org/10.1109/ACCESS.2023.3317705
- https://ckan.salted-project.eu/
- https://data.europa.eu/en
- https://dataeuropa.gitlab.io/data-provider-manual/
- https://dataeuropa.gitlab.io/data-provider-manual/metadata-quality/#metadata-quality-dashboard/
- https://data.europa.eu/api/mqa/shacl/
- https://github.com/tlmat-unican/ckanext-oai-pmh-server
- https://dataeuropa.gitlab.io/data-provider-manual/how-to-publish/request-harvesting/#supported-formats-and-protocols
- https://www.openarchives.org/OAI/openarchivesprotocol.html
- https://data.europa.eu/data/catalogues/salted?locale=en
- https://data.europa.eu/data/datasets/2d025904-0147-41aa-bad3-823388dcdf28/quality?locale=en
- https://data.europa.eu/api/hub/repo/datasets/2d025904-0147-41aa-bad3-823388dcdf28.rdf/metrics
- https://www.mdpi.com/authors/references