Conectando Datos Abiertos y NGSI-LD para Mejorar el Acceso
Este documento habla sobre integrar portales de Datos Abiertos con NGSI-LD para mejorar la posibilidad de encontrar datos.
― 11 minilectura
Tabla de contenidos
- El Problema con los Datos
- La Solución Novel
- El Panorama Actual de los Datos Abiertos
- Trabajo Relacionado
- Análisis de Modelado de Datos
- Implementación del Conector NGSI-LD a CKAN
- Fase 1: Creación de Descripciones
- Fase 2: Publicación de Datos en CKAN
- Fase 3: Serialización DCAT
- Escenario de Validación
- Métricas de Calidad
- Conclusión
- Fuente original
- Enlaces de referencia
Hoy en día, tenemos muchas fuentes de datos que generan grandes cantidades de información. Esta información puede ayudar a mejorar muchas áreas, como los servicios públicos y la transparencia gubernamental. Pero aún hay problemas con lo fácil que es encontrar, acceder y usar estos datos. Los portales de Datos Abiertos han empezado a abordar estos problemas al hacer que los datos estén disponibles para todos. Sin embargo, estos portales no imponen reglas estrictas sobre cómo deberían organizarse o describirse los datos.
El estándar NGSI-LD tiene como objetivo crear uniformidad en cómo se organizan y acceden los datos. Este documento presenta una solución que conecta portales de Datos Abiertos y datos NGSI-LD. Esta conexión nos permite mantener descripciones de datos bien estructuradas de portales de Datos Abiertos mientras aseguramos que los datos puedan interactuar sin problemas con otros sistemas utilizando el estándar NGSI-LD. Nuestra solución combina datos en conjuntos de datos comprensibles y crea descripciones de alta calidad, mejorando la descubribilidad, interoperabilidad y accesibilidad. Probamos esta solución en un escenario del mundo real que compartió datos de IoT en formato NGSI-LD a través del Portal de Datos Europeo (EDP). Los resultados de las evaluaciones muestran que las descripciones de los conjuntos de datos que generamos tienen una alta puntuación en términos de principios de datos FAIR, que representan Encontrabilidad, Accesibilidad, Interoperabilidad y Reusabilidad.
El Problema con los Datos
A medida que crece el número de fuentes de datos, también aumentan las preocupaciones sobre la calidad y compatibilidad de estos conjuntos de datos y sus descripciones. Esto hace que sea más difícil usar los recursos de manera efectiva. La mayoría de las plataformas que gestionan Datos Abiertos, como CKAN, se centran en cómo se describen los conjuntos de datos, conocido como metadatos. Sin embargo, los datos reales no necesitan seguir ningún estándar específico. Esta falta de estandarización a menudo lleva a situaciones en las que diferentes conjuntos de datos que contienen tipos similares de datos no pueden trabajar juntos fácilmente.
Este problema se presenta de manera más pronunciada en los portales de Datos Abiertos más amplios, como el Portal de Datos Europeo, que reúne datos de varias fuentes, incluidos portales nacionales y regionales. Sin una forma estándar de organizar estos datos, se vuelve difícil acceder o reutilizarlos de manera eficiente. Es crucial que los datos disponibles en los portales de Datos Abiertos sigan marcos estandarizados, haciéndolos utilizables y fáciles de compartir entre diferentes sistemas.
Para resolver estos desafíos, necesitamos establecer acuerdos claros sobre cómo se comparten y estructuran los datos. El estándar NGSI-LD ayuda a lograr esto al establecer especificaciones para gestionar datos de contexto. Este estándar facilita el acceso a diferentes tipos de datos y es parte del proyecto de código abierto FIWARE. Se ha probado en diversas situaciones de la vida real y ofrece un método confiable para abordar problemas de compatibilidad al acceder a datos de diferentes fuentes.
Sin embargo, si dependemos únicamente de NGSI-LD, enfrentamos otro problema: este estándar no cuenta con herramientas integradas para ayudar a los usuarios a encontrar los conjuntos de datos accesibles a través de su API. Por lo tanto, NGSI-LD no puede sostenerse por sí solo para garantizar que los datos sean fáciles de encontrar, acceder y reutilizar.
La Solución Novel
La clave de la innovación en nuestro trabajo es combinar portales de Datos Abiertos, particularmente aquellos basados en CKAN, que describen conjuntos de datos utilizando el formato DCAT-AP, con datos NGSI-LD. Al fusionar estos dos enfoques, podemos cubrir las lagunas del otro y crear una solución que maximice la Encontrabilidad, Accesibilidad, Interoperabilidad y Reusabilidad. Nuestra solución simplifica el proceso para los proveedores de datos que utilizan el estándar NGSI-LD para crear los metadatos necesarios para exponer sus datos en portales de Datos Abiertos basados en CKAN.
Dada la importancia de los principios FAIR en el intercambio de datos, nuestra solución contribuye positivamente a crear una base más sólida en torno a modelos de datos y metadatos bien conocidos, como NGSI-LD y DCAT-AP. Hasta donde sabemos, no se han propuesto enfoques similares en la literatura.
En este documento, mostramos el potencial de los portales de Datos Abiertos, específicamente aquellos que utilizan CKAN y DCAT-AP para descripciones de conjuntos de datos, para mejorar la disponibilidad de datos y la descubribilidad junto con NGSI-LD para una mejor compatibilidad de datos.
El Panorama Actual de los Datos Abiertos
Desde que países como Estados Unidos y el Reino Unido lanzaron sus primeros portales de Datos Abiertos en 2009 y 2010, muchos otros países y organizaciones han seguido el ejemplo. Estas iniciativas ayudan a proporcionar acceso público a varios tipos de datos en diferentes formatos, mejorando la capacidad de compartir información en múltiples sectores.
Muchos gobiernos, especialmente en estados miembros de la UE, han adoptado esta tendencia. A menudo utilizan CKAN, una plataforma de código abierto desarrollada y mantenida por Open Knowledge, para sus portales. CKAN proporciona una API confiable que permite fusionar diferentes portales en un solo punto de acceso para datos gubernamentales. CKAN también admite la creación de extensiones para mejorar sus funcionalidades.
La especificación DCAT-AP es el método más adoptado para describir datos en estos portales. Proporciona una forma estandarizada de describir conjuntos de datos y servicios de datos, promoviendo una mejor compatibilidad e intercambio de metadatos entre diferentes portales de datos.
Por otro lado, el estándar NGSI-LD se centra en mejorar el intercambio de datos entre varias entidades en un entorno digital. Garantiza una comunicación efectiva y acceso a información contextual al definir una API y un modelo de información consistente. Este estándar está en el corazón del ecosistema FIWARE.
La iniciativa Smart Data Models complementa NGSI-LD al proporcionar un marco común para representar datos en diferentes sectores, como Ciudades Inteligentes, Agricultura Inteligente, y más. Esta iniciativa incluye muchos modelos de datos compatibles con NGSI-LD.
Trabajo Relacionado
Los portales de datos abiertos sirven como una interfaz vital que promueve la transparencia. Pero para aprovechar verdaderamente estas oportunidades, deben ofrecer una variedad de mecanismos que permitan a los usuarios descubrir, extraer y usar datos de manera efectiva. Hay una necesidad de centrarse más en cómo la tecnología puede ayudar a la transparencia y cómo se pueden lograr estos objetivos.
El potencial de los Datos Abiertos no solo radica en liberar información, sino en garantizar la compatibilidad de múltiples catálogos, permitiendo un mejor intercambio de datos a través de interfaces bien estructuradas. Los servicios de datos son vitales para hacer que los conjuntos de datos abiertos estén disponibles en formatos estructurados y legibles por máquina.
Varios estudios han identificado diferentes tipos de capas de interoperabilidad, incluidas la técnica, semántica, organizativa y legal. Estos marcos guían la promoción de la gestión de servicios sin problemas y el intercambio de datos entre administraciones públicas.
Algunas investigaciones han intentado integrar métodos para mejorar la interconectividad y usabilidad en portales de Datos Abiertos basados en CKAN. Sin embargo, a menudo enfatizan la harmonización de metadatos en lugar de centrarse en hacer que los datos sean más utilizables.
El marco ODDM tiene como objetivo facilitar la investigación interdisciplinaria integrando datos abiertos de diversas fuentes. Sin embargo, se centra principalmente en modelos teóricos en lugar de en la implementación práctica basada en las mejores prácticas.
Análisis de Modelado de Datos
El núcleo de nuestro conector propuesto es traducir y adaptar datos entre los datos de contexto NGSI-LD y los conjuntos de datos CKAN descritos utilizando DCAT-AP. Para asegurarnos de que estos dos dominios puedan trabajar juntos, debemos analizar las características de sus respectivos modelos de datos.
El primer paso en este análisis implica identificar qué datos necesitan ser representados. En nuestro diseño, el enfoque está no solo en acceder a los puntos de datos reales, sino también en los metadatos que describen estas colecciones de datos. Esto implica usar la especificación DCAT-AP como modelo de referencia para compartir información sobre conjuntos de datos.
Utilizamos el Modelo de Datos Inteligentes como intermediario entre el formato DCAT-AP y CKAN. Los procesos de mapeo y conversión aseguran que las descripciones de los conjuntos de datos sean exhaustivas y consistentes.
Implementación del Conector NGSI-LD a CKAN
La solución propuesta consiste en varios componentes que actúan juntos para conectar los dos dominios de NGSI-LD y Datos Abiertos. La arquitectura incluye Brokers de Contexto (CB) federados en el mundo de NGSI-LD y una instancia de CKAN en el mundo de Datos Abiertos.
El papel principal del conector es crear descripciones de los conjuntos de datos disponibles a través del CB. Una vez que se generan estas descripciones, CKAN puede utilizarlas. Esto asegura que los datos de los dos paradigmas de NGSI-LD y Datos Abiertos funcionen de manera cohesiva.
Para lograr esto, definimos un proceso de tres pasos. La primera fase es crear descripciones comprensibles de los datos para CKAN. El siguiente paso implica publicar estas descripciones en la instancia de CKAN, permitiendo a los usuarios acceder a los datos. La fase final es asegurarse de que estas descripciones cumplan con el estándar DCAT-AP.
Fase 1: Creación de Descripciones
En la primera fase, nos centramos en crear descripciones adecuadas de los datos. Esto implica usar los Modelos de Datos Inteligentes para definir entidades como catálogos, conjuntos de datos y distribuciones. Al agrupar datos según sus tipos y proporcionar descripciones completas, permitimos que CKAN entienda y utilice los datos.
Fase 2: Publicación de Datos en CKAN
Una vez que se crean las entidades de datos, el siguiente paso es transferir estas descripciones a una instancia de CKAN. Un módulo de extensión, ckanext-harvest-ngsild, es responsable de esta tarea. Transforma los datos de los Modelos de Datos Inteligentes al formato CKAN adecuado e inyecta los datos en el portal de CKAN.
Fase 3: Serialización DCAT
Para garantizar el cumplimiento con DCAT-AP, hemos desarrollado otra extensión de CKAN para transformar las descripciones de datos de CKAN en documentos RDF que siguen el estándar DCAT. Este paso es esencial para una máxima compatibilidad e interoperabilidad.
Escenario de Validación
Para validar nuestros módulos propuestos, empleamos un caso de uso específico y los integramos en un entorno del mundo real. El Portal de Datos Europeo sirve como consumidor final de los datos generados a través del proyecto SALTED, que tiene como objetivo armonizar y enriquecer datos.
La arquitectura que implementamos tiene en cuenta los requisitos del proceso de Evaluación de Calidad de Metadatos (MQA) del EDP. Esto evalúa la calidad de los conjuntos de datos publicados y garantiza que cumplan ciertos criterios de Encontrabilidad, Accesibilidad, Interoperabilidad y Reusabilidad.
Métricas de Calidad
El proceso de MQA evalúa conjuntos de datos basados en varias métricas que ayudan a determinar su calidad. Estas métricas se centran en aspectos de usabilidad y aseguran que los usuarios sean conscientes de la naturaleza y contexto de los datos que están consumiendo.
Los resultados del escenario de validación demuestran que nuestra arquitectura de conector ha logrado sus objetivos. El despliegue de CKAN como un portal de Datos Abiertos permite la alimentación sin problemas de descripciones de datos en la plataforma. Además, la integración del EDP como consumidor de datos asegura que la información compartida sea de alta calidad y fácilmente accesible.
Conclusión
En conclusión, nuestro trabajo enfatiza los beneficios potenciales de conectar datos NGSI-LD y portales de Datos Abiertos. La combinación de estos dos dominios crea una poderosa solución que mejora la disponibilidad de datos públicos. La arquitectura propuesta, que incluye varios componentes y módulos, ayuda a facilitar el intercambio de información entre estos mundos.
El trabajo futuro puede mejorar aún más la funcionalidad del conector, permitiendo más formatos e integraciones directas sin la necesidad de una instancia intermedia de CKAN. El objetivo final sigue siendo garantizar que el intercambio de datos sea lo más fluido y efectivo posible, llevando a mejores conocimientos y toma de decisiones en varios sectores.
Título: A Connector for Integrating NGSI-LD Data into Open Data Portals
Resumen: Nowadays, there are plenty of data sources generating massive amounts of information that, combined with novel data analytics frameworks, are meant to support optimisation in many application domains. Nonetheless, there are still shortcomings in terms of data discoverability, accessibility and interoperability. Open Data portals have emerged as a shift towards openness and discoverability. However, they do not impose any condition to the data itself, just stipulate how datasets have to be described. Alternatively, the NGSI-LD standard pursues harmonisation in terms of data modelling and accessibility. This paper presents a solution that bridges these two domains (i.e., Open Data portals and NGSI-LD-based data) in order to keep benefiting from the structured description of datasets offered by Open Data portals, while ensuring the interoperability provided by the NGSI-LD standard. Our solution aggregates the data into coherent datasets and generate high-quality descriptions, ensuring comprehensiveness, interoperability and accessibility. The proposed solution has been validated through a real-world implementation that exposes IoT data in NGSI-LD format through the European Data Portal (EDP). Moreover, the results from the Metadata Quality Assessment that the EDP implements, show that the datasets' descriptions generated achieve excellent ranking in terms of the Findability, Accessibility, Interoperability and Reusability (FAIR) data principles.
Autores: Laura Martín, Jorge Lanza, Víctor González, Juan Ramón Santana, Pablo Sotres, Luis Sánchez
Última actualización: 2024-03-06 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2403.03648
Fuente PDF: https://arxiv.org/pdf/2403.03648
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://doi.org/10.3390/s24051695
- https://smartdatamodels.org/dataModel
- https://smartdatamodels.org/dataModel.Parking/ParkingSpot
- https://www.mdpi.com/ethics
- https://www.equator-network.org/
- https://www.issn.org/services/online-services/access-to-the-ltwa/
- https://doi.org/10.1108/TG-12-2015-0050
- https://dx.doi.org/10.1007/s10796-016-9673-7
- https://www.etsi.org/deliver/etsi_gs/CIM/001_099/009/01.07.01_60/gs_CIM009v010701p.pdf
- https://www.etsi.org/deliver/etsi_gs/CIM/001_099/006/01.02.01_60/gs_CIM006v010201p.pdf
- https://dx.doi.org/10.1109/ACCESS.2023.3235863
- https://dx.doi.org/10.3390/s19020229
- https://github.com/SEMICeu/DCAT-AP/blob/b9b20d1d25e6d827754e93af918344a46dc41a1b/releases/2.1.1/dcat-ap_2.1.1.pdf
- https://extensions.ckan.org/
- https://smartdatamodels.org/
- https://dx.doi.org/10.1590/1679-395173241
- https://dx.doi.org/10.1108/TG-02-2017-0015
- https://ec.europa.eu/isa2/sites/default/files/eif_brochure_final.pdf
- https://dx.doi.org/10.1038/sdata.2016.18
- https://www.ncbi.nlm.nih.gov/pubmed/26978244
- https://dx.doi.org/10.3390/electronics12051237
- https://dx.doi.org/10.1109/KSE.2015.56
- https://github.com/smart-data-models/dataModel.DCAT-AP/tree/master
- https://op.europa.eu/en/web/eu-vocabularies/data-catalogue
- https://github.com/tlmat-unican/salted-dataset-registry
- https://docs.ckan.org/en/2.10/extensions/tutorial.html#
- https://github.com/tlmat-unican/ckanext-harvest-ngsild
- https://github.com/tlmat-unican/salted-retriever
- https://github.com/smart-data-models/dataModel.Parking/blob/master/ParkingSpot/doc/spec.md
- https://github.com/ckan/ckanext-dcat
- https://github.com/tlmat-unican/ckanext-dcat-ap-edp-mqa
- https://dx.doi.org/10.1109/ACCESS.2023.3317705
- https://ckan.salted-project.eu/
- https://data.europa.eu/en
- https://dataeuropa.gitlab.io/data-provider-manual/
- https://dataeuropa.gitlab.io/data-provider-manual/metadata-quality/#metadata-quality-dashboard/
- https://data.europa.eu/api/mqa/shacl/
- https://github.com/tlmat-unican/ckanext-oai-pmh-server
- https://dataeuropa.gitlab.io/data-provider-manual/how-to-publish/request-harvesting/#supported-formats-and-protocols
- https://www.openarchives.org/OAI/openarchivesprotocol.html
- https://data.europa.eu/data/catalogues/salted?locale=en
- https://data.europa.eu/data/datasets/2d025904-0147-41aa-bad3-823388dcdf28/quality?locale=en
- https://data.europa.eu/api/hub/repo/datasets/2d025904-0147-41aa-bad3-823388dcdf28.rdf/metrics
- https://www.mdpi.com/authors/references