Evaluando formatos de datos de procedencia para astronomía
Este estudio compara los formatos turtle y JSON para almacenar datos de procedencia astronómica.
― 5 minilectura
Tabla de contenidos
Los datos de procedencia son esenciales para construir confianza en el procesamiento de datos astronómicos. Ayudan a asegurar que los científicos puedan reproducir resultados en su trabajo. Al tener acceso a la información de procedencia, los investigadores también pueden responder preguntas relacionadas con la detección de anomalías, recomendaciones y predicciones.
Con los avances en tecnología, los telescopios de próxima generación pueden producir enormes cantidades de datos, lo que hace crítico que los científicos gestionen y accedan a los datos de procedencia de manera eficiente. Este artículo compara dos formatos para almacenar datos de procedencia: turtle y JSON. Los sistemas utilizados para las pruebas fueron Apache Jena Fuseki para turtle y Neo4j para JSON.
Se creó datos de procedencia para probar cómo se desempeñó cada sistema en diferentes escenarios. Se midieron métricas como la velocidad de consulta y la precisión. Los resultados mostraron que ambos formatos eran capaces, con turtle rindiendo mejor en algunas áreas, especialmente para Consultas simples en conjuntos de datos más pequeños. Para consultas más complejas, JSON funcionó mejor a medida que aumentaba el tamaño de los datos.
La necesidad de que los científicos procesen y analicen grandes cantidades de datos astronómicos está creciendo. Los telescopios del futuro generarán datos en el rango de petabytes y exabytes. Esta gran escala requiere análisis de datos automatizados, y los resultados deben ser confiables. Los datos de procedencia, que rastrean la historia y el proceso de generación de datos, son cruciales para garantizar esta confiabilidad.
La procedencia describe cómo se creó el dato, incluyendo las fuentes de datos originales, los métodos de procesamiento y las personas involucradas. El estándar PROV proporciona un marco para registrar esta información, usando entidades para representar elementos de datos, actividades para representar procesos y agentes para representar a las partes responsables. El formato estándar para PROV se llama PROV-N, pero también se puede almacenar en formatos turtle y JSON para su uso con diferentes sistemas.
La elección entre turtle y JSON afecta cómo se almacenan y acceden los datos. Este estudio tiene como objetivo evaluar qué formato funciona mejor en términos de eficiencia de almacenamiento y consulta para datos de procedencia astronómica.
Para llevar a cabo esta evaluación, se generaron datos simulados, variando en tamaño de 10KB a 150MB. Cada conjunto de datos se convirtió en formatos turtle y JSON. Luego, los datos se subieron a sus respectivas Bases de datos para pruebas. Las consultas se basaron en escenarios relevantes para astrónomos, cubriendo varios casos de uso para la información de procedencia.
Los datos de procedencia se generaron a partir de dos tuberías astronómicas simples escritas en Python. Una tubería se centró en detectar estrellas en imágenes ópticas, mientras que la otra investigó objetos astronómicos en imágenes de radio. Cada tubería produjo una pequeña cantidad de datos de procedencia que luego se expandieron para fines de prueba.
Al comparar los resultados de las consultas, el estudio encontró que tanto los formatos turtle como JSON devolvieron resultados similares en la mayoría de los casos. Sin embargo, se notaron algunas discrepancias, particularmente con consultas específicas que no encontraron datos relevantes en las tuberías proporcionadas.
La precisión de las consultas se probó comparando los resultados entre los dos sistemas de bases de datos. Si los resultados coincidían, ambas consultas se consideraban precisas. Los resultados fueron consistentes para la mayoría de los requisitos, excepto cuando ciertos datos no estaban disponibles en uno o ambos formatos.
El tiempo de consulta también fue una métrica esencial. Se registró el tiempo que tardó en ejecutar cada consulta, y los resultados mostraron que ambos sistemas se desempeñaron de manera similar para conjuntos de datos más pequeños. A medida que aumentaron los tamaños de los conjuntos de datos, Neo4j generalmente se volvió más eficiente en el procesamiento de consultas complejas, mientras que Fuseki fue más rápido para consultas más simples.
La eficiencia de almacenamiento se evaluó observando cómo cada sistema manejaba los diferentes formatos y el tiempo que tardaba en subir los datos. Para conjuntos de datos más pequeños, ambos sistemas tuvieron tiempos de carga comparables, pero Fuseki se desempeñó mejor en términos de velocidad para conjuntos de datos más grandes.
El estudio destaca que las elecciones en la serialización de datos de procedencia deben basarse en el uso que se les dará. Para tareas más simples de recuperación de datos, se recomienda usar el formato turtle, mientras que JSON es preferible para consultas más complejas. El rendimiento de cada sistema también depende del tamaño del conjunto de datos y de la complejidad de las consultas involucradas.
En resumen, la comparación de turtle y JSON para datos de procedencia astronómica muestra que ambos formatos tienen sus fortalezas y debilidades. Los hallazgos sugieren que los investigadores deben considerar las necesidades específicas de su trabajo al seleccionar un método de serialización de datos. El crecimiento continuo de la generación de datos astronómicos subraya la importancia de una gestión efectiva de la procedencia para asegurar la confiabilidad y la reproducibilidad en la investigación científica.
Título: Evaluation of Provenance Serialisations for Astronomical Provenance
Resumen: Provenance data from astronomical pipelines are instrumental in establishing trust and reproducibility in the data processing and products. In addition, astronomers can query their provenance to answer questions routed in areas such as anomaly detection, recommendation, and prediction. The next generation of astronomical survey telescopes such as the Vera Rubin Observatory or Square Kilometre Array, are capable of producing peta to exabyte scale data, thereby amplifying the importance of even small improvements to the efficiency of provenance storage or querying. In order to determine how astronomers should store and query their provenance data, this paper reports on a comparison between the turtle and JSON provenance serialisations. The triple store Apache Jena Fuseki and the graph database system Neo4j were selected as representative database management systems (DBMS) for turtle and JSON, respectively. Simulated provenance data was uploaded to and queried over each DBMS and the metrics measured for comparison were the accuracy and timing of the queries as well as the data upload times. It was found that both serialisations are competent for this purpose, and both have similar query accuracy. The turtle provenance was found to be more efficient at storing and uploading the data. Regarding queries, for small datasets ($
Autores: Michael A. C. Johnson, Marcus Paradies, Hans-Rainer Klöckner, Albina Muzafarova, Kristen Lackeos, David J. Champion, Marta Dembska, Sirko Schindler
Última actualización: 2024-07-19 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2407.14290
Fuente PDF: https://arxiv.org/pdf/2407.14290
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://hub.docker.com/r/secoresearch/fuseki/
- https://pypi.org/project/bdsf/
- https://gitlab.mpcdf.mpg.de/PRAETOR/prov-PRAETOR_public/-/tree/main/prov-PRAETOR/provenance_queries/turtle_vs_rdf
- https://www.w3.org/ns/prov#
- https://example.org/
- https://praetor.pages.mpcdf.de/prov-PRAETOR_public/
- https://tex.stackexchange.com/a/32690/63780
- https://orcid.org/#1