Avances en la búsqueda de tablas usando datos abiertos del gobierno
Nuevos métodos mejoran la eficiencia de búsqueda en tablas usando datos abiertos del gobierno.
― 7 minilectura
Tabla de contenidos
En los últimos años, hemos visto un aumento en datos estructurados de varias fuentes, sobre todo de portales gubernamentales. Estos datos pueden ser súper valiosos para la investigación y negocios, pero encontrar la info adecuada puede ser complicado. Muchas veces, estos datos se almacenan en un gran repositorio llamado Lago de Datos, que no tiene un formato consistente. Esto hace que sea difícil localizar la info útil que necesitas para necesidades específicas.
La búsqueda de tablas se ha convertido en un área de estudio, pero la mayoría de los métodos existentes se enfocan en tablas diseñadas para mostrar, como las que se ven en artículos o sitios web. Estas tablas suelen ser mucho más pequeñas y tienen un formato diferente en comparación con las tablas de datos más extensas que se encuentran en un lago de datos. Para abordar este problema, se ha creado un nuevo conjunto de datos que busca evaluar la búsqueda de tablas de datos a una escala más grande, usando información de portales de Datos Abiertos del Gobierno.
Por qué importa la búsqueda de tablas
Cuando buscas datos, a menudo comienza con lo que el usuario quiere encontrar. La gente puede escribir palabras clave para expresar esta intención, lo que les permite reunir un conjunto de tablas de datos relevantes. Desde este conjunto inicial, pueden ampliar su búsqueda para incluir tablas relacionadas. Esto puede involucrar buscar tablas que se complementen entre sí, ya sea combinándolas o encontrando tablas que cubran temas similares.
Un desafío común en búsquedas de tablas anteriores ha sido que los conjuntos de datos usados para referencias fueron limitados. Por ejemplo, los datos recolectados de páginas web o artículos científicos a menudo vienen en tamaños más pequeños con menos consultas. Esta restricción dificulta la capacidad de evaluar adecuadamente los métodos de búsqueda que buscan recuperar más datos.
Resumen del trabajo relacionado
Investigaciones pasadas en búsqueda de tablas se han centrado principalmente en pequeños conjuntos de tablas destinadas a fines de visualización. Por ejemplo, un enfoque recopiló datos de tablas web y se basó en evaluaciones de la comunidad para valorar la relevancia de los resultados. Sin embargo, este método tiene sus limitaciones. Tiende a evaluar la efectividad de métodos que pueden no mejorar la recuperación de información.
Algunos estudios han explorado conjuntos de datos científicos, curando consultas basadas en artículos de física. Otros se han centrado en establecer relaciones entre tablas según su contenido o la organización que las produjo. Sin embargo, estos métodos a menudo se quedan cortos en su capacidad para evaluar métodos que mejoran la experiencia de búsqueda.
Datos abiertos del gobierno
Los datos abiertos del gobierno se refieren a la información liberada por los gobiernos, con el objetivo de mejorar la transparencia y apoyar la investigación. Estos datos suelen estar en portales que proporcionan acceso estructurado. Una de esas estructuras de portal es conocida como CKAN, donde los datos están organizados en una jerarquía que incluye sitios, conjuntos de datos y tablas.
Al descargar datos de varios portales gubernamentales en inglés, los investigadores pueden crear una referencia de búsqueda de tablas más completa. Cada tabla viene con metadatos-esto incluye detalles sobre la organización que produjo los datos, etiquetas descriptivas y otra info clave para ayudar en la organización.
Procesamiento de datos gubernamentales
Antes de hacer búsquedas de tablas, los datos necesitan ser procesados. Esto suele implicar extraer datos de tablas estructuradas, que pueden venir en formatos como archivos CSV o Excel. Después de esta extracción, las tablas necesitan ser desduplicadas para asegurar que no se incluyan tablas similares o idénticas en los resultados de búsqueda.
Al determinar si dos tablas deben considerarse duplicadas, se toman en cuenta varios factores como nombres, descripciones, etiquetas y filas de ejemplo de las tablas. El objetivo es asegurar que los métodos de búsqueda puedan manejar casos complicados de manera efectiva.
Tipos de búsqueda de tablas
Hay dos tipos principales de búsqueda de tablas: búsqueda por palabras clave y búsqueda de tablas relacionadas. Ambos tipos ayudan a los usuarios a recopilar conjuntos iniciales de tablas y expandirlos.
En la búsqueda por palabras clave, los usuarios ingresan palabras clave para encontrar tablas. Estas tablas se juzgan según si se alinean con las palabras clave utilizadas. Para mejorar la experiencia de búsqueda, los investigadores filtran palabras clave demasiado comunes o raras. El objetivo es crear consultas significativas que puedan recuperar los resultados más relevantes.
Para la búsqueda de tablas relacionadas, una tabla específica sirve como punto de partida, y el objetivo es encontrar tablas semánticamente relacionadas. Diferentes estándares pueden determinar la relevancia-ya sea que dos tablas provengan del mismo conjunto de datos, sean creadas por la misma organización, o compartan etiquetas similares.
Evaluación de búsquedas de tablas
Para evaluar qué tan bien funcionan estas búsquedas de tablas, se utilizan ciertos métodos y herramientas. Un método común emplea un enfoque tradicional de recuperación de información, que puede evaluar qué tan bien se recuperan las tablas basado en un cierto sistema de puntuación. Las pruebas iniciales suelen usar estos métodos tradicionales para establecer líneas de base que las técnicas más nuevas pueden luego mejorar.
Métodos más avanzados buscan usar redes neuronales para mejorar el rendimiento de la recuperación de tablas. Estos enfoques implican transformar tablas en representaciones densas que pueden ser comparadas rápidamente, permitiendo una recuperación más precisa.
Resultados y hallazgos
Al probar los métodos de búsqueda de tablas, los investigadores encontraron que todavía hay un gran espacio para mejorar. Mientras que algunos métodos tradicionales funcionan bastante bien, los modelos neuronales a menudo han superado estas técnicas iniciales, especialmente en términos de emparejar tablas relevantes.
Para búsquedas por palabras clave, los resultados han mostrado que incluso usar un modelo preentrenado puede ofrecer mejores resultados en comparación con métodos tradicionales. Obtener insights de cómo desempeñan estos diferentes enfoques ayuda a los investigadores a entender qué áreas de búsqueda de tablas requieren más atención.
El futuro de la búsqueda de tablas
Los avances en la búsqueda de tablas, especialmente con el uso de datos abiertos del gobierno, ofrecen posibilidades emocionantes para el futuro. Al crear un conjunto de datos que sea realista y extenso, los investigadores pueden seguir refinando los métodos utilizados para encontrar y recuperar tablas de datos de manera eficiente.
De cara al futuro, la comunidad investigadora puede enfocarse en mejorar los métodos de recuperación mientras asegura que las herramientas desarrolladas puedan adaptarse a diferentes entornos de datos, incluyendo aquellos que pueden no tener estructuras consistentes. Estos desarrollos pueden llevar a mejores herramientas de descubrimiento de datos que apoyen tanto la investigación como las necesidades empresariales.
En resumen, a medida que la cantidad de datos estructurados sigue creciendo, las tecnologías y métodos para buscar y recuperar estos datos deben evolucionar junto con ello. Al aprovechar los datos abiertos del gobierno y mejorar las metodologías de búsqueda existentes, podemos proporcionar un mejor acceso a información que es vital para varias aplicaciones en la sociedad actual.
Título: Open Government Data Corpus for Table Search
Resumen: Increasing amounts of structured data can provide value for research and business if the relevant data can be located. Often the data is in a data lake without a consistent schema, making locating useful data challenging. Table search is a growing research area, but existing benchmarks have been limited to displayed tables. Tables sized and formatted for display in a Wikipedia page or ArXiv paper are considerably different from data tables in both scale and style. By using metadata associated with open data from government portals, we create the first dataset to benchmark search over data tables at scale. We demonstrate three styles of table-to-table related table search. The three notions of table relatedness are: tables produced by the same organization, tables distributed as part of the same dataset, and tables with a high degree of overlap in the annotated tags. The keyword tags provided with the metadata also permit the automatic creation of a keyword search over tables benchmark. We provide baselines on this dataset using existing methods including traditional and neural approaches.
Autores: Michael Glass, Sugato Bagchi, Oktie Hassanzadeh, Gaetano Rossiello, Alfio Gliozzo
Última actualización: 2023-08-24 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2308.13560
Fuente PDF: https://arxiv.org/pdf/2308.13560
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://iswc2023.semanticweb.org/call-for-resources-track-papers/
- https://data.gov/privacy-policy/#licensing
- https://open.canada.ca/en/open-government-licence-canada
- https://www.nationalarchives.gov.uk/doc/open-government-licence/version/3/
- https://creativecommons.org/licenses/by/4.0/legalcode
- https://data.gov.ie/pages/opendatalicence
- https://creativecommons.org/licenses/by/3.0/au/
- https://data.gov.au/page/about
- https://africaopendata.org/about/terms-and-conditions
- https://data.gov.sg/open-data-licence