Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Recuperación de información# Inteligencia artificial# Computación y lenguaje

Vinculando Datos a Glosarios de Negocios

Un estudio sobre cómo mejorar la recuperación de datos a través de la coincidencia de glosarios.

― 7 minilectura


Técnicas de CoincidenciaTécnicas de Coincidenciade Glosario de DatosIA y glosarios.Mejorando el análisis de datos usando
Tabla de contenidos

Muchos negocios tienen grandes cantidades de datos estructurados en forma de bases de datos o lagos de datos. Sin embargo, a menudo estos datos no tienen etiquetas claras ni información sobre su contenido. Esto hace que sea difícil recuperar y analizar los datos de manera efectiva. Por lo tanto, hay una necesidad de soluciones que puedan hacer un mejor uso de la información disponible. Este documento analiza el desafío de conectar los Metadatos de las tablas, como los nombres de las columnas, con glosarios comerciales que definen términos y descripciones comunes en el negocio. Al hacer coincidir esto, las empresas pueden encontrar términos útiles para describir sus datos sin tener que profundizar en los datos reales.

El Desafío

Las empresas generalmente recopilan un montón de datos, pero mantener metadatos precisos suele ser un desafío y bastante caro. Recientemente, muchas empresas han cambiado a lagos de datos, que tienen menos reglas sobre metadatos. Esto lleva a una situación en la que muchos metadatos útiles pueden estar ausentes, lo que hace que sea difícil clasificar o analizar los datos eficientemente. Un glosario comercial generalmente proporciona definiciones de términos importantes, y vincular este glosario a las columnas de la tabla puede facilitar tareas como descubrir datos o integrar diferentes fuentes de datos.

La tarea de mapear los encabezados de las columnas a los términos del glosario es similar a otra tarea conocida como Anotación de Tipo de Columna, que implica etiquetar columnas con conceptos de un vocabulario estructurado. Sin embargo, no se ha trabajado mucho específicamente en los metadatos básicos-como los nombres y encabezados de las columnas-de las tablas. En este estudio, nos enfocamos en las limitaciones de los datos disponibles, que a menudo carecen de descripciones ricas, y la dificultad de etiquetar manualmente estos datos debido a la falta de tiempo y experiencia.

Métodos para Coincidir Metadatos

Para abordar el desafío de hacer coincidir las columnas de la tabla con los términos del glosario comercial de manera efectiva, usamos Modelos de Lenguaje Grande (LLMs). Estas son herramientas avanzadas de IA que pueden analizar el lenguaje y reconocer relaciones entre palabras y conceptos. Proponemos dos enfoques principales:

Coincidencia de Descripción de Metadatos con Glosario (MDGM)

En este método, generamos descripciones para los nombres de las columnas y luego comparamos estas descripciones con los términos del glosario para encontrar las mejores coincidencias.

Coincidencia Directa de Metadatos con Glosario (DMGM)

Este enfoque utiliza LLMs para hacer coincidir directamente los metadatos de las columnas con los términos del glosario sin generar ninguna descripción adicional.

Ambos métodos tienen como objetivo recuperar elementos del glosario que mejor representen los metadatos de la tabla.

Uso de Modelos de Lenguaje Grande

Los LLMs han demostrado ser muy prometedores para manejar diversas tareas que involucran lenguaje natural. Funcionan recibiendo indicaciones-esencialmente instrucciones o preguntas-y generan respuestas relevantes según su entrenamiento. En este contexto, usamos LLMs para mejorar nuestra capacidad de hacer coincidir los nombres de las columnas con los términos del glosario de manera precisa.

Aprendizaje en Contexto

En lugar de entrenar LLMs desde cero, podemos proporcionarles ejemplos de cómo realizar la tarea. Esto se llama Aprendizaje en Contexto. Al mostrar a los LLMs algunos ejemplos de tareas de coincidencia, les ayudamos a entender qué tipo de respuestas esperamos.

Nuestro Enfoque

Proponemos una serie de técnicas que pueden mejorar la coincidencia entre las columnas de la tabla y los términos del glosario. Estas técnicas caen en dos categorías principales:

  1. Generación de Descripción de Metadatos: Aquí, generamos descripciones para los metadatos usando LLMs y luego encontramos términos del glosario que coinciden con esas descripciones.

  2. Inferencia Directa: En este enfoque, consultamos directamente a los LLMs para encontrar qué términos del glosario se alinean con los metadatos sin generar descripciones previas.

Generación de Descripción de Metadatos a través del Aprendizaje en Contexto

En este método, entrenamos al LLM con ejemplos existentes, permitiéndole generar descripciones para cualquier nombre de columna dado. Luego usamos estas descripciones para encontrar los mejores elementos del glosario que coincidan.

Generación de Descripción de Metadatos a través de Clasificación

Usando clasificaciones, creamos preguntas específicas para que los LLMs determinen si un término del glosario se ajusta a un nombre de columna dado. Esto ayuda a limitar las posibles coincidencias.

Generación de Descripción de Metadatos a través de Preguntas de Opción Múltiple

En una línea similar, también creamos preguntas de opción múltiple para los LLMs, pidiéndoles que seleccionen la mejor coincidencia de una lista de términos del glosario basada en la información proporcionada.

Inferencia Directa a través de Clasificación

Este método salta el paso de generación de descripciones y pregunta directamente a los LLMs qué términos del glosario coinciden con los metadatos dados.

Inferencia Directa a través de Preguntas de Opción Múltiple

Al igual que el método anterior, esta técnica involucra preguntar al LLM que elija la mejor coincidencia de un conjunto de opciones sin generar descripciones.

Configuración Experimental

Para evaluar nuestros enfoques, usamos un conjunto de datos desarrollado por una empresa. El conjunto de datos contiene varias tablas con nombres de columnas complejos y un glosario de términos que describen conceptos clave del negocio. Probamos nuestros métodos para ver qué tan bien funcionan al hacer coincidir los nombres de las columnas con los términos del glosario. Nuestro objetivo es encontrar los mejores métodos que ofrezcan la mayor precisión en estas comparaciones.

Nos enfocamos en dos métricas principales: Hit@5 y Hit@1. Hit@5 mide si el término correcto del glosario aparece entre las cinco mejores opciones devueltas, mientras que Hit@1 verifica si el término correcto es la mejor coincidencia.

Resultados

Nuestros experimentos revelan que los métodos que usan LLMs mejoran significativamente la precisión de la coincidencia de glosarios en comparación con métodos tradicionales. El mejor rendimiento provino del método de Aprendizaje en Contexto, que aprovecha efectivamente ejemplos para guiar a los LLMs.

Si bien los métodos directos también dieron resultados, generalmente fueron menos confiables, especialmente cuando varios términos tenían descripciones similares. En contraste, generar descripciones ayudó a mejorar la precisión de la coincidencia.

Discusión

Nuestros hallazgos sugieren varios puntos importantes sobre el uso de LLMs para tareas de coincidencia. Si bien muchos métodos pueden ayudar a mejorar la precisión de la coincidencia, necesitan ser diseñados cuidadosamente para mitigar sesgos que puedan surgir de los LLMs. Además, proporcionar ejemplos suficientes puede mejorar enormemente la efectividad de los LLMs para lograr mejores coincidencias.

También aprendimos que algunos métodos, como seleccionar directamente una sola coincidencia, pueden no ser tan efectivos debido a las sutilezas en el lenguaje y la terminología utilizada en los glosarios comerciales.

Direcciones Futuras

Hay muchas formas de mejorar aún más este trabajo. Por ejemplo, podríamos refinar los prompts de clasificación o ajustar cómo se guían los LLMs durante el proceso de coincidencia. Explorar técnicas para minimizar sesgos dentro de los LLMs podría llevar a un rendimiento aún mejor.

Además, podría ser útil experimentar con diferentes métodos de generación de descripciones para asegurarnos de que estén alineados de cerca con los términos del glosario. Al probar varios enfoques y técnicas, podemos esforzarnos por lograr una precisión aún mayor en las tareas de coincidencia.

Conclusión

Este estudio destaca la promesa de usar modelos avanzados de IA para enfrentar los desafíos de vincular datos con glosarios comerciales. Aunque hay varios métodos disponibles, nuestra investigación continua tiene como objetivo ajustar estos enfoques para mejorar su efectividad y confiabilidad. A través de la combinación de modelos de lenguaje y técnicas de coincidencia inteligentes, podemos desbloquear el potencial de los datos estructurados en las empresas, ayudando a cerrar brechas en los metadatos y permitiendo una mejor utilización de los datos.

Fuente original

Título: Matching Table Metadata with Business Glossaries Using Large Language Models

Resumen: Enterprises often own large collections of structured data in the form of large databases or an enterprise data lake. Such data collections come with limited metadata and strict access policies that could limit access to the data contents and, therefore, limit the application of classic retrieval and analysis solutions. As a result, there is a need for solutions that can effectively utilize the available metadata. In this paper, we study the problem of matching table metadata to a business glossary containing data labels and descriptions. The resulting matching enables the use of an available or curated business glossary for retrieval and analysis without or before requesting access to the data contents. One solution to this problem is to use manually-defined rules or similarity measures on column names and glossary descriptions (or their vector embeddings) to find the closest match. However, such approaches need to be tuned through manual labeling and cannot handle many business glossaries that contain a combination of simple as well as complex and long descriptions. In this work, we leverage the power of large language models (LLMs) to design generic matching methods that do not require manual tuning and can identify complex relations between column names and glossaries. We propose methods that utilize LLMs in two ways: a) by generating additional context for column names that can aid with matching b) by using LLMs to directly infer if there is a relation between column names and glossary descriptions. Our preliminary experimental results show the effectiveness of our proposed methods.

Autores: Elita Lobo, Oktie Hassanzadeh, Nhan Pham, Nandana Mihindukulasooriya, Dharmashankar Subramanian, Horst Samulowitz

Última actualización: 2023-09-07 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2309.11506

Fuente PDF: https://arxiv.org/pdf/2309.11506

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares