Aprovechando Modelos de Lenguaje Grandes para la Construcción de Grafos de Conocimiento

Tabla de contenidos

¿De qué trató el desafío?
Trabajo relacionado sobre el conocimiento
Nuestros métodos explicados
Resultados de nuestro estudio
Discusión sobre Wikidata y brechas de conocimiento
Conclusión
Fuente original
Enlaces de referencia

Los Modelos de Lenguaje Grande (LLMs) están cambiando la forma en que pensamos sobre trabajar con información. Pueden hacer varias tareas como entender texto, clasificarlo y reconocer nombres. Últimamente, modelos como ChatGPT y GPT-4 de OpenAI han demostrado ser muy efectivos en estas tareas. La atención se ha movido hacia cómo podemos dar instrucciones a estos modelos de manera efectiva para obtener los mejores resultados.

Los Grafos de Conocimiento son una forma de representar información que permite a las máquinas entender y razonar sobre hechos. Sin embargo, crear estos grafos de conocimiento es complicado, ya sea de forma automática o con ayuda humana. Wikidata es uno de los grafos de conocimiento más grandes que hay, lleno de información sobre entidades del mundo real, y se ha construido gracias a las contribuciones de muchas personas.

Aunque investigaciones anteriores han explorado el uso de LLMs para construir grafos de conocimiento, las mejoras recientes en los LLMs han reavivado el interés. Aunque los LLMs tienen un gran potencial para la ingeniería del conocimiento, hay diferencias clave entre ellos y los grafos de conocimiento. Los grafos de conocimiento almacenan hechos con reglas estrictas, mientras que los LLMs no siempre comprenden el razonamiento lógico de la misma manera.

Además, los LLMs están entrenados principalmente con datos públicamente disponibles, lo que les da un conocimiento profundo en temas populares, pero menos información sobre temas menos conocidos. Este trabajo busca arrojar luz sobre cómo se pueden usar los LLMs para la ingeniería del conocimiento con un enfoque en el Desafío LM-KBC del ISWC 2023.

¿De qué trató el desafío?

El desafío consistía en predecir entidades de objeto basadas en una entidad de sujeto y una relación tomada de Wikidata. Por ejemplo, si el sujeto es "Robert Bosch LLC" y la relación es "CompanyHasParentOrganisation," la tarea es predecir los objetos relevantes, como "Robert Bosch," y enlazarlos con sus correspondientes IDs de Wikidata.

Para abordar esto, usamos dos LLMs de alto rendimiento: gpt-3.5-turbo y GPT-4. Al experimentar con diferentes enfoques, logramos un puntaje F1 promedio macro de 0.701, mostrando que el rendimiento variaba según el tipo de relación examinada. Algunas relaciones obtuvieron puntuaciones perfectas, mientras que otras no lo hicieron tan bien.

Trabajo relacionado sobre el conocimiento

Se ha explorado mucho en la investigación cómo los LLMs pueden manejar tareas intensivas en conocimiento. Estudios previos han mirado el uso de modelos de lenguaje para construir o completar grafos de conocimiento. Por ejemplo, un estudio temprano, LAMA, intentó extraer hechos de los LLMs usando un formato de pregunta específico. Esfuerzos más recientes han analizado aún más el uso de LLMs para estas tareas.

Como resultado, se han creado muchos nuevos benchmarks y conjuntos de datos para evaluar qué tan bien funcionan los LLMs en tareas relacionadas con el conocimiento. Estos benchmarks cubren varios escenarios, como responder preguntas y completar hechos, usando información de grafos de conocimiento. LAMA es uno de los conjuntos de datos pioneros, construido a partir de diversas fuentes de conocimiento, y ha inspirado mejoras adicionales en la evaluación de las capacidades de los LLMs.

Nuestros métodos explicados

La tarea era predecir un conjunto de objetos basado en un sujeto y una relación. Construimos una tubería que involucraba dos pasos principales: indagación de conocimiento y mapeo de entidades a Wikidata.

Indagación de conocimiento

En nuestro paso de indagación, creamos plantillas de pregunta específicas para recolectar conocimiento de los LLMs. Probamos tres configuraciones diferentes:

Preguntas directas: Aquí, le hicimos preguntas directas a los LLMs. Por ejemplo, "¿Qué países comparten fronteras con Brasil?"
Completar triples: En esta configuración, proporcionamos triples incompletos, como "Rio Támesis, RiverBasinsCountry:" y pedimos al modelo que llenara los espacios.
Preguntas con contexto: En este caso, proporcionamos contexto adicional junto a las preguntas para ayudar a los modelos a hacer mejores predicciones.

Al usar contexto, permitimos que los LLMs primero predijeran basado en su conocimiento. Luego, introdujimos información relevante, pidiéndoles que reevaluaran sus respuestas.

En todos los casos, incluimos ejemplos para ayudar a los LLMs a entender mejor el formato esperado de sus respuestas.

Mapeo de entidades de Wikidata

El siguiente paso fue emparejar las cadenas de objetos predichas con entidades reales en Wikidata usando una API proporcionada por la plataforma. Buscamos posibles coincidencias basadas en etiquetas y alias y luego seleccionamos cuidadosamente las entidades correctas. Para esto, desarrollamos métodos mejorados para refinar el proceso de selección, incluyendo:

Método basado en casos: Un método específico para manejar casos con espacios de respuesta más pequeños.
Método basado en palabras clave: Este método examinó las descripciones de los candidatos y las emparejó con palabras clave relevantes.
Enfoque basado en modelos de lenguaje: Aquí, construimos un diccionario de IDs de candidatos y confiamos en los LLMs para elegir la entidad correcta basándose en distinciones más complejas.

Resultados de nuestro estudio

Para nuestro estudio, usamos un conjunto de datos del Desafío LM-KBC, que consistía en varios tipos de relación cubriendo diferentes dominios, como música, geografía y deportes. Cada conjunto incluía 1,940 declaraciones para entrenamiento, validación y prueba.

En nuestra evaluación, GPT-4 superó a gpt-3.5-turbo. Cuando permitimos que los modelos usaran contexto externo en sus predicciones, a menudo resultó en un mejor rendimiento, especialmente para gpt-3.5-turbo. Sin embargo, para GPT-4, el contexto adicional no siempre mejoró los resultados en general.

Nuestras observaciones también indicaron que los LLMs funcionaron bien con relaciones que tenían dominios limitados, pero tuvieron problemas con relaciones que involucraban temas más amplios. Por ejemplo, manejaron "PersonHasNobelPrize" de manera efectiva, pero enfrentaron desafíos con "PersonHasEmployer," probablemente debido a la menor información disponible sobre muchas personas.

Discusión sobre Wikidata y brechas de conocimiento

Mientras trabajábamos con Wikidata, identificamos problemas con la calidad de la información almacenada allí. Algunas entidades carecían de detalles necesarios y muchas entradas no seguían restricciones específicas. Esta falta de completitud significa el potencial de los LLMs para ayudar a mejorar la calidad de Wikidata sugiriendo información faltante.

Además, encontramos una brecha de conocimiento entre Wikipedia y Wikidata, lo que a veces llevó a discrepancias en el rendimiento del modelo. Para algunas relaciones, la información en Wikipedia era más reciente o precisa que la de Wikidata. Esta brecha destaca el papel que los LLMs podrían desempeñar en ayudar a mantener los datos actualizados.

Conclusión

Este trabajo buscaba demostrar el potencial de los LLMs para predecir objetos para grafos de conocimiento a través del Desafío LM-KBC del ISWC 2023. Logramos resultados notables, con nuestro mejor método alcanzando un puntaje promedio de 0.7007 en varias relaciones. Aunque los LLMs pueden ser herramientas valiosas para completar bases de conocimiento, sus limitaciones también subrayan la necesidad de intervención humana para asegurar la precisión de los datos.

Los hallazgos animan a seguir explorando cómo los LLMs pueden trabajar junto a editores humanos para mejorar la calidad y completitud de la información en los sistemas de conocimiento.

Aprovechando Modelos de Lenguaje Grandes para la Construcción de Grafos de Conocimiento

Este estudio muestra cómo los LLMs pueden ayudar a construir grafos de conocimiento.

¿De qué trató el desafío?

Trabajo relacionado sobre el conocimiento

Nuestros métodos explicados

Indagación de conocimiento

Mapeo de entidades de Wikidata

Resultados de nuestro estudio

Discusión sobre Wikidata y brechas de conocimiento

Conclusión

Enlaces de referencia

Temas referenciados

Aprovechando Modelos de Lenguaje Grandes para la Construcción de Grafos de Conocimiento

Este estudio muestra cómo los LLMs pueden ayudar a construir grafos de conocimiento.

#¿De qué trató el desafío?

#Trabajo relacionado sobre el conocimiento

#Nuestros métodos explicados

#Indagación de conocimiento

#Mapeo de entidades de Wikidata

#Resultados de nuestro estudio

#Discusión sobre Wikidata y brechas de conocimiento

#Conclusión

Enlaces de referencia

Temas referenciados

¿De qué trató el desafío?

Trabajo relacionado sobre el conocimiento

Nuestros métodos explicados

Indagación de conocimiento

Mapeo de entidades de Wikidata

Resultados de nuestro estudio

Discusión sobre Wikidata y brechas de conocimiento

Conclusión