Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje# Inteligencia artificial

Aprovechando Modelos de Lenguaje Grandes para la Construcción de Grafos de Conocimiento

Este estudio muestra cómo los LLMs pueden ayudar a construir grafos de conocimiento.

― 7 minilectura


LLMs en Grafos deLLMs en Grafos deConocimientospredicciones de bases de conocimiento.Examinando el potencial de los LLMs en
Tabla de contenidos

Los Modelos de Lenguaje Grande (LLMs) están cambiando la forma en que pensamos sobre trabajar con información. Pueden hacer varias tareas como entender texto, clasificarlo y reconocer nombres. Últimamente, modelos como ChatGPT y GPT-4 de OpenAI han demostrado ser muy efectivos en estas tareas. La atención se ha movido hacia cómo podemos dar instrucciones a estos modelos de manera efectiva para obtener los mejores resultados.

Los Grafos de Conocimiento son una forma de representar información que permite a las máquinas entender y razonar sobre hechos. Sin embargo, crear estos grafos de conocimiento es complicado, ya sea de forma automática o con ayuda humana. Wikidata es uno de los grafos de conocimiento más grandes que hay, lleno de información sobre entidades del mundo real, y se ha construido gracias a las contribuciones de muchas personas.

Aunque investigaciones anteriores han explorado el uso de LLMs para construir grafos de conocimiento, las mejoras recientes en los LLMs han reavivado el interés. Aunque los LLMs tienen un gran potencial para la ingeniería del conocimiento, hay diferencias clave entre ellos y los grafos de conocimiento. Los grafos de conocimiento almacenan hechos con reglas estrictas, mientras que los LLMs no siempre comprenden el razonamiento lógico de la misma manera.

Además, los LLMs están entrenados principalmente con datos públicamente disponibles, lo que les da un conocimiento profundo en temas populares, pero menos información sobre temas menos conocidos. Este trabajo busca arrojar luz sobre cómo se pueden usar los LLMs para la ingeniería del conocimiento con un enfoque en el Desafío LM-KBC del ISWC 2023.

¿De qué trató el desafío?

El desafío consistía en predecir entidades de objeto basadas en una entidad de sujeto y una relación tomada de Wikidata. Por ejemplo, si el sujeto es "Robert Bosch LLC" y la relación es "CompanyHasParentOrganisation," la tarea es predecir los objetos relevantes, como "Robert Bosch," y enlazarlos con sus correspondientes IDs de Wikidata.

Para abordar esto, usamos dos LLMs de alto rendimiento: gpt-3.5-turbo y GPT-4. Al experimentar con diferentes enfoques, logramos un puntaje F1 promedio macro de 0.701, mostrando que el rendimiento variaba según el tipo de relación examinada. Algunas relaciones obtuvieron puntuaciones perfectas, mientras que otras no lo hicieron tan bien.

Trabajo relacionado sobre el conocimiento

Se ha explorado mucho en la investigación cómo los LLMs pueden manejar tareas intensivas en conocimiento. Estudios previos han mirado el uso de modelos de lenguaje para construir o completar grafos de conocimiento. Por ejemplo, un estudio temprano, LAMA, intentó extraer hechos de los LLMs usando un formato de pregunta específico. Esfuerzos más recientes han analizado aún más el uso de LLMs para estas tareas.

Como resultado, se han creado muchos nuevos benchmarks y conjuntos de datos para evaluar qué tan bien funcionan los LLMs en tareas relacionadas con el conocimiento. Estos benchmarks cubren varios escenarios, como responder preguntas y completar hechos, usando información de grafos de conocimiento. LAMA es uno de los conjuntos de datos pioneros, construido a partir de diversas fuentes de conocimiento, y ha inspirado mejoras adicionales en la evaluación de las capacidades de los LLMs.

Nuestros métodos explicados

La tarea era predecir un conjunto de objetos basado en un sujeto y una relación. Construimos una tubería que involucraba dos pasos principales: indagación de conocimiento y mapeo de entidades a Wikidata.

Indagación de conocimiento

En nuestro paso de indagación, creamos plantillas de pregunta específicas para recolectar conocimiento de los LLMs. Probamos tres configuraciones diferentes:

  1. Preguntas directas: Aquí, le hicimos preguntas directas a los LLMs. Por ejemplo, "¿Qué países comparten fronteras con Brasil?"

  2. Completar triples: En esta configuración, proporcionamos triples incompletos, como "Rio Támesis, RiverBasinsCountry:" y pedimos al modelo que llenara los espacios.

  3. Preguntas con contexto: En este caso, proporcionamos contexto adicional junto a las preguntas para ayudar a los modelos a hacer mejores predicciones.

Al usar contexto, permitimos que los LLMs primero predijeran basado en su conocimiento. Luego, introdujimos información relevante, pidiéndoles que reevaluaran sus respuestas.

En todos los casos, incluimos ejemplos para ayudar a los LLMs a entender mejor el formato esperado de sus respuestas.

Mapeo de entidades de Wikidata

El siguiente paso fue emparejar las cadenas de objetos predichas con entidades reales en Wikidata usando una API proporcionada por la plataforma. Buscamos posibles coincidencias basadas en etiquetas y alias y luego seleccionamos cuidadosamente las entidades correctas. Para esto, desarrollamos métodos mejorados para refinar el proceso de selección, incluyendo:

  • Método basado en casos: Un método específico para manejar casos con espacios de respuesta más pequeños.

  • Método basado en palabras clave: Este método examinó las descripciones de los candidatos y las emparejó con palabras clave relevantes.

  • Enfoque basado en modelos de lenguaje: Aquí, construimos un diccionario de IDs de candidatos y confiamos en los LLMs para elegir la entidad correcta basándose en distinciones más complejas.

Resultados de nuestro estudio

Para nuestro estudio, usamos un conjunto de datos del Desafío LM-KBC, que consistía en varios tipos de relación cubriendo diferentes dominios, como música, geografía y deportes. Cada conjunto incluía 1,940 declaraciones para entrenamiento, validación y prueba.

En nuestra evaluación, GPT-4 superó a gpt-3.5-turbo. Cuando permitimos que los modelos usaran contexto externo en sus predicciones, a menudo resultó en un mejor rendimiento, especialmente para gpt-3.5-turbo. Sin embargo, para GPT-4, el contexto adicional no siempre mejoró los resultados en general.

Nuestras observaciones también indicaron que los LLMs funcionaron bien con relaciones que tenían dominios limitados, pero tuvieron problemas con relaciones que involucraban temas más amplios. Por ejemplo, manejaron "PersonHasNobelPrize" de manera efectiva, pero enfrentaron desafíos con "PersonHasEmployer," probablemente debido a la menor información disponible sobre muchas personas.

Discusión sobre Wikidata y brechas de conocimiento

Mientras trabajábamos con Wikidata, identificamos problemas con la calidad de la información almacenada allí. Algunas entidades carecían de detalles necesarios y muchas entradas no seguían restricciones específicas. Esta falta de completitud significa el potencial de los LLMs para ayudar a mejorar la calidad de Wikidata sugiriendo información faltante.

Además, encontramos una brecha de conocimiento entre Wikipedia y Wikidata, lo que a veces llevó a discrepancias en el rendimiento del modelo. Para algunas relaciones, la información en Wikipedia era más reciente o precisa que la de Wikidata. Esta brecha destaca el papel que los LLMs podrían desempeñar en ayudar a mantener los datos actualizados.

Conclusión

Este trabajo buscaba demostrar el potencial de los LLMs para predecir objetos para grafos de conocimiento a través del Desafío LM-KBC del ISWC 2023. Logramos resultados notables, con nuestro mejor método alcanzando un puntaje promedio de 0.7007 en varias relaciones. Aunque los LLMs pueden ser herramientas valiosas para completar bases de conocimiento, sus limitaciones también subrayan la necesidad de intervención humana para asegurar la precisión de los datos.

Los hallazgos animan a seguir explorando cómo los LLMs pueden trabajar junto a editores humanos para mejorar la calidad y completitud de la información en los sistemas de conocimiento.

Fuente original

Título: Using Large Language Models for Knowledge Engineering (LLMKE): A Case Study on Wikidata

Resumen: In this work, we explore the use of Large Language Models (LLMs) for knowledge engineering tasks in the context of the ISWC 2023 LM-KBC Challenge. For this task, given subject and relation pairs sourced from Wikidata, we utilize pre-trained LLMs to produce the relevant objects in string format and link them to their respective Wikidata QIDs. We developed a pipeline using LLMs for Knowledge Engineering (LLMKE), combining knowledge probing and Wikidata entity mapping. The method achieved a macro-averaged F1-score of 0.701 across the properties, with the scores varying from 1.00 to 0.328. These results demonstrate that the knowledge of LLMs varies significantly depending on the domain and that further experimentation is required to determine the circumstances under which LLMs can be used for automatic Knowledge Base (e.g., Wikidata) completion and correction. The investigation of the results also suggests the promising contribution of LLMs in collaborative knowledge engineering. LLMKE won Track 2 of the challenge. The implementation is available at https://github.com/bohuizhang/LLMKE.

Autores: Bohui Zhang, Ioannis Reklos, Nitisha Jain, Albert Meroño Peñuela, Elena Simperl

Última actualización: 2023-09-15 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2309.08491

Fuente PDF: https://arxiv.org/pdf/2309.08491

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares