Aproveitando Modelos de Linguagem Grande para a Construção de Grafos de Conhecimento
Este estudo mostra como LLMs podem ajudar na construção de grafos de conhecimento.
― 6 min ler
Índice
Modelos de Linguagem Grande (LLMs) tão mudando a forma como a gente pensa em trabalhar com informação. Eles conseguem fazer várias paradas, tipo entender texto, classificar e reconhecer nomes. Recentemente, modelos como o ChatGPT e o GPT-4 da OpenAI mostraram que são muito eficazes nessas tarefas. O foco principal agora é como a gente pode fazer as perguntas certas pra esses modelos conseguirem os melhores resultados.
Grafos de Conhecimento são uma maneira de representar informações que ajudam as máquinas a entender e raciocinar sobre fatos. Mas criar esses grafos é complicado, tanto automático quanto com ajuda humana. O Wikidata é um dos maiores grafos de conhecimento que existe, cheio de informações sobre entidades do mundo real, construído com a contribuição de várias pessoas.
Enquanto pesquisas passadas analisaram o uso de LLMs pra construir grafos de conhecimento, as melhorias recentes nos LLMs reacenderam o interesse. Embora os LLMs tenham um grande potencial para engenharia do conhecimento, existem diferenças importantes entre eles e os grafos de conhecimento. Os grafos guardam fatos com regras rígidas, enquanto os LLMs nem sempre entendem o raciocínio lógico da mesma forma.
Além disso, os LLMs são treinados principalmente em dados disponíveis publicamente, o que faz com que tenham um conhecimento profundo em assuntos populares, mas menos informação sobre tópicos menos conhecidos. Este trabalho busca esclarecer como os LLMs podem ser usados para engenharia do conhecimento, focando no Desafio LM-KBC do ISWC 2023.
Sobre o que foi o Desafio?
O desafio envolveu prever entidades de objeto com base em uma entidade de assunto e uma relação tirada do Wikidata. Por exemplo, se o assunto é "Robert Bosch LLC" e a relação é "CompanyHasParentOrganisation", a tarefa é prever os objetos relevantes, como "Robert Bosch", e vinculá-los aos seus IDs correspondentes no Wikidata.
Pra isso, usamos dois LLMs que se destacaram: gpt-3.5-turbo e GPT-4. Experimentando diferentes abordagens, conseguimos um score F1 médio de 0.701, mostrando que o desempenho variava dependendo do tipo de relação analisada. Algumas relações tiveram pontuações perfeitas, enquanto outras não foram tão bem.
Probing de Conhecimento
Trabalhos Relacionados sobreMuita pesquisa já explorou como os LLMs lidam com tarefas intensivas de conhecimento. Estudos anteriores analisaram o uso de modelos de linguagem pra construir ou completar grafos de conhecimento. Um estudo inicial, o LAMA, tentou extrair fatos dos LLMs usando um formato específico de perguntas. Esforços mais recentes analisaram ainda mais o uso de LLMs pra essas tarefas.
Consequentemente, muitos novos benchmarks e conjuntos de dados foram criados pra avaliar o quão bem os LLMs se saem em tarefas relacionadas ao conhecimento. Esses benchmarks cobrem vários cenários, como responder perguntas e completar fatos, usando informações de grafos de conhecimento. O LAMA é um dos conjuntos pioneiros, construído a partir de várias fontes de conhecimento, e inspirou melhorias na avaliação das capacidades dos LLMs.
Nossos Métodos Explicados
A tarefa era prever um conjunto de objetos com base em um assunto e relação. Criamos um pipeline que envolveu dois passos principais: probing de conhecimento e mapeamento de entidades pro Wikidata.
Probing de Conhecimento
No nosso passo de probing, criamos templates de pergunta específicos pra coletar conhecimento dos LLMs. Testamos três configurações diferentes:
Perguntas Diretas: Aqui, fizemos perguntas diretas pros LLMs. Por exemplo, "Quais países fazem fronteira com o Brasil?"
Completação de Triplas: Nessa configuração, fornecemos triplas incompletas, tipo "Rio Tâmisa, RioBaciasPaís:" e pedimos pro modelo preencher as lacunas.
Perguntas com Contexto: Nesse caso, oferecemos contexto adicional junto com as perguntas pra ajudar os modelos a fazer previsões melhores.
Quando usamos contexto, deixamos os LLMs preverem primeiro com base no conhecimento deles. Depois, introduzimos informações relevantes, pedindo pra eles reavaliar as respostas.
Em todos os casos, incluímos exemplos pra ajudar os LLMs a entender melhor o formato esperado das respostas.
Mapeamento de Entidades do Wikidata
O próximo passo foi combinar as strings de objeto previstas com entidades reais no Wikidata usando uma API fornecida pela plataforma. Procuramos possíveis correspondências com base em rótulos e apelidos e depois selecionamos cuidadosamente as entidades corretas. Pra isso, desenvolvemos métodos melhorados pra refinar o processo de seleção, incluindo:
Método Baseado em Casos: Um método específico pra lidar com casos com espaços de resposta menores.
Método Baseado em Palavras-chave: Esse método analisou descrições dos candidatos e os combinou com palavras-chave relevantes.
Abordagem Baseada em Modelos de Linguagem: Aqui, criamos um dicionário de IDs de candidatos e confiamos nos LLMs pra escolher a entidade certa com base em distinções mais complexas.
Resultados do Nosso Estudo
Pro nosso estudo, usamos um conjunto de dados do Desafio LM-KBC, consistindo em vários tipos de relação cobrindo diferentes domínios, tipo música, geografia e esportes. Cada conjunto incluía 1.940 afirmações pra treinamento, validação e testes.
Na nossa avaliação, o GPT-4 superou o gpt-3.5-turbo. Quando deixamos os modelos usarem contexto externo nas previsões, isso frequentemente levou a um desempenho melhor, especialmente pro gpt-3.5-turbo. No entanto, pro GPT-4, o contexto adicional nem sempre melhorou os resultados como um todo.
Nossas observações também indicaram que os LLMs se saíram bem com relações que tinham domínios limitados, mas tiveram dificuldade com relações que envolviam tópicos mais amplos. Por exemplo, eles lidaram bem com "PersonHasNobelPrize", mas enfrentaram desafios com "PersonHasEmployer", provavelmente por ter menos informação disponível sobre várias pessoas.
Discussão sobre o Wikidata e Lacunas de Conhecimento
Enquanto trabalhávamos com o Wikidata, identificamos problemas em relação à qualidade das informações armazenadas lá. Algumas entidades faltavam detalhes necessários, e muitas entradas não seguiam restrições específicas. Essa falta de completude mostra o potencial dos LLMs pra ajudar a melhorar a qualidade do Wikidata, sugerindo informações que estão faltando.
Além disso, encontramos uma lacuna de conhecimento entre a Wikipedia e o Wikidata, que às vezes levou a discrepâncias no desempenho do modelo. Pra algumas relações, a informação na Wikipedia era mais recente ou precisa do que a do Wikidata. Essa lacuna destaca o papel que os LLMs poderiam desempenhar em ajudar a manter os dados atualizados.
Conclusão
Esse trabalho tinha o objetivo de demonstrar o potencial dos LLMs em prever objetos pra grafos de conhecimento através do Desafio LM-KBC do ISWC 2023. Conseguimos resultados notáveis, com nosso melhor método alcançando um score médio de 0.7007 em várias relações. Embora os LLMs possam ser ferramentas valiosas pra completar bases de conhecimento, suas limitações também ressaltam a necessidade de intervenção humana pra garantir a precisão dos dados.
As descobertas incentivam uma exploração maior de como os LLMs podem trabalhar junto com editores humanos pra melhorar a qualidade e a completude da informação em sistemas de conhecimento.
Título: Using Large Language Models for Knowledge Engineering (LLMKE): A Case Study on Wikidata
Resumo: In this work, we explore the use of Large Language Models (LLMs) for knowledge engineering tasks in the context of the ISWC 2023 LM-KBC Challenge. For this task, given subject and relation pairs sourced from Wikidata, we utilize pre-trained LLMs to produce the relevant objects in string format and link them to their respective Wikidata QIDs. We developed a pipeline using LLMs for Knowledge Engineering (LLMKE), combining knowledge probing and Wikidata entity mapping. The method achieved a macro-averaged F1-score of 0.701 across the properties, with the scores varying from 1.00 to 0.328. These results demonstrate that the knowledge of LLMs varies significantly depending on the domain and that further experimentation is required to determine the circumstances under which LLMs can be used for automatic Knowledge Base (e.g., Wikidata) completion and correction. The investigation of the results also suggests the promising contribution of LLMs in collaborative knowledge engineering. LLMKE won Track 2 of the challenge. The implementation is available at https://github.com/bohuizhang/LLMKE.
Autores: Bohui Zhang, Ioannis Reklos, Nitisha Jain, Albert Meroño Peñuela, Elena Simperl
Última atualização: 2023-09-15 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2309.08491
Fonte PDF: https://arxiv.org/pdf/2309.08491
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://chat.openai.com/
- https://claude.ai/
- https://bard.google.com/
- https://platform.openai.com/docs/models/gpt-3-5
- https://www.wikidata.org/w/api.php
- https://www.wikidata.org/w/api.php?action=help
- https://bohuizhang.github.io/
- https://nitishajain.github.io/
- https://www.albertmeronyo.org/
- https://elenasimperl.eu/
- https://github.com/bohuizhang/LLMKE