Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Inteligência Artificial

Avaliação de Modelos de Linguagem para Completação de Base de Conhecimento

Novos benchmarks mostram potencial nos modelos de linguagem para preencher lacunas de conhecimento.

― 11 min ler


Modelos de Linguagem emModelos de Linguagem emBases de Conhecimentodos fatos em bases de conhecimento.Novos métodos pra melhorar a precisão
Índice

Bases de Conhecimento estruturadas (KBs) são super importantes pra várias aplicações inteligentes, mas muitas vezes elas não têm todas as informações. Ultimamente, a galera da pesquisa tem explorado o uso de modelos de linguagem (LMs) pra ajudar a preencher essas lacunas nas bases de conhecimento. Os primeiros resultados foram promissores, mas ainda rolam dúvidas sobre o quão bons esses modelos realmente são pra essa tarefa. Muitas avaliações atuais focam só em tópicos populares ou usam informações que já existem nas KBs, o que não dá uma visão completa do potencial dos modelos.

Nesse trabalho, a gente propõe um novo conjunto de dados de benchmark mais exigente e um método pra avaliar realisticamente como os LMs conseguem completar as bases de conhecimento. Criamos um dataset chamado "Wikidata Sample," que seleciona aleatoriamente mais de 3,9 milhões de fatos do Wikidata. Esse dataset não tem viés e visa avaliar os LMs em previsões que não foram documentadas anteriormente em nenhuma base de conhecimento.

Uma das nossas principais descobertas é que benchmarks anteriores tinham viés que exagerava o desempenho dos modelos de linguagem. Mas também encontramos áreas onde os modelos de linguagem mostraram um potencial real. Por exemplo, conseguimos expandir o conhecimento no Wikidata pra várias relações, aumentando o número de fatos significativamente, enquanto mantivemos uma alta precisão.

A Importância das Bases de Conhecimento

Bases de conhecimento como Wikidata, DBpedia e Yago são componentes essenciais da web semântica. Elas desempenham um papel crucial em aplicações como motores de busca, sistemas de resposta a perguntas e diálogos. Construir e manter essas KBs com um padrão e escala altos é um desafio antigo na pesquisa. Já existem vários benchmarks pra construção de bases de conhecimento, como FB15k, CoDEx e LM-KBC22.

Métodos tradicionais pra construir KBs geralmente envolvem extração de texto e uso de embeddings de grafos de conhecimento. O cenário da construção de bases de conhecimento tá sempre mudando, e os avanços recentes costumam enfatizar velocidade e métodos atrativos. Contudo, a conclusão prática de bases de conhecimento (KBC) exige um foco intenso em precisão e envolve um esforço manual considerável.

Trabalhos anteriores nessa área geralmente esquecem três aspectos críticos:

  1. Foco em Alta Precisão: Muitos modelos priorizam precisão e recall equilibrados, o que pode levar a expectativas irreais. Por exemplo, sistemas como Yago e Google Knowledge Vault não foram implementados porque não conseguiram a precisão necessária.

  2. Avaliação do Potencial de Conclusão: Os benchmarks atuais costumam focar em assuntos bem conhecidos, o que não ajuda na KBC. Por exemplo, prever as capitais dos países pode ter alta precisão, mas esses fatos já estão capturados em bases de conhecimento estabelecidas.

  3. Previsão de Fatos Faltantes: A pesquisa atual tende a testar modelos com informações que já estão incluídas nas bases de conhecimento, o que não reflete o verdadeiro potencial deles pra concluir. Precisamos prever objetos pra pares de sujeito-relação que a KB não documentou anteriormente.

Dado que o Wikidata tem aproximadamente 100 milhões de entidades e 1,2 bilhões de afirmações, até pequenos aumentos no conhecimento factual podem significar ganhos significativos em números absolutos. Por exemplo, adicionar uma informação apenas a 1% do Wikidata poderia custar cerca de 100.000 USD, mostrando o valor da eficiência nesse processo.

Análise Sistemática de Modelos de Linguagem

No nosso estudo, analisamos sistematicamente os modelos de linguagem pra conclusão de bases de conhecimento. Focamos em alta precisão, particularmente em torno de 90%. Nosso processo de avaliação incluiu:

  1. Criar um novo conjunto de dados de benchmark que seleciona aleatoriamente fatos do Wikidata.
  2. Realizar uma avaliação manual das previsões onde o valor do objeto é desconhecido.

Pra nossa análise, focamos no Modelo de Linguagem BERT e na base de conhecimento do Wikidata. Mesmo que modelos mais novos tenham surgido, o BERT continua popular e serve como um bom ponto de avaliação contra o extenso banco de dados do Wikidata.

Nossas principais descobertas incluem:

  • Modelos de linguagem, quando avaliados de forma realista, têm um desempenho abaixo do esperado, mas ainda conseguem resultados sólidos pra tipos específicos de informação, como relações sócio-demográficas.
  • Ajustes simples, como expandir o vocabulário e melhorar a forma como os prompts são estruturados, podem aumentar significativamente a capacidade do modelo de gerar conhecimento preciso.

Por exemplo, expandimos o conhecimento no Wikidata em três áreas: a relação “nativeLanguage” cresceu de 260.000 pra 5,8 milhões de fatos, “usedLanguage” de 2,1 milhões pra 6,6 milhões, e “citizenOf” de 4,2 milhões pra 5,3 milhões de fatos, tudo isso mantendo altos níveis de precisão.

Construção e Conclusão de Bases de Conhecimento

A construção de bases de conhecimento tem uma história rica. Uma abordagem comum depende da supervisão humana, como visto em projetos como o CYC, e essa curadoria continua a sustentar as KBs públicas modernas como o Wikidata. Outras estratégias incluem a extração de dados de recursos semiestruturados ou texto livre.

A previsão de links baseada em embeddings ganhou espaço, mas um desafio significativo permanece: o equilíbrio entre precisão e recall. Estudos acadêmicos podem negociar livremente entre essas métricas, enquanto em aplicações reais, a precisão é prioridade. Por exemplo, o Wikidata desencoraja o uso de suposições estatísticas em edições.

A faixa de alta precisão está subexplorada. A maioria dos benchmarks existentes, incluindo FB15k e WN18, foca em entidades populares que já têm muitos dados associados a elas. O problema com esses benchmarks é que eles não conseguem avaliar a verdadeira capacidade de um modelo de concluir bases de conhecimento devido à sua dependência de dados existentes.

Tarefas de Conclusão de Base de Conhecimento

A conclusão de base de conhecimento (KBC) aborda as lacunas nas KBs. O objetivo é prever fatos faltantes, tipicamente moldados como pares de sujeito-relação. Preencher essas lacunas pode ajudar a criar uma base de conhecimento mais completa e útil.

Essa tarefa pode ser dividida em subtarefas, como prever objetos faltantes para pares existentes ou identificar pares de sujeito-relação válidos. No nosso estudo, focamos na tarefa mais premente: prever objetos que vão com um par sujeito-relação onde o objeto é atualmente desconhecido.

Categorizamos fatos já incluídos em uma KB como "fatos existentes." Em contraste, "fatos faltantes" referem-se àqueles ainda não registrados. Nosso objetivo é melhorar as bases de conhecimento prevendo esses fatos faltantes de maneira eficaz.

Usando Modelos de Linguagem pra Previsão de Fatos

Pra consultar o modelo de linguagem por fatos faltantes, mascaramos o objeto em trios existentes e os usamos pra formar prompts. O LM então fornece uma distribuição de probabilidade sobre seu vocabulário. Selecionamos as principais previsões a partir desses resultados.

A capacidade de preencher essas lacunas é vital pra KBC. Usamos consultas no estilo cloze como "A capital da França é [MASK]." O modelo de linguagem funciona pra prever a palavra faltante, que serve como o objeto.

Analisamos a capacidade do BERT de prever fatos usando essas máscaras, focando na sua capacidade de gerenciar prompts específicos de relações. Nossa análise em duas etapas nos permite primeiro avaliar as previsões de fatos existentes e depois explorar o potencial do modelo pra preencher os faltantes através de avaliação humana.

Configurando o Procedimento de Análise

Nossa avaliação inclui uma abordagem dupla:

  1. Avaliar previsões de fatos existentes através de um processo automatizado que calcula recall a 90% de precisão.
  2. Explorar o potencial de concluir bases de conhecimento prevendo fatos faltantes, verificados através de avaliação humana.

Contrastamos nossos resultados com o benchmark LAMA-T-REx pra medir as capacidades do LM de forma mais realista. Os resultados da nossa análise ajudaram a estabelecer limiares relevantes pra previsão de fatos.

Pra avaliar genuinamente as capacidades dos LMs pra KBC, criamos um conjunto de dados em larga escala com fatos aleatórios do Wikidata, visando evitar viés em relação a tópicos populares. Embora nosso conjunto de dados seja aleatório, ele ainda está fundamentado na realidade.

Criação do Conjunto de Dados

Compilamos fatos do Wikidata para as mesmas relações que o conjunto de dados LAMA-T-REx, extraindo pares sujeito-relação. Essa extração abrange todos os objetos válidos associados a cada par pra garantir a precisão dos dados verdadeiros.

Um aspecto essencial do nosso conjunto de dados é a capacidade de lidar com objetos de múltiplos tokens, o que nos ajuda a avaliar o desempenho do LM sob várias condições. A entropia média do objeto é registrada junto com o total de trios, sujeitos distintos e outras estatísticas relevantes.

Potencial pra Previsão de Fatos Existentes

Ao analisar fatos existentes, avaliamos a capacidade do BERT de prever objetos ligados a pares sujeito-relação conhecidos. Calculamos o nível de previsões corretas usando uma métrica baseada em ranking, computando recall e precisão.

Comparando o BERT com métodos de referência, conseguimos ver sua habilidade de ir além de apenas prever objetos comuns. Nossa análise mostra como diferentes distribuições de objetos impactam o nível de precisão alcançado.

Os resultados indicam que, enquanto a base de maioria fornece uma fundação sólida, o BERT pode superá-la, mostrando o valor agregado do modelo.

Análise Qualitativa pra Melhorar o Desempenho

Pra aumentar o sucesso do BERT na conclusão de bases de conhecimento, realizamos uma análise qualitativa pra identificar erros comuns nas previsões. Ao selecionar um subconjunto representativo de relações, identificamos categorias de erros, incluindo erros hierárquicos ou prompts ambíguos.

Nossas melhorias focam em três áreas principais:

  1. Otimização da Entrada: Melhorar os prompts através de técnicas como a geração de AutoPrompt.
  2. Otimização do Modelo: Ajustar o modelo e expandir seu vocabulário, aumentando assim a precisão das previsões.
  3. Ajuste da Saída: Utilizar dicionários feitos manualmente que ajudam a mapear previsões pra dados verdadeiros.

Através dessas otimizações, vemos melhorias marcantes nas previsões pra várias relações, levando a uma melhor extração de conhecimento.

Resumo das Descobertas

O estudo destaca a importância de usar conjuntos de dados imparciais pra alcançar avaliações precisas das habilidades dos modelos de linguagem pra conclusão de bases de conhecimento. Nossas descobertas sugerem que, quando dado o caminho certo, os LMs podem fazer contribuições significativas pra preencher lacunas nas bases de conhecimento.

Também aprendemos que limitações de vocabulário podem restringir o desempenho. Ao expandir o vocabulário e ajustar os modelos, conseguimos melhorias notáveis nas previsões de conhecimento.

A análise de fatos faltantes-aqueles que não estão atualmente registrados em uma KB-mostra o potencial dos modelos de linguagem pra gerar novo conhecimento de forma eficaz. Avaliações humanas confirmaram a viabilidade das previsões do modelo.

Conclusão

Esse trabalho enfatiza as capacidades da conclusão automatizada de bases de conhecimento usando modelos de linguagem. Ao introduzir um conjunto de dados de benchmark desafiador, fornecemos uma avaliação mais realista do potencial dos modelos de linguagem pra melhorar as bases de conhecimento.

Nossa análise ilustra a eficácia variada dos LMs em diferentes relações, especialmente nas áreas relacionadas à linguagem e sócio-demográficas. As estratégias de ajuste e expansão de vocabulário que implementamos resultaram em melhorias significativas.

À medida que avançamos, o desenvolvimento de modelos de linguagem projetados especificamente pra bases de conhecimento pode se mostrar benéfico. Esses modelos podem permitir uma previsão de fatos ainda mais precisa e uma extração de conhecimento aprimorada, preparando o caminho pra uma construção de base de conhecimento melhor.

Fonte original

Título: Evaluating Language Models for Knowledge Base Completion

Resumo: Structured knowledge bases (KBs) are a foundation of many intelligent applications, yet are notoriously incomplete. Language models (LMs) have recently been proposed for unsupervised knowledge base completion (KBC), yet, despite encouraging initial results, questions regarding their suitability remain open. Existing evaluations often fall short because they only evaluate on popular subjects, or sample already existing facts from KBs. In this work, we introduce a novel, more challenging benchmark dataset, and a methodology tailored for a realistic assessment of the KBC potential of LMs. For automated assessment, we curate a dataset called WD-KNOWN, which provides an unbiased random sample of Wikidata, containing over 3.9 million facts. In a second step, we perform a human evaluation on predictions that are not yet in the KB, as only this provides real insights into the added value over existing KBs. Our key finding is that biases in dataset conception of previous benchmarks lead to a systematic overestimate of LM performance for KBC. However, our results also reveal strong areas of LMs. We could, for example, perform a significant completion of Wikidata on the relations nativeLanguage, by a factor of ~21 (from 260k to 5.8M) at 82% precision, usedLanguage, by a factor of ~2.1 (from 2.1M to 6.6M) at 82% precision, and citizenOf by a factor of ~0.3 (from 4.2M to 5.3M) at 90% precision. Moreover, we find that LMs possess surprisingly strong generalization capabilities: even on relations where most facts were not directly observed in LM training, prediction quality can be high.

Autores: Blerta Veseli, Sneha Singhania, Simon Razniewski, Gerhard Weikum

Última atualização: 2023-03-20 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2303.11082

Fonte PDF: https://arxiv.org/pdf/2303.11082

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes