Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Aprimorando a Precisão do Modelo de Linguagem com o Wikidata

Combinar modelos de linguagem e Wikidata melhora a precisão nas respostas a perguntas.

― 7 min ler


Aumentando a Precisão nasAumentando a Precisão nasRespostas de IAresultados melhores.Combinando dados e modelos pra
Índice

Wikidata é uma grande coleção de informações que fornece vários fatos sobre diferentes tópicos. Virou um recurso importante pra responder perguntas usando computadores. Mas, com o surgimento de modelos de linguagem poderosos como o GPT-3, rola uma preocupação de que esses modelos às vezes podem errar ou dar respostas incompletas. Esse artigo fala de uma nova abordagem pra melhorar a precisão das respostas dadas por esses modelos de linguagem, unindo-os com informações verificadas do Wikidata.

A Necessidade de Precisão nas Respostas

Modelos de linguagem grandes, tipo o GPT-3, conseguem entender e processar a linguagem humana como uma pessoa faria. Eles conseguem responder perguntas, escrever histórias e fazer várias outras coisas. Porém, muitas vezes eles geram respostas baseadas em padrões que aprenderam dos dados que foram treinados, ao invés de se basearem em fatos. Isso pode levar a erros nas respostas.

Por exemplo, quando perguntam algo factual, o GPT-3 pode afirmar algo com confiança, mesmo que esteja errado. Isso pode ser um problema, já que os usuários podem confiar nas respostas dadas por esses modelos. Por isso, é super importante garantir que as respostas sejam precisas e possam ser verificadas em fontes confiáveis, como o Wikidata.

O que é Wikidata?

Wikidata é um banco de dados estruturado cheio de informações sobre vários assuntos. Ele é composto por entidades, que podem ser pessoas, lugares e tudo mais, e propriedades que descrevem relacionamentos entre essas entidades. Por exemplo, quando dizemos "Joe Biden é o presidente dos Estados Unidos", "Joe Biden" é uma entidade, "presidente" é uma propriedade, e "Estados Unidos" é outra entidade.

Wikidata armazena informações em um formato chamado trios, que consistem em um sujeito, um predicado (ou propriedade) e um objeto. Essa estrutura ajuda os computadores a recuperar e manipular os dados com facilidade.

Avaliação com Wikidata

Pra avaliar como os modelos de linguagem conseguem responder perguntas, os pesquisadores criaram benchmarks ou testes. Um novo benchmark foi desenvolvido especificamente para o Wikidata. Esse benchmark usa perguntas reais que as pessoas fazem e inclui anotações pra ajudar a comparar como o GPT-3 se sai em relação aos fatos armazenados no Wikidata.

O objetivo desse benchmark é criar um conjunto de dados de alta qualidade pra treinar modelos a responder perguntas com precisão. O novo conjunto de dados inclui uma variedade de perguntas que refletem o que os usuários realmente querem saber.

Técnica de Aprendizado Few-Shot

Como coletar uma grande quantidade de dados de treinamento pode ser caro e demorado, os pesquisadores introduziram uma técnica chamada aprendizado few-shot. Esse método permite que um modelo aprenda a partir de um pequeno número de exemplos e consiga generalizar para novas perguntas que ele nunca viu antes. Ao sintetizar dados de treinamento, os pesquisadores conseguem construir modelos melhores que são capazes de lidar com perguntas mais diversas e complexas.

Nesse contexto, os pesquisadores criaram um método pra sintetizar dados de treinamento para a tarefa de análise semântica. Esse método foca em mapear perguntas para as representações corretas no Wikidata, permitindo que o modelo forneça respostas precisas.

Unindo Modelos de Linguagem com Análise Semântica

Uma abordagem promissora é combinar as forças de grandes modelos de linguagem com analisadores semânticos. Um Analisador Semântico traduz perguntas em linguagem natural para um formato estruturado que um computador pode entender. Ao fundamentar as respostas no Wikidata, é possível melhorar a precisão das respostas.

Quando um usuário faz uma pergunta, o analisador semântico a converte para um formato que pode ser executado contra o Wikidata. Por exemplo, se alguém perguntar "Quem é o atual presidente dos Estados Unidos?", o analisador semântico pode transformar isso em uma consulta que recupera a informação correta do Wikidata.

A vantagem dessa abordagem é que ela fornece respostas verificadas. Sempre que possível, o modelo retorna uma resposta diretamente do analisador semântico. Se o analisador semântico não conseguir fornecer uma resposta, ele mostrará a suposição feita pelo modelo de linguagem, deixando claro que não tem certeza.

Criando o Conjunto de Dados

Pra criar um conjunto de dados confiável pra avaliar o desempenho dos modelos, os pesquisadores migraram um conjunto de dados existente chamado WebQuestionsSP do Freebase para o Wikidata. Esse novo conjunto de dados consiste em perguntas do mundo real, anotadas com o formato de consulta correto pra recuperar as respostas.

Os pesquisadores limparam e organizaram os dados pra garantir qualidade. Eles descartaram exemplos que não eram úteis pra responder perguntas e mantiveram apenas aqueles que tinham respostas atualizadas no Wikidata.

O conjunto de dados final tem milhares de exemplos e é dividido em conjuntos de treinamento, teste e desenvolvimento. Essa estrutura permite que os pesquisadores treinam modelos de forma eficaz e avaliem seu desempenho em relação a um conjunto de benchmarks.

Enfrentando Desafios com Grafos de Conhecimento

O Wikidata é único porque tem um número enorme de entidades e propriedades. Mas isso pode trazer desafios na hora de responder perguntas. Algumas perguntas podem não ter respostas diretas por causa da complexidade dos relacionamentos entre as entidades.

Pra enfrentar esses desafios, os pesquisadores desenvolveram uma hierarquia de propriedades. Isso significa que propriedades relacionadas são agrupadas, facilitando pro analisador semântico identificar a propriedade correta a ser usada ao responder uma pergunta.

Por exemplo, se alguém pergunta "Onde fica a Torre Eiffel?", várias propriedades relacionadas à localização podem ser consideradas, permitindo que o modelo recupere a resposta certa de forma eficiente.

Melhorando a Ligação de Entidades

Outro aspecto importante dessa abordagem é a ligação de entidades, que envolve identificar as entidades mencionadas em uma pergunta e ligá-las às suas contrapartes no grafo de conhecimento. Como muitas entidades podem ter nomes parecidos, essa tarefa pode ser complicada.

Pra melhorar a ligação de entidades, os pesquisadores usaram um sistema de ligação de ponta. O sistema identifica entidades nas consultas dos usuários e ajuda o analisador semântico a entender em quais entidades focar. Isso é particularmente importante porque a falta de informações sobre entidades ou informações incorretas podem levar a respostas erradas.

Treinando o Analisador Semântico

Pra treinar o analisador semântico de forma eficaz, os pesquisadores precisam de um grande conjunto de exemplos de treinamento. Eles usam os dados sintetizados e os exemplos do mundo real do conjunto de dados pra construir um conjunto de treinamento robusto.

O analisador semântico foi treinado usando um modelo poderoso chamado BART, que é bem adequado pra tarefas de linguagem. Durante o treinamento, o modelo aprendeu a gerar as consultas estruturadas corretas baseadas nas perguntas de entrada.

Avaliando o Desempenho

O desempenho da abordagem combinada foi avaliado usando o conjunto de dados de benchmark. Os pesquisadores mediram quão precisamente o modelo conseguia produzir a consulta correta e, em seguida, quão precisamente conseguia recuperar as respostas certas do Wikidata.

Os resultados mostraram que a nova abordagem alcançou um alto nível de precisão. A combinação do analisador semântico com o GPT-3 permitiu que o modelo produzisse respostas verificáveis e precisas para uma parte significativa das perguntas.

Análise de Erros e Melhoria

Pra melhorar ainda mais os modelos, os pesquisadores realizaram uma análise de erros. Eles identificaram razões comuns para inexactidões, como problemas com a ligação de entidades ou uso de propriedades incorretas.

Entendendo esses erros, os pesquisadores podem refinar seus modelos e lidar com falhas específicas. Esse ciclo de melhoria contínua é essencial pra desenvolver sistemas de perguntas e respostas mais confiáveis.

Conclusão

Combinar as capacidades de grandes modelos de linguagem com o conhecimento estruturado do Wikidata oferece uma solução poderosa pra respostas de perguntas precisas. Focando em informações verificadas e usando técnicas como análise semântica, a confiabilidade das respostas pode ser muito melhorada. Essa abordagem não só aprimora a precisão das respostas, mas também constrói confiança em sistemas automatizados que fornecem informações aos usuários. À medida que essas tecnologias evoluem, elas têm o potencial de se tornar ferramentas essenciais pra acessar conhecimento de forma eficiente e precisa.

Fonte original

Título: Fine-tuned LLMs Know More, Hallucinate Less with Few-Shot Sequence-to-Sequence Semantic Parsing over Wikidata

Resumo: While large language models (LLMs) can answer many questions correctly, they can also hallucinate and give wrong answers. Wikidata, with its over 12 billion facts, can be used to ground LLMs to improve their factuality. This paper presents WikiWebQuestions, a high-quality question answering benchmark for Wikidata. Ported over from WebQuestions for Freebase, it consists of real-world data with SPARQL annotation. This paper presents a few-shot sequence-to-sequence semantic parser for Wikidata. We modify SPARQL to use the unique domain and property names instead of their IDs. We train the parser to use either the results from an entity linker or mentions in the query. We fine-tune LLaMA by adding the few-shot training data to that used to fine-tune Alpaca. Our experimental results demonstrate the effectiveness of this methodology, establishing a strong baseline of 76% and 65% answer accuracy in the dev and test sets of WikiWebQuestions, respectively. By pairing our semantic parser with GPT-3, we combine verifiable results with qualified GPT-3 guesses to provide useful answers to 96% of the questions in dev. We also show that our method outperforms the state-of-the-art for the QALD-7 Wikidata dataset by 3.6% in F1 score.

Autores: Silei Xu, Shicheng Liu, Theo Culhane, Elizaveta Pertseva, Meng-Hsi Wu, Sina J. Semnani, Monica S. Lam

Última atualização: 2023-11-05 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2305.14202

Fonte PDF: https://arxiv.org/pdf/2305.14202

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes