Avaliação de Modelos de Linguagem Grandes como Bases de Conhecimento
Esse estudo avalia a memória, a lembrança e a capacidade de raciocínio dos LLMs.
― 7 min ler
Índice
- Objetivos do Estudo
- Entendendo o Acesso ao Conhecimento
- Desafios com Grandes Bases de Conhecimento
- Nossa Abordagem
- Treinando Modelos em Bases de Conhecimento
- Examinando Tamanhos de Modelos e Memorização
- Resultados dos Testes de Memorização
- Avaliando a Flexibilidade nas Respostas
- Habilidades de Raciocínio dos LLMs
- Importância da Base de Conhecimento
- Conclusão
- Direções Futuras
- Fonte original
- Ligações de referência
Grandes modelos de linguagem (LLMs) são programas de computador espertos que conseguem entender e criar texto. Eles aprenderam bastante ao ler uma quantidade enorme de material escrito. Mas rolam perguntas sobre como eles conseguem lembrar fatos e pensar sobre informações complexas, principalmente sobre o mundo.
Esse artigo dá uma olhada em se os LLMs conseguem guardar um montão de informações, lembrar delas quando perguntados e tirar conclusões do que eles sabem. A gente compara as habilidades deles com Bases de Conhecimento estabelecidas como o Wikidata, que tem uma quantidade gigantesca de informações factuais.
Objetivos do Estudo
Queremos entender mais sobre três coisas importantes em relação aos LLMs:
- Quão bem os LLMs de diferentes tamanhos conseguem lembrar fatos de uma grande base de conhecimento?
- Quão fácil é para esses modelos lembrarem desse conhecimento quando fazem perguntas em linguagem do dia a dia?
- Eles conseguem inventar novos fatos raciocinando a partir do que já sabem?
Nossa pesquisa mostra que os LLMs podem ser bem úteis como bases de conhecimento, mas ainda precisam melhorar no Raciocínio pra alcançar todo o potencial.
Entendendo o Acesso ao Conhecimento
O conhecimento é essencial para os LLMs realizarem tarefas e darem respostas confiáveis. Estudos mostraram que esses modelos memorizam bastante conhecimento factual e linguístico dos dados de treinamento. Isso faz deles importantes para tarefas de linguagem natural.
Mas, muitos estudos existentes olham principalmente como os LLMs usam as informações que aprenderam durante o treinamento. Esses estudos mostram que os LLMs têm dificuldades quando enfrentam conhecimentos menos comuns, por causa de problemas com os dados em que foram treinados.
Por outro lado, bases de conhecimento tradicionais como o Wikidata são feitas pra armazenar e organizar informações de um jeito que forneça um conhecimento equilibrado e claro. Por exemplo, o Wikidata tem mais de 108 milhões de entradas sobre vários tópicos.
Desafios com Grandes Bases de Conhecimento
Trabalhar com grandes bases de conhecimento pode ser complicado. À medida que o tamanho da base de conhecimento cresce, exige mais poder de computação e tempo pra extrair informações específicas ou pra entender informações complexas.
Além disso, bases de conhecimento geralmente têm um formato rígido pra armazenar informações, o que as torna menos flexíveis na hora de responder perguntas de forma natural.
Nossa Abordagem
Na nossa pesquisa, treinamos LLMs pra memorizar conhecimento do Wikidata, que serve como uma base de conhecimento em larga escala. Acreditamos que com essa capacidade, os LLMs podem lidar com um montão de informações e dar respostas flexíveis. A gente focou em quão rápido e eficiente os modelos conseguem aprender novos fatos, quão flexíveis eles são nas respostas e se conseguem gerar novo conhecimento através do raciocínio.
Treinando Modelos em Bases de Conhecimento
As bases de conhecimento contêm fatos em um formato estruturado, geralmente como tripletos que consistem em um assunto, uma relação e um objeto. Por exemplo, o tripleta pode ser ("Museu Paleontológico", "arquiteto", "Leonhard Romeis"). A gente focou em treinar LLMs numa base de conhecimento em larga escala como o Wikidata, que tem muito conhecimento preciso do mundo.
Ao preparar o conjunto de dados, filtramos informações irrelevantes como URLs e imagens. Depois de limpar os dados, coletamos um total de 46 milhões de tripletos, representando uma mistura de conhecimentos comuns e menos comuns.
Memorização
Examinando Tamanhos de Modelos eTreinamos dois tipos diferentes de LLMs, T5 e LLaMA-2, com tamanhos variados. O treinamento envolveu converter os dados de tripletos em entrada de texto pros modelos. O objetivo era que o modelo aprendesse a prever o objeto a partir do assunto e da relação dados como entrada.
A gente também queria melhorar a eficiência de memorização usando uma técnica chamada amostragem de importância. Esse método permitiu que a gente focasse em aprender os fatos mais difíceis de memorizar mais vezes durante o treinamento.
Resultados dos Testes de Memorização
Nossos testes mostraram que os LLMs são capazes de memorizar uma grande parte do conhecimento do Wikidata. Geralmente, modelos maiores conseguiram aprender mais rápido. No entanto, descobrimos que conhecimentos menos comuns eram mais difíceis de memorizar, não importava o tamanho do modelo.
Flexibilidade nas Respostas
Avaliando aPra avaliar como os modelos podiam responder a perguntas em linguagem do dia a dia, ajustamos os modelos treinados com um conjunto de dados de perguntas e respostas em linguagem natural. Com ajustes mínimos, os modelos se saíram muito melhor do que aqueles que não foram treinados na base de conhecimento. Isso sugere que os LLMs conseguem recuperar e organizar conhecimento de forma eficaz, independente de como a Informação é apresentada.
Habilidades de Raciocínio dos LLMs
A gente também explorou se os LLMs poderiam gerar novo conhecimento que não estava presente na base de conhecimento original. Criamos um conjunto de dados com fatos faltando e testamos a capacidade dos LLMs de preencher essas lacunas.
Focamos em dois tipos de raciocínio:
- Raciocínio inverso envolve inverter o sujeito e o objeto de um tripleta pra ver se o modelo consegue inferir a relação.
- Raciocínio composicional envolve ligar duas relações diferentes pra produzir uma nova.
Nossas descobertas sugeriram que, enquanto os LLMs podiam inferir alguns fatos que faltavam, eles tinham mais dificuldades com raciocínio inverso em comparação ao raciocínio composicional. Isso mostra que há espaço pra melhorar nas capacidades de raciocínio dos LLMs.
Importância da Base de Conhecimento
Bases de conhecimento como o Wikidata têm conhecimento conciso e organizado que pode ajudar os LLMs a responder perguntas. As informações nessas bases são mais fáceis de acessar em comparação com dados brutos de treinamento. Continuando a treinar os LLMs em bases de conhecimento ricas, podemos ajudar eles a lembrar melhor as informações e potencialmente melhorar as habilidades de raciocínio.
Conclusão
Nesse trabalho, nossa intenção era ver se os LLMs poderiam funcionar como bases de conhecimento em larga escala. Propusemos um método pra aumentar a eficiência de memorização de informações de uma base de conhecimento. Nossa avaliação mostrou que os LLMs conseguiram recordar uma quantidade significativa de conhecimento e responder de forma flexível a perguntas.
Porém, enquanto eles mostraram melhorias em inferir novos fatos através do raciocínio, a quantidade de conhecimento aprendido não garante melhores habilidades de raciocínio, especialmente em termos de raciocínio inverso.
Esse estudo abre portas pra futuras pesquisas sobre como usar melhor os LLMs como bases de conhecimento e pra aprimorar ainda mais suas capacidades de raciocínio.
Direções Futuras
Prosseguindo, a gente planeja investigar formas de melhorar as habilidades de raciocínio dos LLMs, focando no raciocínio inverso e em outros processos lógicos. Além disso, futuros estudos poderiam analisar como lidar com os desafios do conhecimento menos comum e o equilíbrio das informações armazenadas nos LLMs.
No geral, as descobertas indicam que os LLMs têm um grande potencial como bases de conhecimento, mas ainda precisam passar por desenvolvimentos pra realizar plenamente suas capacidades em raciocínio e gerenciamento de conhecimento.
Título: Can Language Models Act as Knowledge Bases at Scale?
Resumo: Large language models (LLMs) have demonstrated remarkable proficiency in understanding and generating responses to complex queries through large-scale pre-training. However, the efficacy of these models in memorizing and reasoning among large-scale structured knowledge, especially world knowledge that explicitly covers abundant factual information remains questionable. Addressing this gap, our research investigates whether LLMs can effectively store, recall, and reason with knowledge on a large scale comparable to latest knowledge bases (KBs) such as Wikidata. Specifically, we focus on three crucial aspects to study the viability: (1) the efficiency of LLMs with different sizes in memorizing the exact knowledge in the large-scale KB; (2) the flexibility of recalling the memorized knowledge in response to natural language queries; (3) the capability to infer new knowledge through reasoning. Our findings indicate that while LLMs hold promise as large-scale KBs capable of retrieving and responding with flexibility, enhancements in their reasoning capabilities are necessary to fully realize their potential.
Autores: Qiyuan He, Yizhong Wang, Wenya Wang
Última atualização: 2024-02-21 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2402.14273
Fonte PDF: https://arxiv.org/pdf/2402.14273
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/hyanique/LMKB-at-Scale
- https://www.wikidata.org/wiki/Wikidata:Statistics
- https://www.wikidata.org/wiki/Wikidata:Copyright
- https://huggingface.co/t5-base
- https://huggingface.co/t5-large
- https://huggingface.co/meta-llama/Llama-2-7b-hf
- https://huggingface.co/meta-llama/Llama-2-13b-hf
- https://github.com/hyanique/
- https://github.com/yizhongw/transformers/tree/left_padding