Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Inteligência Artificial

Avançando Modelos de Linguagem com Sistemas de Memória Externa

Um novo método melhora os modelos de linguagem com memória externa adaptável para uma compreensão melhor.

― 6 min ler


Modelos de LinguagemModelos de LinguagemMelhores com Memórialinguagem.adaptabilidade e clareza do modelo deNovo sistema de memória melhora a
Índice

Modelos de linguagem são programas de computador que conseguem entender e produzir a linguagem humana. Eles melhoraram muito nos últimos anos e são usados em várias tarefas diferentes, como traduzir idiomas ou responder perguntas. Um dos motivos pelos quais esses modelos estão indo tão bem é que eles aprenderam muita coisa com os dados usados para treiná-los. Mas ainda existem alguns desafios quando se trata de atualizar esse conhecimento e torná-lo compreensível para os humanos.

Problemas com os Modelos Atuais

A maioria dos modelos de linguagem guarda seu conhecimento escondido dentro de seus parâmetros, que são as configurações que o modelo usa para processar informações. Isso gera alguns problemas principais. Primeiro, uma vez que um modelo é treinado, não dá pra mudar ou adicionar novas informações facilmente. Isso é um problema porque sempre estão surgindo novos conhecimentos, e a gente quer que os modelos consigam aprender e se adaptar com o tempo. Segundo, como o conhecimento não está claramente exposto, fica difícil para as pessoas entenderem quais informações o modelo está usando para tomar decisões.

Neste artigo, vamos discutir uma nova abordagem que separa como um modelo armazena conhecimento de suas principais configurações. Isso deve facilitar as atualizações e a compreensão.

Uma Nova Abordagem

A nova abordagem apresenta um sistema chamado Memória Plugável Diferenciável (DPM). Esse sistema permite que o modelo mantenha seu conhecimento em uma área separada que pode ser facilmente atualizada e compreendida. Em vez de ter o conhecimento armazenado dentro dos parâmetros do modelo, ele pode puxar informações dessa memória externa quando necessário.

Esse sistema tem alguns benefícios. Primeiro, ele pode facilmente se adaptar a novas informações sem precisar ser treinado completamente de novo. Segundo, ele pode deixar claro quais informações estão sendo usadas ao resolver um problema, permitindo uma melhor compreensão das decisões do modelo.

Como Funciona

O DPM funciona permitindo que o modelo use uma coleção de pares chave-valor. Cada pedaço de conhecimento é armazenado como um par, onde uma parte é a chave e a outra é o valor. Quando o modelo precisa de informações, ele pode procurar a chave apropriada e obter o valor relacionado. Isso é semelhante a usar um dicionário, onde você procura uma palavra (a chave) para encontrar seu significado (o valor).

Esse sistema também permite que o modelo se adapte rapidamente a diferentes áreas de conhecimento. Por exemplo, se um modelo foi originalmente treinado em linguagem geral mas precisa entender termos médicos depois, ele pode simplesmente adicionar novos conhecimentos médicos à memória.

Testando o Novo Modelo

Para ver como essa nova abordagem funciona, foram feitos testes em diferentes situações.

Adaptando-se a Novos Domínios

Em um tipo de teste, o modelo precisou mudar seu foco de linguagem geral para tópicos mais específicos, como saúde ou finanças, sem nenhum treinamento prévio nessas áreas. Os resultados mostraram que o modelo conseguiu se ajustar e teve um desempenho significativamente melhor do que modelos que dependiam apenas de parâmetros internos.

Atualizando o Conhecimento

Outro teste focou em como o modelo poderia incorporar novas informações após já ter sido treinado. O novo modelo conseguiu adicionar novos conhecimentos de forma eficiente, mostrando que ele poderia atualizar sua compreensão sem precisar de um novo treinamento completo.

Aprendendo Enquanto Faz

O modelo também foi testado em como ele poderia incorporar conhecimento enquanto realizava tarefas específicas. Isso significa que, à medida que trabalhava em uma tarefa, ele aprendia com exemplos e conseguia melhorar. Isso mostra a flexibilidade do sistema DPM e destaca como ele pode ser usado em tempo real.

Trabalhos Relacionados

Diversos outros sistemas tentaram adicionar conhecimento nos modelos de linguagem. Alguns usaram dados extras, como gráficos de conhecimento, enquanto outros instalaram sistemas de memória que ajudam a recuperar conhecimento durante o processamento. No entanto, a nova abordagem se destaca porque muda toda a estrutura do modelo para se concentrar em entender e usar conhecimento em vez de apenas armazená-lo.

A Importância das Camadas Feed-Forward

Nos modelos de linguagem, existem componentes chamados camadas feed-forward que têm um papel importante em como o conhecimento é processado. Essas camadas ajudam o modelo a entender padrões nos dados de entrada. Usando o novo sistema de memória, essas camadas podem ser aprimoradas para acessar conhecimento diretamente, em vez de depender apenas do que já têm armazenado internamente.

Construindo uma Memória Melhor

O sistema DPM representa o conhecimento de uma forma que é fácil de atualizar e mudar, graças à forma como organiza a informação. Cada pedaço de conhecimento pode ser recuperado rapidamente quando necessário, e a memória pode crescer ou encolher com base no que for preciso. Essa flexibilidade é crucial à medida que a quantidade de informações no mundo continua a crescer.

Entendendo a Recuperação de Conhecimento

A recuperação de conhecimento é uma parte essencial de como o modelo usa a memória externa. Quando o modelo recebe uma entrada, ele pode procurar o conhecimento mais relevante para ajudar em sua tomada de decisão. Esse processo envolve buscar as melhores correspondências com os dados de entrada, permitindo que o modelo faça escolhas informadas com base no conhecimento externo.

Aplicações no Mundo Real

A nova estrutura do modelo pode ser benéfica em várias situações do mundo real. Por exemplo, em atendimento ao cliente, chatbots podem fornecer respostas mais precisas usando conhecimentos atualizados sobre produtos e serviços. Na saúde, os modelos podem se manter atualizados com as últimas pesquisas, levando a um melhor suporte para os profissionais médicos.

Desafios pela Frente

Embora o novo modelo apresente promessas, ainda existem alguns desafios a serem enfrentados. Primeiro, usar memória externa pode deixar o modelo mais lento, já que leva tempo para procurar e recuperar conhecimento. Além disso, mais trabalho precisa ser feito sobre como diferentes tipos de conhecimento podem ser integrados a esse sistema - como entender não apenas a linguagem, mas também o bom senso e o contexto.

Conclusão

Resumindo, a nova abordagem para modelagem de linguagem ajuda a separar o armazenamento de conhecimento do funcionamento interno dos modelos. Isso permite atualizações mais fáceis e uma compreensão mais clara de como as decisões são tomadas. Ao aproveitar um sistema de memória externa, o modelo pode se adaptar a novos conhecimentos e tarefas de forma muito mais eficaz. À medida que os modelos de linguagem continuam a evoluir, esse tipo de sistema pode abrir caminho para um futuro mais flexível e interpretável no processamento de linguagem natural.

Fonte original

Título: Decouple knowledge from parameters for plug-and-play language modeling

Resumo: Pre-trained language models(PLM) have made impressive results in various NLP tasks. It has been revealed that one of the key factors to their success is the parameters of these models implicitly learn all kinds of knowledge during pre-training. However, encoding knowledge implicitly in the model parameters has two fundamental drawbacks. First, the knowledge is neither editable nor scalable once the model is trained, which is especially problematic in that knowledge is consistently evolving. Second, it lacks interpretability and prevents humans from understanding which knowledge PLM requires for a certain problem. In this paper, we introduce PlugLM, a pre-training model with differentiable plug-in memory(DPM). The key intuition is to decouple the knowledge storage from model parameters with an editable and scalable key-value memory and leverage knowledge in an explainable manner by knowledge retrieval in the DPM. To justify this design choice, we conduct evaluations in three settings including: (1) domain adaptation. PlugLM obtains 3.95 F1 improvements across four domains on average without any in-domain pre-training. (2) knowledge update. PlugLM could absorb new knowledge in a training-free way after pre-training is done. (3) in-task knowledge learning. PlugLM could be further improved by incorporating training samples into DPM with knowledge prompting.

Autores: Xin Cheng, Yankai Lin, Xiuying Chen, Dongyan Zhao, Rui Yan

Última atualização: 2023-09-18 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2305.11564

Fonte PDF: https://arxiv.org/pdf/2305.11564

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes