Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Melhorando Modelos Transformer com Conhecimento Externo

Uma abordagem estruturada pra melhorar modelos de transformadores usando grafos de conhecimento.

― 8 min ler


Aumentando TransformersAumentando Transformerscom Conhecimentolinguagem pra entender melhor.Um método novo melhora modelos de
Índice

Modelos baseados em transformadores para processamento de linguagem se tornaram super populares porque conseguem entender e gerar texto muito bem. Eles funcionam prestando atenção nas diferentes partes dos dados de entrada pra fazer sentido do que tão analisando. Mas, ainda têm alguns problemas. Às vezes, eles cometem erros confiantes e podem gerar respostas que não são seguras ou úteis pros usuários. Uma grande causa desses problemas é que eles frequentemente deixam passar informações importantes que podem não estar nos dados com os quais foram treinados.

Pra melhorar esses modelos, os pesquisadores têm investigado a adição de conhecimento externo a partir de Grafos de Conhecimento. Grafos de conhecimento são redes que conectam fatos e ideias de um jeito que facilita pros computadores entenderem as relações entre eles. Porém, os métodos atuais pra adicionar esse conhecimento externo aos modelos não são muito organizados. Isso dificulta ver como essas mudanças funcionam nas diferentes partes do modelo de transformador.

Esse artigo apresenta uma forma mais estruturada de adicionar conhecimento nas diferentes partes dos modelos baseados em transformadores. Um framework modular é sugerido pra identificar quais partes do modelo, como o mecanismo de auto-atenção, camadas do codificador ou a camada de incorporação de entrada, podem se beneficiar desse conhecimento adicionado. Vários testes foram realizados nas tarefas do Benchmark GLUE pra ver quão eficaz é essa abordagem.

Entendendo os Transformadores

Modelos de linguagem que usam transformadores fizeram grandes avanços recentemente. Modelos como o GPT-3 e o ChatGPT mostraram que conseguem gerar texto que é coerente e faz sentido. O mecanismo de auto-atenção nos transformadores permite que eles observem todas as partes do texto de entrada pra encontrar relações importantes entre as palavras. Essa habilidade de prestar atenção ao contexto ajuda a criar textos de alta qualidade.

Apesar desses sucessos, os transformadores têm dificuldades quando não têm contexto suficiente. Às vezes, eles geram um texto que parece certo, mas na verdade tá errado ou confuso. Isso geralmente acontece quando os dados de treinamento faltam detalhes importantes. Pra melhorar isso, adicionar conhecimento externo pode preencher as lacunas e fornecer contexto que não tá nos dados originais.

Incluir conhecimento externo confiável pode ajudar os modelos a entenderem melhor ideias complexas e a criarem respostas mais precisas. No entanto, os métodos atuais de incorporação desse conhecimento costumam ser feitos de forma desequilibrada, dificultando ver se eles realmente funcionam. A arquitetura do transformador é composta por várias partes, cada uma com sua função no processamento dos dados. Misturar conhecimento sem uma estratégia clara pode levar a um ajuste excessivo ou a depender demais de padrões aleatórios vistos nos dados, em vez de realmente melhorar a compreensão.

Uma Abordagem Sistemática para Infusão de Conhecimento

Pra enfrentar esses desafios, foi proposta uma nova abordagem sistemática pra adicionar conhecimento aos modelos de linguagem. A arquitetura de um transformador pode ser dividida em viéses indutivos (elementos como matrizes de auto-atenção) e representações latentes (elementos como incorporações de entrada). Três categorias de infusão de conhecimento foram introduzidas:

  1. Infusão de Conhecimento Superficial: Esse método adiciona conhecimento às representações latentes do primeiro bloco do transformador.

  2. Infusão de Conhecimento Semi-Profundado: Esse método integra conhecimento tanto nas representações latentes quanto na matriz de auto-atenção do primeiro bloco do transformador.

  3. Infusão de Conhecimento Profundo: Esse método adiciona conhecimento tanto nas representações latentes quanto nas matrizes de auto-atenção em todos os blocos do transformador.

Esses métodos têm como objetivo melhorar a forma como o conhecimento é integrado ao modelo de transformador. Vários experimentos e estudos foram realizados pra avaliar a eficácia dessas abordagens em várias tarefas do benchmark GLUE.

Componentes do Transformador

Transformadores são estruturas complexas compostas por muitas partes interconectadas. Entender esses componentes é chave pra descobrir como adicionar conhecimento de forma eficaz. As partes principais incluem:

  • Viéses Indutivos: Isso inclui as matrizes de auto-atenção que ajudam o modelo a decidir quais palavras são importantes em um contexto.

  • Representações Latentes: Esses são os vetores que guardam as informações processadas em várias etapas do modelo.

O desafio, então, é comprimir o conhecimento externo dos grafos de conhecimento nessas formas matemáticas. O processo começa criando incorporações de nó (que são essencialmente representações simplificadas das informações no grafo de conhecimento). Depois, relações par-a-par entre esses nós podem ser calculadas pra criar uma matriz de correlação.

Operações de Infusão de Conhecimento

Uma vez que o conhecimento externo tá preparado em formas de vetor e matriz, duas operações são definidas pra adicioná-lo ao modelo:

  1. Infundir conhecimento nas representações latentes adicionando os novos vetores de conhecimento.

  2. Infundir conhecimento nos viéses indutivos adicionando a matriz de correlação à matriz de auto-atenção.

Essas operações ajudam a aprimorar a forma como o modelo processa informações, adicionando contexto extra.

Tipos de Infusão de Conhecimento

Os diferentes tipos de infusão de conhecimento, como mencionados antes, são conduzidos de maneiras variadas:

  • Infusão de Conhecimento Superficial coloca o conhecimento no primeiro bloco do transformador.

  • Infusão de Conhecimento Semi-Profundado adiciona conhecimento tanto às representações latentes do primeiro bloco quanto aos viéses indutivos.

  • Infusão de Conhecimento Profundo adiciona conhecimento em todos os blocos do transformador.

Essas abordagens foram testadas pra ver como melhoram o desempenho do modelo em diferentes tarefas de compreensão de linguagem.

Tarefas de Avaliação

Pra ver quão bem essas métodos de infusão de conhecimento funcionam, foram realizadas avaliações usando o benchmark GLUE. Esse benchmark consiste em várias tarefas, incluindo:

  • Tarefas de Inferência de Linguagem Natural (NLI): Essas tarefas testam se o modelo pode deduzir logicamente uma frase a partir de outra.

  • Tarefas de Enteitamento Textual (TE): Essas analisam se o significado de um texto pode ser inferido a partir de outro.

  • Tarefas de Similaridade Textual (TS): Essas verificam se duas perguntas estão essencialmente perguntando a mesma coisa.

Diferentes métricas foram usadas pra medir o desempenho, incluindo medidas tradicionais como precisão e F1-scores.

Novas Métricas de Avaliação

Dado que os métodos atuais de infusão de conhecimento podem levar a medidas de desempenho inflacionadas, novas métricas de avaliação foram introduzidas:

  • Precisão Combinada do Codificador de Grafo e do Modelo KSAT (CGKA): Isso confere quão bem o modelo pode prever relações no grafo de conhecimento enquanto também mede a precisão nas tarefas do GLUE. Pontuações baixas de CGKA podem indicar que o modelo não tá realmente aproveitando o conhecimento externo.

  • Eficiência de Dados a K (DE@k): Essa métrica avalia o desempenho do modelo após o treinamento com uma quantidade limitada de dados. Se o modelo se sai bem com menos dados, isso sugere que a infusão de conhecimento é eficaz.

Grafos de Conhecimento e Experimentação

Nos experimentos, grafos de conhecimento como ConceptNet e WordNet foram usados. As informações estruturadas deles apoiam o processo de infusão de conhecimento. Diferentes modelos de transformador como BERT, XLNET e RoBERTa foram testados com as várias técnicas de infusão de conhecimento, focando em como os modelos se saíram em diferentes tarefas de linguagem.

Resultados dos Experimentos

Em todos os testes, o XLNET mostrou o melhor desempenho, incluindo seus vários métodos de infusão de conhecimento. Os dados indicaram que usar métodos de infusão mais profundos levou consistentemente a um desempenho melhor tanto em métricas tradicionais quanto nas novas introduzidas. Mesmo com apenas metade dos dados de treinamento, os modelos alcançaram boa precisão, destacando a eficácia da abordagem de infusão de conhecimento.

Conclusão

As descobertas suportam que adicionar conhecimento externo pode aumentar significativamente o desempenho dos modelos baseados em transformadores em tarefas de compreensão de linguagem. Isso foi demonstrado por meio de várias avaliações, mostrando que os modelos se saem melhor quando o conhecimento é infundido de forma pensativa em múltiplos componentes. Trabalhos futuros provavelmente se concentrarão em abordagens híbridas que decidam estrategicamente onde e qual conhecimento infundir para resultados ótimos.

Essa abordagem sistemática prepara o terreno pra desenvolver modelos de linguagem que utilizem conhecimento externo de forma eficaz, podendo levar a avanços ainda maiores em processamento de linguagem natural.

Fonte original

Título: Knowledge-Infused Self Attention Transformers

Resumo: Transformer-based language models have achieved impressive success in various natural language processing tasks due to their ability to capture complex dependencies and contextual information using self-attention mechanisms. However, they are not without limitations. These limitations include hallucinations, where they produce incorrect outputs with high confidence, and alignment issues, where they generate unhelpful and unsafe outputs for human users. These limitations stem from the absence of implicit and missing context in the data alone. To address this, researchers have explored augmenting these models with external knowledge from knowledge graphs to provide the necessary additional context. However, the ad-hoc nature of existing methods makes it difficult to properly analyze the effects of knowledge infusion on the many moving parts or components of a transformer. This paper introduces a systematic method for infusing knowledge into different components of a transformer-based model. A modular framework is proposed to identify specific components within the transformer architecture, such as the self-attention mechanism, encoder layers, or the input embedding layer, where knowledge infusion can be applied. Additionally, extensive experiments are conducted on the General Language Understanding Evaluation (GLUE) benchmark tasks, and the findings are reported. This systematic approach aims to facilitate more principled approaches to incorporating knowledge into language model architectures.

Autores: Kaushik Roy, Yuxin Zi, Vignesh Narayanan, Manas Gaur, Amit Sheth

Última atualização: 2023-06-23 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2306.13501

Fonte PDF: https://arxiv.org/pdf/2306.13501

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes