Corrigindo Erros em Grafos de Conhecimento
Uma nova abordagem enfrenta desafios em grafos de conhecimento, focando em precisão e confiabilidade.
― 6 min ler
Índice
- O que são Grafos de Conhecimento?
- Os Desafios dos Grafos de Conhecimento
- A Necessidade do Raciocínio Especulativo
- Abordagem de Aprendizado Positivo-Indefinido
- Estrutura Variacional para Raciocínio
- O Papel do Posterior de Rótulo
- Configuração Experimental
- Resultados e Desempenho
- Conclusão
- Fonte original
- Ligações de referência
Grafos de conhecimento são coleções de fatos sobre o mundo, organizados de um jeito que facilita entender as relações entre várias entidades. Uma entidade pode ser uma pessoa, um lugar ou um evento, enquanto as relações descrevem como essas entidades interagem umas com as outras. Mas, muitas vezes, esses grafos de conhecimento têm erros ou informações incompletas, o que pode causar problemas ao tentar inferir novos fatos a partir deles. Este artigo explora uma nova abordagem para lidar com esses desafios em grafos de conhecimento, especialmente os problemas de Falsos Negativos e Falsos Positivos.
O que são Grafos de Conhecimento?
Grafos de conhecimento representam informações na forma de trios. Um trio é composto por uma entidade cabeça, uma relação e uma entidade cauda. Por exemplo, no trio (Barack Obama, éPresidenteDe, EUA), "Barack Obama" é a entidade cabeça, "éPresidenteDe" é a relação, e "EUA" é a entidade cauda. Esses trios ajudam a organizar grandes quantidades de informação de uma forma estruturada.
Com o tempo, grafos de conhecimento têm sido usados em várias aplicações, como motores de busca, sistemas de recomendação e inteligência artificial. Eles permitem o raciocínio automático de fatos com base nos dados existentes.
Os Desafios dos Grafos de Conhecimento
Grafos de conhecimento não são perfeitos. Eles podem sofrer de dois problemas principais:
Falsos Negativos: Isso ocorre quando um fato verdadeiro está faltando do grafo de conhecimento. Por exemplo, se o local de nascimento de um político não estiver listado no grafo, essa informação faltante pode levar a conclusões erradas.
Falsos Positivos: Isso acontece quando informações incorretas ou desatualizadas estão incluídas no grafo. Por exemplo, se um indivíduo que não ocupa mais um cargo ainda estiver listado no grafo, isso pode enganar o processo de raciocínio.
Ambos os problemas podem afetar significativamente a habilidade de gerar novos conhecimentos a partir dos dados existentes.
A Necessidade do Raciocínio Especulativo
Raciocínio especulativo se refere à habilidade de inferir novos fatos a partir de informações disponíveis, mas que às vezes são pouco confiáveis. Isso é especialmente importante ao trabalhar com grafos de conhecimento do mundo real, que geralmente são incompletos e contêm erros.
Métodos tradicionais de raciocínio em grafos de conhecimento normalmente assumem que, se um fato está presente, ele é correto, o que pode levar a conclusões erradas. O raciocínio especulativo visa resolver isso, estimando dinamicamente a correção de fatos tanto incluídos quanto excluídos.
Abordagem de Aprendizado Positivo-Indefinido
Para lidar com os problemas de falsos negativos e falsos positivos, uma nova abordagem chamada aprendizado Positivo-Indefinido (PU) foi introduzida. No aprendizado PU, apenas exemplos positivos (fatos verdadeiros) e exemplos indefinidos (que podem ser tanto verdadeiros quanto falsos) estão disponíveis. O desafio é distinguir com precisão entre eles, especialmente quando a informação é barulhenta.
Amostras Rotuladas: Essas são os fatos conhecidos incluídos no grafo de conhecimento. No entanto, elas podem conter barulho, o que significa que alguns deles podem ser falsos positivos.
Amostras Não Rotuladas: Essas são os fatos potenciais que não estão incluídos no grafo de conhecimento e podem ser verdadeiros ou falsos.
A nova abordagem trata os fatos no grafo de conhecimento como amostras positivas barulhentas e os fatos faltantes como amostras não rotuladas. Isso permite uma melhor compreensão dos dados, fornecendo uma forma de treinar modelos que podem lidar efetivamente com o barulho inerente presente nos grafos de conhecimento.
Estrutura Variacional para Raciocínio
O método proposto utiliza uma estrutura variacional que trata a correção de cada fato como uma variável que pode mudar durante o processo de treinamento. Essa estrutura permite que o modelo estime conjuntamente a correção dos fatos coletados e não coletados.
Como Funciona
Durante o treinamento, o modelo atualiza seus parâmetros com base na correção estimada de cada fato. Esse processo inclui:
Estimando a Correção: O modelo calcula a probabilidade de cada fato ser verdadeiro ou falso.
Melhorando a Representação: Ao focar apenas em fatos que são prováveis de serem verdadeiros, o modelo pode criar uma representação mais precisa dos dados.
Identificando Fatos Faltantes: O modelo também busca fatos que deveriam ser adicionados ao grafo de conhecimento para um raciocínio melhor.
Esse ciclo de estimar a correção e atualizar o modelo é repetido, levando a uma melhoria contínua no processo de raciocínio.
O Papel do Posterior de Rótulo
Um elemento chave da estrutura proposta é o conceito de posterior de rótulo. Isso é uma estimativa de se cada fato coletado ou não coletado é provavelmente verdadeiro ou falso.
Codificador Consciente do Posterior de Rótulo: O codificador usa o posterior de rótulo para focar apenas nos fatos mais confiáveis, melhorando a qualidade da representação.
Auto-Treinamento: A estratégia de auto-treinamento utiliza as estimativas mais recentes para refinar continuamente o conjunto de treinamento. Essa atualização dinâmica ajuda a aprimorar a capacidade do modelo de identificar fatos verdadeiros entre o barulho.
Configuração Experimental
Para testar essa nova abordagem, o modelo foi avaliado em vários conjuntos de dados de referência, incluindo FB15K, FB15K-237 e WN18, além de um conjunto de dados derivado de interações no Twitter.
Vários experimentos foram projetados para introduzir diferentes níveis de barulho e incompletude nos conjuntos de dados para simular cenários do mundo real. O objetivo era ver como o modelo proposto se sai em comparação com métodos existentes de ponta.
Resultados e Desempenho
Os resultados mostraram que a nova abordagem supera significativamente os métodos estabelecidos ao lidar com grafos de conhecimento com barulho e incompletude.
Robustez: O modelo mostrou uma robustez notável contra falsos negativos e falsos positivos em vários conjuntos de dados, confirmando sua eficácia em raciocínio especulativo.
Análise Comparativa: Quando comparado a onze métodos existentes, o modelo proposto consistentemente forneceu melhores resultados, especialmente em condições de alto barulho.
Estudos de Desmontagem: Análises adicionais destacaram a importância dos diferentes componentes dentro do modelo. Remover qualquer parte da estrutura levou a um desempenho reduzido, confirmando que cada elemento desempenha um papel vital na eficácia geral.
Conclusão
Esta pesquisa lança luz sobre os desafios enfrentados em grafos de conhecimento, especialmente em relação a informações incompletas e imprecisas. A abordagem proposta usando aprendizado Positivo-Indefinido e uma estrutura variacional oferece uma nova maneira de lidar com raciocínio especulativo em grafos de conhecimento.
Ao estimar dinamicamente a correção dos fatos e refinar continuamente o modelo, abre novas possibilidades para melhorar a precisão e a confiabilidade dos grafos de conhecimento em aplicações do mundo real.
Trabalhos futuros podem se concentrar em refinar as técnicas de estimativa e explorar como incorporar melhor informações incertas no processo de raciocínio, avançando ainda mais as capacidades dos grafos de conhecimento.
Título: Noisy Positive-Unlabeled Learning with Self-Training for Speculative Knowledge Graph Reasoning
Resumo: This paper studies speculative reasoning task on real-world knowledge graphs (KG) that contain both \textit{false negative issue} (i.e., potential true facts being excluded) and \textit{false positive issue} (i.e., unreliable or outdated facts being included). State-of-the-art methods fall short in the speculative reasoning ability, as they assume the correctness of a fact is solely determined by its presence in KG, making them vulnerable to false negative/positive issues. The new reasoning task is formulated as a noisy Positive-Unlabeled learning problem. We propose a variational framework, namely nPUGraph, that jointly estimates the correctness of both collected and uncollected facts (which we call \textit{label posterior}) and updates model parameters during training. The label posterior estimation facilitates speculative reasoning from two perspectives. First, it improves the robustness of a label posterior-aware graph encoder against false positive links. Second, it identifies missing facts to provide high-quality grounds of reasoning. They are unified in a simple yet effective self-training procedure. Empirically, extensive experiments on three benchmark KG and one Twitter dataset with various degrees of false negative/positive cases demonstrate the effectiveness of nPUGraph.
Autores: Ruijie Wang, Baoyu Li, Yichen Lu, Dachun Sun, Jinning Li, Yuchen Yan, Shengzhong Liu, Hanghang Tong, Tarek F. Abdelzaher
Última atualização: 2023-06-12 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2306.07512
Fonte PDF: https://arxiv.org/pdf/2306.07512
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/thunlp/OpenKE
- https://github.com/DeepGraphLearning/KnowledgeGraphEmbedding
- https://github.com/JinheonBaek/RGCN
- https://github.com/malllabiisc/CompGCN
- https://github.com/stasl0217/UKGE
- https://github.com/AutoML-Research/NSCaching
- https://github.com/kahrabian/SANS
- https://github.com/lilv98/PUDA