Avaliação de Modelos de Linguagem na Geração de Grafos de Conhecimento
O Text2KGBench avalia modelos de linguagem pra criar gráficos de conhecimento estruturados a partir do texto.
― 7 min ler
Índice
- O Que São Gráficos de Conhecimento?
- Por Que Usar Modelos de Linguagem?
- O Papel das Ontologias
- Os Conjuntos de dados Utilizados
- Como Usar o Text2KGBench
- Métricas de Avaliação
- O Processo de Avaliação
- Modelos de Referência
- Descobertas e Observações
- Análise de Erros
- Conexão com Trabalhos Anteriores
- Direções Futuras
- Conclusão
- Fonte original
- Ligações de referência
Text2KGBench é uma nova maneira de testar o quão bem os modelos de linguagem podem criar gráficos de conhecimento a partir de texto escrito usando um conjunto de regras chamado ontologia. Um gráfico de conhecimento é uma forma de representar informações de forma estruturada, facilitando a compreensão e o uso. A ideia por trás desse benchmark é ver como esses modelos conseguem extrair fatos do texto e organizá-los de acordo com as regras dadas pela ontologia.
O Que São Gráficos de Conhecimento?
Gráficos de conhecimento são coleções de informações que mostram como diferentes peças de informação se relacionam. Eles usam nós para representar objetos ou conceitos e arestas para mostrar as relações entre eles. Por exemplo, em um gráfico de conhecimento sobre filmes, você pode ter nós para filmes, diretores e atores, com arestas mostrando quais atores estavam em quais filmes e quem os dirigiu.
Por Que Usar Modelos de Linguagem?
Modelos de linguagem, especialmente os grandes, se tornaram populares para tarefas relacionadas ao processamento de linguagem. Eles podem gerar texto, responder perguntas e resumir informações. Esses modelos também podem ser usados para ajudar a criar gráficos de conhecimento extraindo fatos do texto escrito. A combinação de modelos de linguagem e gráficos de conhecimento pode levar a uma melhor compreensão e recuperação de informações.
Ontologias
O Papel dasUma ontologia é um conjunto de regras que define os conceitos e relações dentro de um domínio específico. Nesse caso, ela ajuda a guiar os modelos de linguagem a extrair fatos de forma estruturada. Ao incluir uma ontologia, os modelos não estão apenas adivinhando o que extrair; eles têm um framework a seguir.
Conjuntos de dados Utilizados
OsText2KGBench oferece dois conjuntos principais de dados para teste:
- Wikidata-TekGen Dataset: Esse dataset inclui 10 conjuntos diferentes de regras (ontologias) e 13.474 sentenças ligadas a fatos específicos.
- DBpedia-WebNLG Dataset: Esse dataset inclui 19 conjuntos de regras (ontologias) com 4.860 sentenças.
Esses conjuntos de dados são cruciais porque ajudam a treinar e avaliar os modelos de linguagem de uma maneira controlada, garantindo que os modelos aprendam a extrair fatos com precisão.
Como Usar o Text2KGBench
Para usar o Text2KGBench, um sistema deve receber três entradas principais:
- Ontologia: Isso define quais tipos de fatos podem ser extraídos e como eles devem ser organizados.
- Corpo de Texto: Esta é a coleção de sentenças das quais os fatos serão extraídos.
- Exemplos: Esses são pares de sentenças e os fatos que podem ser extraídos delas.
Com essas entradas, o sistema deve ser capaz de identificar e gerar fatos que se encaixem nas regras definidas na ontologia.
Métricas de Avaliação
Para julgar como um sistema se sai com o Text2KGBench, várias métricas são usadas:
- Precisão na Extração de Fatos: Isso mede quantos dos fatos extraídos pelo sistema estão corretos. Isso é dividido em Precisão (quantos dos fatos gerados estão corretos) e Recall (quantos dos fatos reais foram identificados).
- Conformidade com a Ontologia: Isso verifica se os fatos correspondem às definições dadas na ontologia.
- Alucinações: Esse termo se refere quando o modelo gera informações que não existem de verdade ou não são suportadas pelo texto.
O Processo de Avaliação
Uma vez que um sistema processou a entrada, ele produz uma saída que pode ser comparada a um conjunto de triplas verdadeiras, que são os resultados esperados. As métricas ajudam os pesquisadores a ver onde podem ser feitas melhorias.
Modelos de Referência
Dois modelos de linguagem foram usados para avaliação:
- Vicuna-13B: Este modelo é conhecido por seu forte desempenho e capacidade de seguir instruções bem.
- Alpaca-LoRA-13B: Este modelo é projetado para ser eficiente, mas ainda lida com tarefas de instrução de forma eficaz.
Usando esses modelos, os pesquisadores podem comparar como diferentes sistemas se saem na geração de gráficos de conhecimento.
Descobertas e Observações
Nos testes iniciais usando os conjuntos de dados Wikidata-TekGen e DBpedia-WebNLG, os resultados mostraram:
- Precisão e Recall: Essas estavam relativamente baixas, indicando que há espaço para melhorias em como os fatos são extraídos.
- Alta Conformidade com a Ontologia: A maioria dos sistemas se saiu bem em seguir as regras definidas na ontologia.
- Baixas Alucinações: Isso implica que os modelos não geraram muitas informações falsas.
Essas descobertas destacam os pontos fortes e fracos de usar modelos de linguagem para a geração de gráficos de conhecimento.
Análise de Erros
Os pesquisadores também analisaram os erros cometidos pelos modelos. Alguns erros comuns incluíram:
- Interpretação errada de acrônimos, onde o modelo os expandiu incorretamente.
- Relações incorretas entre entidades com base em frases ambíguas no texto de entrada.
Entender esses erros é vital para refinar ainda mais os modelos e os processos usados na geração de gráficos de conhecimento.
Conexão com Trabalhos Anteriores
Modelos de linguagem têm mudado como lidamos com tarefas de processamento de linguagem. Muitos estudos anteriores focaram em benchmarks de extração de relações, que avaliam quão bem os sistemas podem reconhecer relações entre diferentes entidades.
Desenvolvimentos recentes em modelos de linguagem, especialmente aqueles baseados na arquitetura GPT, mostraram promessas em se adaptar a tarefas como geração de gráficos de conhecimento. Treinando esses modelos com conjuntos de dados específicos e usando técnicas baseadas em instruções, suas capacidades estão melhorando.
Direções Futuras
Olhando para frente, há muitas áreas para melhoria e exploração. Algumas possibilidades incluem:
- Ontologias Maiores: Versões futuras podem envolver conjuntos de regras mais complexos e maiores para desafiar ainda mais os modelos.
- Viés e Justiça: É importante avaliar quão bem esses modelos atuam em diferentes grupos, garantindo que operem de forma justa e sem viés.
- Raciocínio Mais Complexo: Pesquisas futuras podem se concentrar nas habilidades dos modelos de raciocinar sobre os fatos que extraem, proporcionando insights mais profundos no geral.
Conclusão
Text2KGBench fornece um recurso valioso para avaliar as capacidades dos modelos de linguagem na geração de gráficos de conhecimento a partir de texto. Usando conjuntos de dados cuidadosamente estruturados e métricas de avaliação, os pesquisadores podem entender melhor os pontos fortes e fracos de diferentes abordagens para a geração de gráficos de conhecimento. Esse benchmark pode ajudar a impulsionar a inovação na área, levando a gráficos de conhecimento mais precisos e confiáveis.
Resumindo, a integração de modelos de linguagem com a representação de conhecimento estruturado através de ontologias oferece uma via promissora para melhorar como a informação é extraída, organizada e utilizada em várias aplicações.
Ao participar desse processo, os pesquisadores estão não apenas aprimorando seu entendimento, mas também contribuindo para um esforço maior em direção a sistemas mais inteligentes que possam compreender e manipular informações de forma significativa.
Título: Text2KGBench: A Benchmark for Ontology-Driven Knowledge Graph Generation from Text
Resumo: The recent advances in large language models (LLM) and foundation models with emergent capabilities have been shown to improve the performance of many NLP tasks. LLMs and Knowledge Graphs (KG) can complement each other such that LLMs can be used for KG construction or completion while existing KGs can be used for different tasks such as making LLM outputs explainable or fact-checking in Neuro-Symbolic manner. In this paper, we present Text2KGBench, a benchmark to evaluate the capabilities of language models to generate KGs from natural language text guided by an ontology. Given an input ontology and a set of sentences, the task is to extract facts from the text while complying with the given ontology (concepts, relations, domain/range constraints) and being faithful to the input sentences. We provide two datasets (i) Wikidata-TekGen with 10 ontologies and 13,474 sentences and (ii) DBpedia-WebNLG with 19 ontologies and 4,860 sentences. We define seven evaluation metrics to measure fact extraction performance, ontology conformance, and hallucinations by LLMs. Furthermore, we provide results for two baseline models, Vicuna-13B and Alpaca-LoRA-13B using automatic prompt generation from test cases. The baseline results show that there is room for improvement using both Semantic Web and Natural Language Processing techniques.
Autores: Nandana Mihindukulasooriya, Sanju Tiwari, Carlos F. Enguix, Kusum Lata
Última atualização: 2023-08-04 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2308.02357
Fonte PDF: https://arxiv.org/pdf/2308.02357
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://orcid.org/0000-0003-1707-4842
- https://orcid.org/0000-0001-7197-0766
- https://orcid.org/0000-0003-4303-983X
- https://orcid.org/0000-0002-9492-7653
- https://github.com/cenguix/Text2KGBench
- https://doi.org/10.5281/zenodo.7916716
- https://www.wikidata.org/wiki/Property:P57
- https://github.com/cenguix/Text2KGBench/tree/main/data/wikidata
- https://github.com/cenguix/Text2KGBench/tree/main/src/benchmark
- https://github.com/juncongmoo/pyllama
- https://github.com/lm-sys/FastChat
- https://github.com/tloen/alpaca-lora
- https://github.com/cenguix/Text2KGBench/wiki
- https://openai.com/blog/chatgpt
- https://openai.com/gpt-4
- https://aiisc.ai/text2kg2023/
- https://sites.google.com/view/nlp4kg/
- https://www.semantic-web-journal.net/blog/special-issue-knowledge-graph-generation-text
- https://zenodo.org/record/7916716
- https://paperswithcode.com/dataset/tekgen
- https://gitlab.com/shimorina/webnlg-dataset/-/tree/master/release
- https://www.sbert.net/
- https://huggingface.co/sentence-transformers/gtr-t5-xxl