Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Aprendizagem de máquinas

Classificação de Relações Entre Entidades Nomeadas

Este estudo avalia modelos de linguagem em relacionamentos graduais entre entidades nomeadas.

― 8 min ler


Relacionamentos GraduadosRelacionamentos Graduadosem Entidadesrelações sutis entre entidades.Avaliando modelos de linguagem para
Índice

Neste estudo, a gente foca em entender as relações entre entidades nomeadas, como pessoas ou empresas. Essas relações têm níveis de força diferentes, o que as torna graduais. Por exemplo, dá pra dizer que um músico é influenciado por outro, mas alguns músicos são mais influenciados que outros. Esse conjunto de relações é importante pra várias aplicações do mundo real, mas geralmente não tá representado em bancos de dados padrão, conhecidos como Grafos de Conhecimento.

Pra preencher essa lacuna, a gente explora o uso de Modelos de Linguagem Grandes (LLMs) pra classificar pares de entidades com base em como eles se encaixam em relações graduais específicas. Criamos um novo padrão pra essa Tarefa de classificação. Na nossa configuração, os modelos recebem uma descrição da relação e alguns pares de exemplo pra guiar eles. O nosso objetivo é avaliar como esses modelos se saem nessa tarefa, especialmente em comparação com o desempenho humano.

Relações Graduais

Relações graduais são aquelas que não se encaixam apenas em categorias simples de sim ou não. Elas podem ser vistas como uma escala. Por exemplo, quando dizemos que uma empresa é concorrente de outra, algumas empresas são concorrentes mais diretas que outras. Saber quais empresas são líderes nos seus setores ou que alianças existem pode ser uma informação crucial, especialmente em negócios e finanças.

Grafos de Conhecimento tradicionais costumam perder essas sutilezas. Eles geralmente lidam com relações mais binárias ou diretas. Isso dificulta a construção de sistemas que possam fornecer conselhos mais detalhados, como recomendar músicas com base nas relações de influência entre artistas.

A Tarefa

A nossa tarefa envolve classificar pares de entidades com base em como eles satisfazem uma relação gradual dada. O desafio único aqui é que precisamos que os modelos façam distinções bem finas entre diferentes graus de relações. Por exemplo, a afirmação "A Empresa A é concorrente da Empresa B" pode significar coisas diferentes dependendo do contexto.

Escolhemos cinco relações graduais comuns pra nosso estudo:

  1. Concorrente/Rival de
  2. Amigo/Ally de
  3. Influenciado por
  4. Conhecido por
  5. Semelhante a

Pra testar como os modelos se saem, olhamos o quão precisamente eles podiam classificar pares de entidades com base nessas relações.

Criação do Conjunto de Dados

Criar nosso conjunto de dados foi um processo em três etapas.

  1. Na primeira etapa, um grupo de anotadores forneceu pares de entidades pra cada tipo de relação. Eles tiveram que chegar em três categorias pra cada par: exemplos fortes que claramente se encaixam na relação, exemplos limítrofes que se encaixam até certo ponto, e exemplos negativos que não se encaixam, mas ainda estão relacionados de alguma forma.

  2. Na segunda etapa, os anotadores classificaram todos os pares de entidades usando uma escala de cinco pontos. Eles podiam consultar fontes externas pra informações, se necessário. Essa etapa foi a mais trabalhosa.

  3. A etapa final focou em resolver desavenças nas pontuações. Se houvesse uma diferença significativa nas pontuações de qualquer par, esses anotadores discutiram sua lógica e fizeram ajustes com base nas discussões.

Através dessas etapas, a gente buscou criar um conjunto de dados de alta qualidade que pudesse testar efetivamente os modelos.

Avaliando Modelos de Linguagem

Testamos uma variedade de modelos de linguagem pra ver como bem eles conseguiam classificar as relações graduais. Descobrimos que modelos maiores geralmente se saíram melhor, mas mesmo os melhores modelos não chegaram ao nível de desempenho humano, mostrando uma diferença significativa.

A gente olhou especificamente pra vários modelos de última geração, incluindo alguns LLMs mais novos que tinham até 30 bilhões de parâmetros. Nossas descobertas sugeriram que, embora esses modelos consigam capturar relações sutis até certo ponto, eles ainda ficam atrás do julgamento humano por cerca de 15 pontos percentuais em média.

Comparação com o Desempenho Humano

Pra avaliar o desempenho humano, calcularam um limite superior com base nas pontuações médias fornecidas por anotadores humanos. Esse limite superior serve como referência pra interpretar como os modelos se saíram. As diferenças nos acordos entre diferentes anotadores mostraram que talvez alguns anotadores se saíssem melhor que a média sugerida por esse limite superior.

Esse exercício destacou que, embora os modelos consigam um desempenho forte, eles ainda falham em igualar a compreensão sutil que os humanos têm quando se trata de relações.

Variantes de Modelos

Os modelos que usamos incluíram tanto modelos de embedding quanto vários LLMs. Olhamos de perto os embeddings fastText, onde as relações eram formadas comparando vetores de palavras. Um baseline ingênuo também foi usado, que simplesmente olhou pra similaridade coseno dos embeddings de palavras sem considerar as descrições das relações.

Também utilizamos um modelo especial chamado RelBERT que foi ajustado especificamente pra avaliar similaridades entre pares de palavras. Modelos de linguagem como GPT-3, OPT e Flan-T5 foram testados com diferentes templates de prompt pra ver como bem eles poderiam pontuar pares de entidades com base nas relações dadas.

Resultados

Nossos experimentos mostraram que o modelo com melhor desempenho alcançou uma correlação de classificação de 62%. No entanto, isso ainda está bem abaixo do desempenho humano. Em muitos casos, modelos de linguagem menores não se saíram tão bem quanto até mesmo os métodos de baseline mais simples.

Na nossa análise detalhada de desempenho dos modelos, observamos que, embora modelos maiores sejam mais capacitados, algumas versões aumentadas não necessariamente levam a melhores resultados. As descobertas sugerem que pode haver um ponto em que simplesmente aumentar o tamanho do modelo não traz melhoria notável no desempenho.

Aprendizado Few-shot e Zero-shot

A gente também avaliou como os modelos se saem sob diferentes condições de aprendizado, incluindo setup zero-shot (sem exemplos fornecidos) e few-shot (exemplos limitados fornecidos). Os resultados indicaram que mesmo em condições zero-shot, alguns modelos se saíram surpreendentemente bem, especialmente o Flan-UL2, que conseguiu pontuar competitivamente sem nenhum exemplo.

A lição dessa análise é que fornecer até um pequeno número de exemplos pode melhorar muito o desempenho do modelo.

Resultados Qualitativos

Conduzimos uma análise qualitativa das previsões dos modelos pra entender melhor seus pontos fortes e fracos. Essa exploração ajudou a identificar erros comuns. Por exemplo, alguns pares de entidades que estão estreitamente relacionados podem não satisfazer a relação pretendida.

Descobrimos que entidades com nomes semelhantes às vezes distorcem previsões, levando os modelos a fazer suposições incorretas sobre suas relações. Além disso, entidades recentes que ganharam destaque recentemente mostraram-se problemáticas para modelos de linguagem que não foram treinados com dados que refletem os eventos mais atuais.

Futuras Perspectivas e Discussão

Seguindo em frente, estamos cientes de que nosso conjunto de dados e as relações que focamos poderiam ser expandidos. Embora tenhamos escolhido cinco relações significativas, muitas outras poderiam ser exploradas, especialmente em campos especializados. Tem também o fator de mudança temporal nas relações que poderia ser implementado em conjuntos de dados futuros.

Em resumo, a tarefa de modelar relações graduais entre entidades nomeadas é complexa e desafiadora. Embora os modelos de linguagem tenham evoluído bastante, eles ainda precisam de refinamentos adicionais pra igualar a compreensão humana. Esse trabalho abre caminhos importantes pra pesquisas contínuas que visam melhorar a capacidade dos sistemas de IA de entender e avaliar relações graduais com precisão.

Declaração de Ética

A gente garantiu que nossos dados foram criados e rotulados de maneira justa, com o treinamento adequado para os anotadores humanos e compensação justa através do nosso serviço institucional. Também consideramos os potenciais preconceitos em nosso conjunto de dados e tentamos minimizar o impacto de tópicos sensíveis. Uma equipe diversa de anotadores foi montada, e diretrizes foram dadas pra evitar conteúdo sensível.

Através desse estudo, a gente busca contribuir com um conjunto de dados e pesquisa fundamental que pode ajudar a melhorar como entendemos as relações entre entidades nomeadas em várias aplicações.

Fonte original

Título: A RelEntLess Benchmark for Modelling Graded Relations between Named Entities

Resumo: Relations such as "is influenced by", "is known for" or "is a competitor of" are inherently graded: we can rank entity pairs based on how well they satisfy these relations, but it is hard to draw a line between those pairs that satisfy them and those that do not. Such graded relations play a central role in many applications, yet they are typically not covered by existing Knowledge Graphs. In this paper, we consider the possibility of using Large Language Models (LLMs) to fill this gap. To this end, we introduce a new benchmark, in which entity pairs have to be ranked according to how much they satisfy a given graded relation. The task is formulated as a few-shot ranking problem, where models only have access to a description of the relation and five prototypical instances. We use the proposed benchmark to evaluate state-of-the-art relation embedding strategies as well as several recent LLMs, covering both publicly available LLMs and closed models such as GPT-4. Overall, we find a strong correlation between model size and performance, with smaller Language Models struggling to outperform a naive baseline. The results of the largest Flan-T5 and OPT models are remarkably strong, although a clear gap with human performance remains.

Autores: Asahi Ushio, Jose Camacho Collados, Steven Schockaert

Última atualização: 2024-01-30 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2305.15002

Fonte PDF: https://arxiv.org/pdf/2305.15002

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes