Avanços em Reconhecimento de Entidades Nomeadas com GNER
O GNER melhora o reconhecimento de entidades ao integrar instâncias negativas e melhorar o contexto.
― 10 min ler
Índice
- A Importância do Reconhecimento de Entidades Nomeadas
- Desafios com Previsões
- Trabalhos Relacionados
- Visão Geral do Reconhecimento de Entidades Nomeadas
- NER Zero-shot
- Estudo Preliminar
- Melhorando Fronteiras de Rótulos
- Problemas com Previsões Longas
- Projetando a Estrutura GNER
- Algoritmo de Correspondência Hierárquica
- Resultados Experimentais e Comparações
- Implicações para o Reconhecimento de Entidades Nomeadas
- Conclusão
- Fonte original
- Ligações de referência
Modelos de Linguagem Grandes (LLMs) mostraram ter uma habilidade forte em lidar com novas tarefas que nunca viram antes. Uma área onde isso é importante é o Reconhecimento de Entidades Nomeadas (NER), que envolve identificar entidades nomeadas como pessoas, lugares e organizações no texto. Recentemente, os LLMs melhoraram significativamente em vários tipos de entidades através de um método chamado ajuste por instrução, que foca em como as entidades estão organizadas.
Neste trabalho, a gente foca em melhorar os métodos existentes adicionando Instâncias Negativas durante o treinamento. Instâncias negativas são exemplos que não pertencem às categorias-alvo. Nossos experimentos mostram que essas instâncias negativas podem ajudar bastante, oferecendo (1) mais contexto e (2) definindo claramente as fronteiras entre diferentes rótulos.
A gente também apresenta um novo algoritmo chamado Correspondência Hierárquica, projetado para transformar previsões não estruturadas em entidades organizadas. Juntando todas essas ideias, introduzimos o GNER, um sistema de NER Generativo que reconhece entidades melhor, especialmente em situações onde não viu entidades parecidas antes.
Nossa avaliação detalhada mostra que nosso sistema supera os melhores métodos existentes em 11 pontos nessas situações desafiadoras. Vamos disponibilizar o código, conjuntos de dados e modelos para uso público.
A Importância do Reconhecimento de Entidades Nomeadas
O Reconhecimento de Entidades Nomeadas (NER) é uma tarefa chave em Processamento de Linguagem Natural (NLP). Modelos tradicionais de NER enfrentam limitações porque dependem de um conjunto fixo de rótulos e exigem muita input humano para o treinamento. Isso restringe a capacidade deles de se adaptar a novos ou desconhecidos tipos de entidades.
Graças aos avanços nos LLMs, esses modelos agora podem generalizar para diferentes tarefas de uma forma mais flexível. No entanto, apesar do progresso, os LLMs ainda têm dificuldades em reconhecer entidades em novas configurações quando comparados a métodos que dependem de treinamento supervisionado com dados totalmente rotulados.
Alguns métodos recentes tentaram ajustar LLMs de código aberto usando diferentes conjuntos de dados de NER para melhorar seu desempenho em vários tipos de entidades. Esses métodos usam estratégias diversas para lidar com tarefas de NER em várias áreas. Por exemplo, alguns ajustam modelos com uma ampla variedade de dados em formato de conversa, enquanto outros descobrem que perguntar sobre todas as entidades de uma vez não é tão eficaz quanto focar em um tipo de entidade por vez.
No entanto, a maioria dessas abordagens foca apenas em reconhecer entidades e ignora o texto não-entity ao redor, que pode ser importante como instâncias negativas. Em modelos de classificação tradicionais como o BERT Tagging, instâncias negativas desempenham um papel crucial. Para modelos generativos, a importância delas no processo de treinamento ainda não foi investigada a fundo.
Para analisar como incluir instâncias negativas pode melhorar o desempenho, realizamos primeiro um estudo preliminar. Escolhemos o Flan-T5-large como nosso modelo principal e desenvolvemos estratégias de treinamento que incluem instâncias negativas. Nossos experimentos mostram que essas instâncias podem melhorar significativamente o desempenho ao fornecer contexto e melhorar a distinção entre entidades e não-entidades.
Desafios com Previsões
Uma desvantagem de incorporar instâncias negativas é que isso pode levar a sequências de previsão mais longas, o que pode resultar em erros como palavras omitidas ou substituições incorretas. Para resolver esses problemas de precisão, projetamos um algoritmo melhor para converter previsões não estruturadas em entidades estruturadas.
Nossa estrutura, GNER, combina ajuste por instrução com instâncias negativas para melhorar o desempenho. Além disso, desenvolvemos o algoritmo de Correspondência Hierárquica para lidar com a conversão de saídas de forma mais eficaz. Isso ajuda a garantir que as entidades extraídas sejam categorizadas corretamente.
Também encontramos que usar uma abordagem de busca em feixe pode aumentar o desempenho zero-shot. Isso significa que o modelo pode corrigir seus erros anteriores e refinar suas previsões à medida que gera mais resultados.
Realizamos experimentos em dois modelos generativos chave, Flan-T5 e LLaMA, e nossos sistemas resultantes, GNER-T5 e GNER-LLaMA, superam significativamente os métodos existentes.
Trabalhos Relacionados
Visão Geral do Reconhecimento de Entidades Nomeadas
As primeiras tentativas de NER tratavam isso como uma tarefa de rotulagem de sequência. Entre esses primeiros modelos, o BERT Tagging é o mais conhecido. Com o tempo, novos métodos foram propostos para lidar com casos mais desafiadores, como entidades aninhadas e sobrepostas. Esses métodos usaram várias estratégias, incluindo question-answering e classificação de spans, para melhorar a precisão.
Em muitos desses métodos, as instâncias negativas contribuíram para o treinamento. No entanto, o desempenho da maioria dos modelos supervisionados diminui significativamente em situações onde os dados ou o domínio diferem do que foi visto durante o treinamento.
NER Zero-shot
O ajuste por instrução ou ajuste em múltiplas tarefas se tornou uma maneira popular de ajudar modelos a generalizar para novas tarefas. No contexto de NER, vários estudos examinaram as capacidades dos LLMs em diferentes domínios. Por exemplo, alguns modelos alcançam resultados impressionantes ao serem ajustados em conjuntos de dados extensos em diferentes entidades e tarefas.
No entanto, a maioria dos métodos adota principalmente uma estratégia de treinamento centrada na entidade. Isso significa que eles trabalham apenas com as partes do texto que contêm as entidades, ignorando as instâncias negativas.
Estudo Preliminar
Para explorar melhorias nos métodos atuais focados em entidades, realizamos um estudo preliminar. Olhamos para dois ângulos principais: (1) usar o contexto em que as entidades aparecem e (2) esclarecer as fronteiras entre entidades e não-entidades.
Descobrimos que o contexto ao redor é essencial para determinar os tipos corretos de entidades. Por exemplo, frases que indicam movimento geralmente precedem entidades de localização. Incorporamos essas informações contextuais e introduzimos instâncias negativas que estão próximas das entidades. Nossos experimentos mostram que a quantidade de contexto afeta significativamente o desempenho, especialmente ao reconhecer entidades.
Melhorando Fronteiras de Rótulos
À medida que investigamos mais as fronteiras de entidades, percebemos um problema com fronteiras vagas nas previsões do modelo. Por exemplo, as correspondências rigorosas necessárias podem nem sempre alinhar com a verdade fundamental. Para lidar com isso, melhoramos as fronteiras de rótulos entre entidades e não-entidades.
Marcamos o começo de uma entidade como "B-" e indicamos o resto dessa entidade com "I-". Para as partes não-entidade ao redor, usamos o rótulo "O". Incorporar essas estratégias de fronteira de rótulos aprimoradas resulta em melhorias consistentes em vários Contextos.
Problemas com Previsões Longas
Previsões longas podem complicar o processo, pois frequentemente levam a omissões e substituições. Por exemplo, um modelo pode adicionar conjunções desnecessárias ou omitir detalhes que importam para entender o contexto.
Através de nossa investigação, identificamos causas específicas para esses problemas. Ruído no texto, palavras faltando no vocabulário do modelo e uso repetido de frases podem contribuir para incertezas. Nossos estudos de caso destacam esses problemas, especialmente em como o modelo gera saídas.
Projetando a Estrutura GNER
Ao criar nossa estrutura GNER, focamos em integrar instâncias negativas no processo de treinamento, o que permite melhor uso de contexto e fronteiras mais claras para entidades. Nosso esquema de tarefa é projetado para previsões token por token, onde cada token é rotulado como uma entidade ou não-entidade.
Também desenvolvemos um formato de instrução detalhado. Essas instruções guiam o modelo para analisar frases e identificar suas partes corretamente. Elas detalham como formatar saídas de uma forma que facilite o trabalho.
Para avaliar as capacidades zero-shot de forma eficaz, usamos vários conjuntos de dados públicos para tarefas de NER. Isso nos permite treinar nossos modelos em muitos tipos de entidades e avaliar como eles se saem em novas situações.
Algoritmo de Correspondência Hierárquica
Para lidar com desafios na correspondência das saídas geradas com textos originais, criamos o algoritmo de Correspondência Hierárquica. O algoritmo estabelece correspondência entre a sequência original e a sequência prevista, facilitando o alinhamento de rótulos.
Melhoramos o processo de correspondência usando um método de divisão e conquista para agilizar os cálculos da Maior Subsequência Comum (LCS). Isso torna mais rápido e mais eficiente.
Um aspecto importante do processo de correspondência é lidar com palavras ausentes no vocabulário. Por exemplo, quando o modelo gera previsões, algumas palavras podem não aparecer se nunca foram incluídas em seus dados de treinamento. Usamos uma técnica chamada tokenização reversa para ajudar a combinar previsões de forma mais precisa.
Resultados Experimentais e Comparações
Realizamos experimentos usando vários conjuntos de dados para treinar nossos modelos. Durante nossa fase de adaptação de tarefa, avaliamos quão bem nossos modelos GNER se saem tanto em configurações zero-shot quanto supervisionadas.
Nossos resultados mostram melhorias significativas em relação aos métodos existentes. Por exemplo, o GNER-LLaMA supera modelos semelhantes por uma margem notável. Também descobrimos que modelos menores, como o GNER-T5-base, ainda alcançam bom desempenho.
Ao testar em ambientes supervisionados, realizamos ajustes com conjuntos de dados de NER existentes. Nossos modelos superam outros, demonstrando habilidades fortes em reconhecer entidades em diversos contextos.
Implicações para o Reconhecimento de Entidades Nomeadas
O trabalho que realizamos destaca o papel crítico que as instâncias negativas têm no treinamento de modelos generativos para Reconhecimento de Entidades Nomeadas. Ao incorporar essas instâncias no processo de treinamento, além de enfatizar informações contextuais e fronteiras claras, provamos melhorar significativamente o desempenho.
Nossa estrutura GNER, com seu algoritmo de Correspondência Hierárquica único, enfrenta desafios chaves na conversão de saídas não estruturadas em dados de entidade organizados. Essa abordagem abre novas avenidas para futuros desenvolvimentos em modelos generativos.
Apesar dos avanços, ainda existem limitações. Nossos esforços atuais focam principalmente em Flat-NER, reconhecendo entidades como segmentos contínuos de texto. No entanto, desafios permanecem com casos mais complexos, como entidades aninhadas ou descontínuas.
Trabalhos futuros devem se concentrar em como enfrentar essas complexidades de forma mais eficaz. Nosso objetivo é construir uma estrutura unificada que possa atender às necessidades dos modelos generativos em todos os tipos de tarefas de NER.
Conclusão
Em conclusão, nossa pesquisa mostra que adicionar instâncias negativas no treinamento de modelos pode levar a melhorias substanciais em sistemas de Reconhecimento de Entidades Nomeadas. Ao aproveitar informações contextuais e melhorar as fronteiras de rótulos, estabelecemos um novo padrão de precisão e eficiência neste campo.
A estrutura GNER oferece uma abordagem promissora para futuras explorações de modelos generativos. Embora nossa abordagem apresente resultados excelentes, reconhecemos a necessidade de esforços contínuos para refinar métodos e expandir capacidades ainda mais.
Título: Rethinking Negative Instances for Generative Named Entity Recognition
Resumo: Large Language Models (LLMs) have demonstrated impressive capabilities for generalizing in unseen tasks. In the Named Entity Recognition (NER) task, recent advancements have seen the remarkable improvement of LLMs in a broad range of entity domains via instruction tuning, by adopting entity-centric schema. In this work, we explore the potential enhancement of the existing methods by incorporating negative instances into training. Our experiments reveal that negative instances contribute to remarkable improvements by (1) introducing contextual information, and (2) clearly delineating label boundaries. Furthermore, we introduce an efficient longest common subsequence (LCS) matching algorithm, which is tailored to transform unstructured predictions into structured entities. By integrating these components, we present GNER, a Generative NER system that shows improved zero-shot performance across unseen entity domains. Our comprehensive evaluation illustrates our system's superiority, surpassing state-of-the-art (SoTA) methods by 9 $F_1$ score in zero-shot evaluation.
Autores: Yuyang Ding, Juntao Li, Pinzheng Wang, Zecheng Tang, Bowen Yan, Min Zhang
Última atualização: 2024-06-18 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2402.16602
Fonte PDF: https://arxiv.org/pdf/2402.16602
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://huggingface.co/datasets/Universal-NER/Pile-NER-type
- https://huggingface.co/datasets/conll2003
- https://huggingface.co/datasets/conllpp
- https://github.com/zliucr/CrossNER/tree/main/ner_data/ai
- https://github.com/zliucr/CrossNER/tree/main/ner_data/literature
- https://github.com/zliucr/CrossNER/tree/main/ner_data/music
- https://github.com/zliucr/CrossNER/tree/main/ner_data/politics
- https://github.com/zliucr/CrossNER/tree/main/ner_data/science
- https://huggingface.co/datasets/tner/multinerd
- https://huggingface.co/datasets/tner/ontonotes5
- https://huggingface.co/datasets/polyglot_ner
- https://github.com/Babelscape/wikineural/tree/master/data/wikiann/en
- https://github.com/Babelscape/wikineural/tree/master/data/wikineural/en
- https://nactem.ac.uk/anatomytagger/#AnatEM
- https://github.com/spyysalo/bc2gm-corpus/tree/master/conll
- https://biocreative.bioinformatics.udel.edu/resources/biocreative-iv/chemdner-corpus
- https://huggingface.co/datasets/ghadeermobasher/BC5CDR-Chemical-Disease
- https://huggingface.co/datasets/ncbi_disease
- https://github.com/brickee/HarveyNER/tree/main/data/tweets
- https://huggingface.co/datasets/strombergnlp/broad_twitter_corpus
- https://huggingface.co/datasets/tner/tweetner7
- https://groups.csail.mit.edu/sls/downloads/movie
- https://groups.csail.mit.edu/sls/downloads/restaurant
- https://huggingface.co/datasets/DFKI-SLT/fabner
- https://github.com/GuanRunwei/FindVehicle
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/yyDing1/GNER