Apresentando o IF-WRANER: Uma Maneira Inteligente de NER
Conheça o IF-WRANER, uma solução prática para NER de poucos exemplos em diferentes domínios.
Subhadip Nandi, Neeraj Agrawal
― 8 min ler
Índice
- Desafios com Modelos Tradicionais
- Chegou o Novo Garoto da Vez
- O Que Faz o IF-WRANER Tão Especial?
- Aplicações no Mundo Real
- O Básico do Reconhecimento de Entidades Nomeadas
- O Problema com Abordagens Tradicionais de NER
- Como É Feito
- A Diversão com LLMs
- Ajustando do Jeito Certo
- Encontrando os Exemplos Certos
- Testando o IF-WRANER
- Os Resultados Falam por Si Mesmos
- Implantação Facilitada
- Conclusão
- Fonte original
- Ligações de referência
Reconhecimento de Entidades Nomeadas (NER) parece chique, mas na real é só sobre encontrar e marcar coisas numa frase, tipo nomes de pessoas, lugares ou datas. Imagina que você tá lendo um livro e quer circular todos os nomes dos personagens e lugares. É isso que o NER faz, mas com a ajuda de computadores.
Só que, às vezes, a gente quer usar essa mágica do NER em áreas onde não tem muita informação disponível. É como tentar fazer um bolo com só metade dos ingredientes. É aí que entra o NER Cross-Domain com Poucos Exemplos. É um jeito esperto de usar o conhecimento de uma cozinha movimentada (domínio rico em dados) pra fazer um bolo num canto tranquilo (domínio escasso em dados).
Desafios com Modelos Tradicionais
Tradicionalmente, quando queremos ensinar um computador a fazer NER, a gente dá um monte de exemplos rotulados, tipo ensinar uma criança com flashcards. Mas e se não tivermos flashcards suficientes? Isso pode ser caro e demorado. Imagina caçando ingredientes num supermercado que não tem muita coisa.
A maioria dos modelos anteriores usava um tipo chamado Modelos de Linguagem Pré-treinados (PLMs). Eles costumam funcionar bem, mas muitas vezes ficam confusos quando vão pra um domínio novo. É como mudar de uma receita pra outra sem entender as diferenças. Pra fazer eles funcionarem em novas áreas, temos que mudar a estrutura ou re-treiná-los com dados novos. Isso cria um modelo novinho toda vez, o que não é prático.
Chegou o Novo Garoto da Vez
Recentemente, alguns caras espertos começaram a usar Modelos de Linguagem Grandes (LLMs) pra NER Cross-Domain com Poucos Exemplos. Esses são como assistentes superinteligentes que podem ajudar, mas podem também custar uma grana. Alguns modelos têm dificuldade em entender instruções simples, é tipo ter um gadget caríssimo que só fica na bancada porque precisa de muito carinho.
É aqui que entra nosso modelo proposto, chamado IF-WRANER. É a sigla pra Reconhecimento de Entidade Nomeada Aumentado por Recuperação baseado em Word-embedding Afinado por Instruções. Um nome complicado, né? É tipo um nome de super-herói, mas a sorte é que tá aqui pra ajudar!
O Que Faz o IF-WRANER Tão Especial?
O IF-WRANER foi feito pra ser inteligente e prático. Ele usa técnicas de regularização pra manter as coisas sob controle durante o treinamento e foca em palavras individuais em vez da frase toda ao puxar exemplos da memória.
Por que isso é importante? Bom, quando ensinamos computadores, muitas vezes os pequenos detalhes fazem a diferença. Pensa assim: se você tava procurando uma receita de bolo específica, não seria melhor ter uma receita que menciona chocolate diretamente em vez de uma broad ‘sobremesa’?
Usando embeddings de nível de palavra, o IF-WRANER consegue encontrar exemplos melhores que combinam direitinho com o que tá tentando reconhecer, em vez de se distrair com o sabor geral da frase. Isso permite que ele faça um trabalho melhor na identificação de entidades nomeadas.
Aplicações no Mundo Real
A gente testou o IF-WRANER na área de atendimento ao cliente. Pensa numa loja online onde os clientes frequentemente precisam de ajuda. Graças ao nosso sistema de NER, o modelo consegue prever corretamente entidades que guiam os clientes a respostas sem precisar escalar problemas pra agentes humanos. Isso ajudou a reduzir o número de problemas escalados em cerca de 15%. Menos intervenção humana significa mais eficiência e economia significativa para as empresas.
O Básico do Reconhecimento de Entidades Nomeadas
No fundo, NER é sobre ensinar computadores a encontrar certas informações no texto, como nomes de pessoas, organizações ou locais. Pra isso, o modelo precisa reconhecer padrões e classificar palavras em categorias. Apesar dos desafios, ter um bom sistema de NER é crucial pra extrair informações valiosas, tipo encontrar pepitas de ouro num mar de pedras.
O Problema com Abordagens Tradicionais de NER
As abordagens tradicionais focam muito em treinar modelos com um monte de dados rotulados. Mas algumas áreas não têm esse luxo, o que cria uma lacuna. Assim como uma criança pode ter dificuldade com matemática se a escola não tem livros suficientes, as máquinas também têm dificuldade quando não têm exemplos suficientes pra aprender.
Embora alguns modelos tenham tentado fechar essa lacuna com soluções chiques, eles geralmente têm estruturas específicas que se adaptam a domínios particulares. Isso resulta na necessidade de uma nova configuração toda vez que você quer ensinar algo novo.
Como É Feito
A espinha dorsal do IF-WRANER é bem simples, mas inteligente. Ele usa um modelo sólido que pode se adaptar sem precisar de ajustes constantes. Isso significa que você não precisa voltar ao começo toda vez que muda de assunto. Focando no que aprendeu em um domínio, você pode aplicar isso a outro com apenas alguns exemplos.
A Diversão com LLMs
Com o surgimento de modelos de linguagem grandes, os pesquisadores estão começando a brincar e encontrar novas maneiras de usá-los. Alguns como GPT-NER e PromptNER mostraram resultados promissores, mas geralmente vêm com um preço alto. Além disso, muitos modelos open-source não conseguem seguir instruções corretamente, tipo um gato que ignora seus comandos.
Nossa abordagem com o IF-WRANER ajusta um modelo open-source pra seguir instruções específicas enquanto usa a arquitetura de geração aumentada por recuperação (RAG). Isso significa que ele pode puxar exemplos inteligentes de um banco de memória dinamicamente, baseado no que tá tentando fazer, em vez de depender de um conjunto fixo de entradas.
Ajustando do Jeito Certo
Ao trabalhar com nosso modelo, a gente se preocupa em ensinar ele a aprender a realizar a tarefa de forma eficaz. Usamos exemplos de um domínio rico em informação, reunindo conhecimento que pode ser aplicado a novas áreas.
Mas espera, tem mais! A gente também adiciona uma pitadinha de “ruído” durante o treinamento. Esse ruído ajuda a evitar que o modelo se lembre de exemplos específicos demais, então ele não fica muito confortável e aprende a se adaptar às instruções dadas.
Encontrando os Exemplos Certos
Quando se trata de escolher exemplos, a gente prioriza representações de nível de palavra. Usar embeddings de palavras significa que quando procuramos exemplos semelhantes, é mais provável que puxemos exemplos relevantes em vez de nos distrairmos com a estrutura geral da frase.
Imagina preparar ingredientes pra um prato: é muito melhor procurar itens específicos do que uma refeição completa. O modelo puxa exemplos relevantes pra cada palavra numa frase, garantindo que os exemplos que recebe sejam diretamente relevantes pra tarefa.
Testando o IF-WRANER
A gente testou o IF-WRANER usando o dataset CrossNER, que inclui exemplos de vários domínios. É como ter um buffet de dados pra escolher. Testando em áreas diferentes como política, ciência, música e literatura, conseguimos ver quão bem nosso modelo conseguia reconhecer entidades nomeadas.
Os Resultados Falam por Si Mesmos
Os resultados foram impressionantes! O IF-WRANER superou muitos modelos anteriores em vários domínios. Ele mostrou que não precisa de um modelo proprietário pra conseguir bons resultados. Em vez disso, dá pra usar recursos open-source e ainda ter um desempenho sólido.
Implantação Facilitada
Graças à flexibilidade do IF-WRANER, implantar o modelo é moleza. Pra diferentes domínios de atendimento ao cliente, tudo que você precisa fazer é adicionar definições e alguns exemplos pra fazer funcionar. Você não precisa ser um gênio da tecnologia pra fazer isso rodar!
Mas não vamos esquecer aquelas exigências de baixa latência complicadas. Pra necessidades de resposta super rápidas, podemos criar uma versão menor chamada Tiny-IF-WRANER. É tipo ter um serviço de entrega rápida que ainda sabe pra onde levar as mercadorias.
Conclusão
Com a introdução do IF-WRANER, deixamos o NER mais acessível e eficiente pra áreas que carecem de dados ricos de treinamento. Você não precisa da tecnologia mais recente ou de configurações complexas; só precisa de algumas definições e exemplos.
Com a capacidade de se adaptar facilmente em vários domínios, nosso modelo mostra como abraçar soluções mais simples pode fazer uma grande diferença, seja você assando um bolo ou puxando entidades de um mar de texto. Os resultados mostram que até computadores espertos podem continuar aprendendo, assim como a gente!
Título: Improving Few-Shot Cross-Domain Named Entity Recognition by Instruction Tuning a Word-Embedding based Retrieval Augmented Large Language Model
Resumo: Few-Shot Cross-Domain NER is the process of leveraging knowledge from data-rich source domains to perform entity recognition on data scarce target domains. Most previous state-of-the-art (SOTA) approaches use pre-trained language models (PLMs) for cross-domain NER. However, these models are often domain specific. To successfully use these models for new target domains, we need to modify either the model architecture or perform model finetuning using data from the new domains. Both of these result in the creation of entirely new NER models for each target domain which is infeasible for practical scenarios. Recently,several works have attempted to use LLMs to solve Few-Shot Cross-Domain NER. However, most of these are either too expensive for practical purposes or struggle to follow LLM prompt instructions. In this paper, we propose IF-WRANER (Instruction Finetuned Word-embedding based Retrieval Augmented large language model for Named Entity Recognition), a retrieval augmented LLM, finetuned for the NER task. By virtue of the regularization techniques used during LLM finetuning and the adoption of word-level embedding over sentence-level embedding during the retrieval of in-prompt examples, IF-WRANER is able to outperform previous SOTA Few-Shot Cross-Domain NER approaches. We have demonstrated the effectiveness of our model by benchmarking its performance on the open source CrossNER dataset, on which it shows more than 2% F1 score improvement over the previous SOTA model. We have deployed the model for multiple customer care domains of an enterprise. Accurate entity prediction through IF-WRANER helps direct customers to automated workflows for the domains, thereby reducing escalations to human agents by almost 15% and leading to millions of dollars in yearly savings for the company.
Autores: Subhadip Nandi, Neeraj Agrawal
Última atualização: 2024-11-01 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2411.00451
Fonte PDF: https://arxiv.org/pdf/2411.00451
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.