Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Aprendizaje automático# Recuperación de información

Presentamos IF-WRANER: Un Enfoque Inteligente para NER

Conoce IF-WRANER, una solución práctica para NER de pocos ejemplos en dominios cruzados.

Subhadip Nandi, Neeraj Agrawal

― 8 minilectura


IF-WRANER: Solución NERIF-WRANER: Solución NEREficientede Dominio Cruzado con Pocos Ejemplos.Reconocimiento de Entidades NombradasUn modelo práctico para el
Tabla de contenidos

El Reconocimiento de Entidades Nombradas (NER) suena elegante, pero en realidad se trata de encontrar y etiquetar cosas en una frase, como nombres de personas, lugares o fechas. Imagina que estás leyendo un libro y quieres rodear todos los nombres de personajes y lugares. Eso es lo que hace el NER, pero lo hace con la ayuda de computadoras.

Sin embargo, a veces queremos usar esta magia del NER en áreas donde no hay muchos datos de entrenamiento disponibles. Es como intentar hornear un pastel con solo la mitad de los ingredientes. Aquí es donde entra el NER Cross-Domain con Pocos Ejemplos. Es una forma ingeniosa de usar el conocimiento de una cocina ocupada (dominio rico en datos) para hornear un pastel en un rincón tranquilo (dominio escaso en datos).

Desafíos con Modelos Tradicionales

Tradicionalmente, cuando queremos enseñar a una computadora a hacer NER, le damos muchos ejemplos etiquetados, como enseñar a un niño con tarjetas didácticas. Pero ¿y si no tenemos suficientes tarjetas? Esto puede ser costoso y llevar mucho tiempo. Imagina buscar ingredientes en un supermercado que no tiene mucho que ofrecer.

La mayoría de los modelos anteriores usaron un tipo llamado Modelos de Lenguaje Pre-entrenados (PLMs). Por lo general, les va bien, pero a menudo se confunden cuando saltan a un nuevo dominio. Es como cambiar de una receta a otra sin entender las diferencias. Para hacer que funcionen en nuevas áreas, tenemos que cambiar su estructura o reentrenarlos con datos frescos. Esto crea un modelo completamente nuevo cada vez, lo que no es práctico.

La Nueva Sensación

Recientemente, algunas personas ingeniosas han estado utilizando Modelos de Lenguaje Grande (LLMs) para NER Cross-Domain con Pocos Ejemplos. Estos son como asistentes súper inteligentes que pueden ayudar, pero también pueden costar una fortuna. Algunos modelos tienen dificultades para entender instrucciones simples, lo que es un poco como tener un aparato muy caro que solo está en la mesada porque necesita demasiados cuidados.

Aquí es donde entra nuestro modelo propuesto, llamado IF-WRANER. Significa Reconocimiento de Entidades Nombradas Aumentado por Recuperación Basado en Embeddings de Palabras Ajustados por Instrucciones. Un nombre largo, ¿verdad? Es como un nombre de superhéroe, ¡pero por suerte está aquí para ayudar!

¿Qué Hace Que IF-WRANER Sea Tan Especial?

IF-WRANER está diseñado para ser inteligente y práctico. Utiliza técnicas de regularización para mantener todo bajo control durante el entrenamiento y se centra en palabras individuales en lugar de en toda la frase al sacar ejemplos de su memoria.

¿Por qué importa esto? Bueno, al enseñar a las computadoras, a menudo son los pequeños detalles los que cuentan. Piénsalo: si estuvieras buscando una receta para un pastel específico, ¿no querrías una receta que mencione chocolate directamente en lugar de solo un amplio 'postre'?

Al usar embeddings a nivel de palabra, IF-WRANER puede encontrar mejores ejemplos que se ajusten más estrechamente a lo que intenta reconocer, en lugar de distraerse por el sabor general de la frase. Esto le permite hacer un mejor trabajo identificando entidades nombradas.

Aplicaciones del Mundo Real

Probamos poner a IF-WRANER a prueba en el campo de atención al cliente. Piensa en un sitio de compras en línea donde los clientes a menudo necesitan ayuda. Gracias a nuestro sistema de NER, el modelo puede predecir correctamente entidades que guían a los clientes hacia respuestas sin tener que escalar problemas a agentes humanos. Esto ha ayudado a reducir el número de problemas escalados en un 15%. Menos intervención humana significa más eficiencia y ahorros significativos para las empresas.

Lo Básico del Reconocimiento de Entidades Nombradas

En su esencia, el NER se trata de enseñar a las computadoras a encontrar ciertos trozos de información en el texto, como nombres de personas, organizaciones o ubicaciones. Para esto, el modelo necesita reconocer patrones y clasificar palabras en categorías. A pesar de los desafíos, tener un buen sistema de NER es crucial para extraer información valiosa, como encontrar pepitas de oro en un mar de rocas.

El Problema con los Enfoques Tradicionales de NER

Los enfoques tradicionales se centran mucho en entrenar modelos con toneladas de datos etiquetados. Pero algunas áreas no tienen ese lujo, lo que crea una brecha. Así como un niño podría tener dificultades con matemáticas si la escuela no tiene suficientes libros de texto para todos, las máquinas también luchan cuando no tienen suficientes ejemplos para aprender.

Mientras algunos modelos han tratado de cerrar esta brecha con soluciones ingeniosas, a menudo tienen estructuras específicas que se adaptan a dominios particulares. Esto resulta en la necesidad de una nueva configuración cada vez que quieres enseñarle algo nuevo.

Cómo Se Hace

La columna vertebral de IF-WRANER es bastante sencilla pero ingeniosa. Utiliza un modelo sólido que puede adaptarse sin necesidad de un ajuste constante. Esto significa que no tienes que volver a empezar cada vez que cambias de tema. Al enfocarte en lo que aprendió de un dominio, puedes aplicarlo sin esfuerzo a otro con solo unos pocos ejemplos.

La Diversión con LLMs

Con el auge de los modelos de lenguaje grande, los investigadores están comenzando a experimentar y encontrar nuevas formas de usarlos. Algunos como GPT-NER y PromptNER han mostrado resultados prometedores, pero a menudo vienen con un precio alto. Además, muchos modelos de código abierto no pueden seguir instrucciones correctamente, un poco como un gato que ignora tus comandos.

Nuestro enfoque con IF-WRANER afina un modelo de código abierto para seguir instrucciones específicas mientras también utiliza el marco de generación aumentada por recuperación (RAG). Esto significa que puede obtener ejemplos inteligentes de un banco de memoria de forma dinámica según lo que intenta hacer, en lugar de depender de un conjunto fijo de entradas.

Ajuste Hecho Correctamente

Al trabajar con nuestro modelo, nos cuidamos de enseñarle a aprender cómo realizar la tarea eficazmente. Usamos ejemplos de un dominio de fuente rico, reuniendo conocimientos que luego pueden aplicarse a nuevas áreas.

¡Pero espera, hay más! También agregamos un toque de "ruido" durante el entrenamiento. Este ruido ayuda a prevenir que el modelo recuerde ejemplos específicos demasiado bien, por lo que no se siente demasiado cómodo y en su lugar aprende a adaptarse a las instrucciones dadas.

Encontrando los Ejemplos Adecuados

Cuando se trata de elegir ejemplos, priorizamos representaciones a nivel de palabra. Usar embeddings de palabras significa que cuando buscamos ejemplos similares, es más probable que obtengamos ejemplos relevantes en lugar de distraernos con la estructura general de la frase.

Imagina preparar ingredientes para un plato: es mucho mejor buscar artículos específicos que un plato completo. El modelo recupera ejemplos relevantes para cada palabra en una frase, asegurándose de que los ejemplos que obtiene son directamente relevantes para la tarea.

Probando IF-WRANER

Pusimos a prueba IF-WRANER usando el conjunto de datos CrossNER, que incluye ejemplos de varios dominios. Es como tener un buffet de datos para elegir. Al probar en diferentes áreas como política, ciencia, música y literatura, pudimos ver qué tan bien nuestro modelo podía reconocer entidades nombradas.

Los Resultados Hablan por Sí Mismos

¡Los resultados han sido impresionantes! IF-WRANER ha superado a muchos modelos anteriores en múltiples dominios. Ha demostrado que no necesitas un modelo propietario para obtener buenos resultados. En cambio, puedes usar recursos de código abierto y aún así obtener un rendimiento sólido.

Implementación Fácil

Gracias a la flexibilidad de IF-WRANER, implementar el modelo es muy sencillo. Para diferentes dominios de atención al cliente, todo lo que necesitas hacer es agregar definiciones y algunos ejemplos para que funcione. ¡No necesitas ser un experto en tecnología para hacerlo funcionar!

Pero no olvidemos esos requisitos de baja latencia. Para necesidades de respuesta súper rápida, podemos crear una versión más pequeña llamada Tiny-IF-WRANER. Es como tener un servicio de entrega rápido que aún sabe a dónde llevar la mercancía.

Conclusión

Al introducir IF-WRANER, hemos hecho que el NER sea más accesible y eficiente para áreas que carecen de un rico conjunto de datos de entrenamiento. No necesitas la tecnología más nueva o configuraciones complejas; solo necesitas algunas definiciones y ejemplos.

Con la capacidad de adaptarse sin problemas a través de varios dominios, nuestro modelo demuestra cómo adoptar soluciones más simples puede hacer una gran diferencia, ya sea que estés horneando un pastel o sacando entidades de un mar de texto. ¡Los resultados muestran que incluso las computadoras inteligentes pueden seguir aprendiendo, al igual que nosotros!

Fuente original

Título: Improving Few-Shot Cross-Domain Named Entity Recognition by Instruction Tuning a Word-Embedding based Retrieval Augmented Large Language Model

Resumen: Few-Shot Cross-Domain NER is the process of leveraging knowledge from data-rich source domains to perform entity recognition on data scarce target domains. Most previous state-of-the-art (SOTA) approaches use pre-trained language models (PLMs) for cross-domain NER. However, these models are often domain specific. To successfully use these models for new target domains, we need to modify either the model architecture or perform model finetuning using data from the new domains. Both of these result in the creation of entirely new NER models for each target domain which is infeasible for practical scenarios. Recently,several works have attempted to use LLMs to solve Few-Shot Cross-Domain NER. However, most of these are either too expensive for practical purposes or struggle to follow LLM prompt instructions. In this paper, we propose IF-WRANER (Instruction Finetuned Word-embedding based Retrieval Augmented large language model for Named Entity Recognition), a retrieval augmented LLM, finetuned for the NER task. By virtue of the regularization techniques used during LLM finetuning and the adoption of word-level embedding over sentence-level embedding during the retrieval of in-prompt examples, IF-WRANER is able to outperform previous SOTA Few-Shot Cross-Domain NER approaches. We have demonstrated the effectiveness of our model by benchmarking its performance on the open source CrossNER dataset, on which it shows more than 2% F1 score improvement over the previous SOTA model. We have deployed the model for multiple customer care domains of an enterprise. Accurate entity prediction through IF-WRANER helps direct customers to automated workflows for the domains, thereby reducing escalations to human agents by almost 15% and leading to millions of dollars in yearly savings for the company.

Autores: Subhadip Nandi, Neeraj Agrawal

Última actualización: 2024-11-01 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2411.00451

Fuente PDF: https://arxiv.org/pdf/2411.00451

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares