Sci Simple

New Science Research Articles Everyday

# Informática # Computación y lenguaje

Síntesis de Datos Innovadora para Análisis de Sentimientos

Un nuevo enfoque para mejorar el análisis de sentimientos en escenarios de bajos recursos.

Hongling Xu, Yice Zhang, Qianlong Wang, Ruifeng Xu

― 4 minilectura


Método de análisis de Método de análisis de sentimientos de nueva generación limitados. análisis de sentimientos en recursos Una solución potente para mejorar el
Tabla de contenidos

Hongling Xu, Yice Zhang, Qianlong Wang, Ruifeng Xu
Instituto de Tecnología de Harbin, Shenzhen, China
Laboratorio Peng Cheng, Shenzhen, China
Laboratorio Provincial Clave de Guangdong de Nuevas Tecnologías de Inteligencia de Seguridad
Correos: [email protected], [email protected]

Resumen

Los modelos de lenguaje grandes (LLMs) pueden ayudar a enfrentar la escasez de datos en situaciones de pocos recursos, como el análisis de sentimientos basado en aspectos (ABSA) con pocos ejemplos. Los métodos previos que usan LLMs para la generación de datos a menudo carecen de diversidad y relevancia. Presentamos DS-ABSA, que utiliza dos enfoques: síntesis de datos impulsada por puntos clave y por instancias. Este marco genera muestras ABSA diversas y de alta calidad en situaciones de pocos recursos, mientras que un módulo de Refinamiento de etiquetas mejora la calidad de las etiquetas generadas. Nuestros experimentos muestran que DS-ABSA supera significativamente a otros métodos en ABSA con pocos ejemplos, demostrando su potencial para aplicaciones prácticas.

Introducción

El análisis de sentimientos basado en aspectos (ABSA) identifica el sentimiento hacia aspectos específicos en las reseñas de los usuarios. Por ejemplo, en la reseña "la duración de la batería es genial, pero la resolución de la pantalla es decepcionante", el análisis arroja (duración de la batería, positiva) y (resolución de pantalla, negativa). Los métodos tradicionales dependen de grandes cantidades de datos etiquetados, que llevan tiempo y esfuerzo recolectar. Esto ha llevado a explorar métodos adecuados para escenarios de pocos recursos. Las estrategias actuales caen en tres categorías: ampliación de datos, aprendizaje en contexto y técnicas de preentrenamiento. Cada una tiene sus propias limitaciones, como la falta de diversidad en los datos aumentados o la necesidad de extensos conjuntos de datos externos.

Método Propuesto: DS-ABSA

Nuestro marco de síntesis de datos de doble flujo, DS-ABSA, combina dos estrategias distintas para la generación de datos. La estrategia impulsada por puntos clave se enfoca en generar atributos potenciales de ABSA, mientras que la estrategia impulsada por instancias modifica muestras existentes. Este enfoque permite tanto diversidad como relevancia en los datos generados.

Síntesis de Datos Impulsada por Puntos Clave

Este método implica hacer una lluvia de ideas sobre atributos potenciales para ABSA, como categorías de aspectos y términos de opinión. Los LLMs ayudan a generar nuevas reseñas basadas en estos atributos. Ponemos énfasis en mantener variedad en las muestras generadas.

Síntesis de Datos Impulsada por Instancias

Este método transforma muestras de reseñas existentes para crear nuevas. Usa técnicas como combinación de muestras y reconstrucción selectiva, asegurando que las nuevas muestras mantengan una fuerte similitud con los datos originales mientras ofrecen diversidad.

Refinamiento de Etiquetas

Para abordar imprecisiones en las etiquetas generadas por LLM, implementamos un proceso de refinamiento de etiquetas. Esto implica normalizar las etiquetas y aplicar un algoritmo de autoentrenamiento ruidoso usando algunas muestras de alta calidad para mejorar la calidad de las etiquetas sintéticas.

Experimentos

Validamos DS-ABSA en cuatro conjuntos de datos de referencia de ABSA en dos dominios: restaurantes y laptops. Nuestros resultados indican que DS-ABSA supera consistentemente a los métodos existentes de pocos ejemplos. La evaluación muestra una mejora notable en las puntuaciones F1 en comparación con otras técnicas de vanguardia, validando la efectividad de nuestro enfoque en entornos de bajos recursos.

Conclusión

DS-ABSA presenta una solución novedosa para ABSA con pocos ejemplos. Al utilizar eficazmente la síntesis de doble flujo y un robusto proceso de refinamiento de etiquetas, generamos muestras de alta calidad y diversas sin necesidad de datos adicionales. Nuestros hallazgos sugieren que este marco puede ser un recurso valioso para futuras investigaciones y aplicaciones en varios campos. Reconocemos algunas limitaciones, como posibles sesgos en los LLM y la dependencia de un diseño cuidadoso de los prompts. Abordar estos aspectos puede ofrecer más mejoras.

Apéndices

  • Prompts para la Generación de Datos: Prompts detallados utilizados para generar datos sintéticos.
  • Detalles de Implementación: Explicaciones adicionales de nuestros métodos y modelos base.
  • Experimentos Adicionales: Resultados suplementarios para respaldar nuestros hallazgos.
Fuente original

Título: DS$^2$-ABSA: Dual-Stream Data Synthesis with Label Refinement for Few-Shot Aspect-Based Sentiment Analysis

Resumen: Recently developed large language models (LLMs) have presented promising new avenues to address data scarcity in low-resource scenarios. In few-shot aspect-based sentiment analysis (ABSA), previous efforts have explored data augmentation techniques, which prompt LLMs to generate new samples by modifying existing ones. However, these methods fail to produce adequately diverse data, impairing their effectiveness. Besides, some studies apply in-context learning for ABSA by using specific instructions and a few selected examples as prompts. Though promising, LLMs often yield labels that deviate from task requirements. To overcome these limitations, we propose DS$^2$-ABSA, a dual-stream data synthesis framework targeted for few-shot ABSA. It leverages LLMs to synthesize data from two complementary perspectives: \textit{key-point-driven} and \textit{instance-driven}, which effectively generate diverse and high-quality ABSA samples in low-resource settings. Furthermore, a \textit{label refinement} module is integrated to improve the synthetic labels. Extensive experiments demonstrate that DS$^2$-ABSA significantly outperforms previous few-shot ABSA solutions and other LLM-oriented data generation methods.

Autores: Hongling Xu, Yice Zhang, Qianlong Wang, Ruifeng Xu

Última actualización: 2024-12-19 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2412.14849

Fuente PDF: https://arxiv.org/pdf/2412.14849

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares