Simple Science

La science de pointe expliquée simplement

# Informatique # Calcul et langage

Synthèse de données innovante pour l'analyse des sentiments

Une nouvelle méthode pour améliorer l'analyse de sentiment dans des situations à faibles ressources.

Hongling Xu, Yice Zhang, Qianlong Wang, Ruifeng Xu

― 5 min lire


Méthode d'analyse de Méthode d'analyse de sentiment de nouvelle génération ressources. l'analyse de sentiment avec peu de Une solution puissante pour améliorer
Table des matières

Hongling Xu, Yice Zhang, Qianlong Wang, Ruifeng Xu
Institut de Technologie de Harbin, Shenzhen, Chine
Laboratoire Peng Cheng, Shenzhen, Chine
Laboratoire Clé Provincial du Guangdong sur les Nouvelles Technologies de Sécurité Intelligente
Emails : xuhongling@stu.hit.edu.cn, xuruifeng@hit.edu.cn

Résumé

Les grands modèles de langage (LLMs) peuvent aider à pallier le manque de données dans des situations à faibles ressources, comme l'analyse de sentiments basée sur des aspects (ABSA) avec peu d'exemples. Les méthodes précédentes utilisant des LLMs pour l'Augmentation de données manquent souvent de diversité et de pertinence. On vous présente DS -ABSA, qui utilise deux approches : la synthèse de données pilotée par des points clés et la synthèse basée sur des exemples. Ce cadre génère efficacement des échantillons ABSA diversifiés et de haute qualité dans des situations à faibles ressources, tandis qu'un module de raffinement des étiquettes améliore la qualité des étiquettes générées. Nos expériences montrent que DS -ABSA surpasse significativement d'autres méthodes en ABSA à peu d'exemples, prouvant son potentiel pour des applications pratiques.

Introduction

L'analyse de sentiments basée sur des aspects (ABSA) identifie les sentiments envers des aspects spécifiques dans les avis des utilisateurs. Par exemple, dans l'avis "la durée de vie de la batterie est géniale, mais la résolution de l'écran est décevante", l'analyse donne (durée de vie de la batterie, positif) et (résolution d'écran, négatif). Les méthodes traditionnelles s'appuient sur de grandes quantités de données étiquetées, ce qui demande du temps et des efforts pour les collecter. Cela a conduit à l'exploration de méthodes adaptées aux scénarios à faibles ressources. Les stratégies actuelles se divisent en trois catégories : l'augmentation de données, l'apprentissage contextuel et les techniques de pré-formation. Chacune a ses propres limitations, comme le manque de diversité dans les données augmentées ou la nécessité de jeux de données externes importants.

Méthode Proposée : DS -ABSA

Notre cadre de synthèse de données à double flux, DS -ABSA, combine deux stratégies distinctes pour la génération de données. La stratégie pilotée par des points clés se concentre sur la génération d'attributs ABSA potentiels, tandis que la stratégie basée sur des exemples modifie les échantillons existants. Cette approche permet d'assurer à la fois diversité et pertinence dans les données générées.

Synthèse de Données Pilotée par des Points Clés

Cette méthode implique de réfléchir à des attributs potentiels pour l'ABSA, comme des catégories d'aspects et des termes d'opinion. Les LLMs aident à générer de nouveaux avis basés sur ces attributs. On met l'accent sur le maintien de la variété dans les échantillons générés.

Synthèse de Données Basée sur des Exemples

Cette méthode transforme des échantillons d'avis existants pour en créer de nouveaux. Elle utilise des techniques comme la combinaison d'échantillons et la reconstruction sélective, s'assurant que les nouveaux échantillons gardent une forte similarité avec les données d'origine tout en offrant de la diversité.

Raffinement des Étiquettes

Pour traiter les inexactitudes dans les étiquettes générées par les LLMs, on met en place un processus de raffinement des étiquettes. Cela implique de normaliser les étiquettes et d'appliquer un algorithme d'auto-formation bruyante en utilisant quelques échantillons de haute qualité pour améliorer la qualité des étiquettes synthétiques.

Expériences

On valide DS -ABSA sur quatre ensembles de données de référence ABSA dans deux domaines : les restaurants et les ordinateurs portables. Nos résultats montrent que DS -ABSA surpasse systématiquement les méthodes à peu d'exemples existantes. L'évaluation montre une amélioration marquée des scores F1 par rapport à d'autres techniques à la pointe, validant l'efficacité de notre approche dans des contextes à faibles ressources.

Conclusion

DS -ABSA présente une solution novatrice pour l'ABSA à peu d'exemples. En utilisant efficacement la synthèse à double flux et un processus de raffinement des étiquettes robuste, on génère des échantillons de haute qualité et diversifiés sans nécessiter de données supplémentaires. Nos résultats suggèrent que ce cadre peut être un atout précieux pour de futures recherches et applications dans divers domaines. On reconnaît certaines limitations, comme les biais potentiels dans les LLMs et la dépendance à un design d'invite soigné. S'attaquer à cela peut offrir des améliorations supplémentaires.

Annexes

  • Invites pour la Génération de Données : Invites détaillées utilisées pour générer des données synthétiques.
  • Détails de Mise en Œuvre : Explications supplémentaires de nos méthodes et modèles de référence.
  • Expériences Supplémentaires : Résultats supplémentaires pour soutenir nos conclusions.
Source originale

Titre: DS$^2$-ABSA: Dual-Stream Data Synthesis with Label Refinement for Few-Shot Aspect-Based Sentiment Analysis

Résumé: Recently developed large language models (LLMs) have presented promising new avenues to address data scarcity in low-resource scenarios. In few-shot aspect-based sentiment analysis (ABSA), previous efforts have explored data augmentation techniques, which prompt LLMs to generate new samples by modifying existing ones. However, these methods fail to produce adequately diverse data, impairing their effectiveness. Besides, some studies apply in-context learning for ABSA by using specific instructions and a few selected examples as prompts. Though promising, LLMs often yield labels that deviate from task requirements. To overcome these limitations, we propose DS$^2$-ABSA, a dual-stream data synthesis framework targeted for few-shot ABSA. It leverages LLMs to synthesize data from two complementary perspectives: \textit{key-point-driven} and \textit{instance-driven}, which effectively generate diverse and high-quality ABSA samples in low-resource settings. Furthermore, a \textit{label refinement} module is integrated to improve the synthetic labels. Extensive experiments demonstrate that DS$^2$-ABSA significantly outperforms previous few-shot ABSA solutions and other LLM-oriented data generation methods.

Auteurs: Hongling Xu, Yice Zhang, Qianlong Wang, Ruifeng Xu

Dernière mise à jour: Dec 19, 2024

Langue: English

Source URL: https://arxiv.org/abs/2412.14849

Source PDF: https://arxiv.org/pdf/2412.14849

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires