革新的なデータ合成による感情分析
リソースが少ない状況で感情分析を強化する新しいアプローチ。
Hongling Xu, Yice Zhang, Qianlong Wang, Ruifeng Xu
― 1 分で読む
徐洪玲、張一策、王乾龍、徐瑞峰
哈尔滨工业大学、深圳、中国
鹏程实验室、深圳、中国
广东省新型安全智能技术重点实验室
メール: xuhongling@stu.hit.edu.cn, xuruifeng@hit.edu.cn
概要
大規模言語モデル(LLM)は、少ないリソース状況におけるデータ不足に対処するのを助けることができる。従来のデータ拡張にLLMを使用した方法は、多様性と関連性が欠けていることが多い。私たちは、DS -ABSAを提案します。これは、キー・ポイント駆動型とインスタンス駆動型のデータ合成の2つのアプローチを使用します。このフレームワークは、少ないリソース状況で多様で高品質なABSAサンプルを効果的に生成し、ラベル精緻化モジュールが生成ラベルの質を向上させます。実験の結果、DS -ABSAは少ショットABSAにおいて他の方法を大幅に上回り、実用的な応用の可能性を示しています。
イントロダクション
アスペクトベースの感情分析(ABSA)は、ユーザーレビューの特定のアスペクトに対する感情を特定する。例えば、「バッテリーの持ちは素晴らしいが、画面解像度はがっかりだ」というレビューでは、分析結果は(バッテリーの持ち、ポジティブ)と(画面解像度、ネガティブ)になる。従来の方法は、大量のラベル付きデータに依存していて、集めるのに時間と労力がかかる。これにより、リソースが少ないシナリオに適した方法の探求が進んでいる。現在の戦略は、データ拡張、インコンテキスト学習、事前学習技術の3つのカテゴリーに分かれ、それぞれ多様性の欠如や外部データセットの大規模な必要性といった制限がある。
提案された方法:DS -ABSA
私たちの二重ストリームデータ合成フレームワーク、DS -ABSAは、データ生成のために2つの異なる戦略を組み合わせます。キー・ポイント駆動型戦略は、潜在的なABSA属性の生成に焦点を当て、インスタンス駆動型戦略は既存のサンプルを修正します。このアプローチにより、生成されたデータに多様性と関連性が両立します。
キー・ポイント駆動型データ合成
この方法は、アスペクトカテゴリーや意見用語など、ABSAに対する潜在的な属性をブレインストーミングすることを含みます。LLMは、これらの属性に基づいて新しいレビューを生成する手助けをします。生成されたサンプルの多様性を維持することに重点を置いています。
インスタンス駆動型データ合成
この方法は、既存のレビューサンプルを変換して新しいものを作成します。サンプルの組み合わせや選択的再構築などの技術を使用して、新しいサンプルが元のデータに強い類似性を保ちながらも多様性を提供するようにします。
ラベル精緻化
LLMが生成したラベルの不正確さに対処するために、ラベル精緻化プロセスを実装します。これには、ラベルの正規化と、高品質なサンプルを使用したノイズの多い自己学習アルゴリズムの適用が含まれ、合成ラベルの質を向上させます。
実験
私たちは、レストランとノートパソコンの2つのドメインにわたる4つのABSAベンチマークデータセットでDS -ABSAを検証しました。結果は、DS -ABSAが既存の少ショット法を一貫して上回ることを示しています。評価は、他の最先端技術に比べてF1スコアの顕著な改善を示し、少ないリソース環境における私たちのアプローチの有効性を確認しました。
結論
DS -ABSAは、少ショットABSAのための新しい解決策を提示します。二重ストリーム合成と堅牢なラベル精緻化プロセスを効果的に活用することで、追加データなしで高品質で多様なサンプルを生成します。私たちの発見は、このフレームワークが今後の研究や様々な分野での応用において貴重な資産になり得ることを示唆しています。LLMの潜在的なバイアスや慎重なプロンプト設計への依存といったいくつかの制限も認めています。これに対処することでさらなる改善が見込めます。
付録
- データ生成のためのプロンプト: 合成データ生成に使用された詳細なプロンプト。
- 実装の詳細: 私たちの方法とベースラインモデルについてのさらなる説明。
- 追加実験: 発見を支持するための補足結果。
タイトル: DS$^2$-ABSA: Dual-Stream Data Synthesis with Label Refinement for Few-Shot Aspect-Based Sentiment Analysis
概要: Recently developed large language models (LLMs) have presented promising new avenues to address data scarcity in low-resource scenarios. In few-shot aspect-based sentiment analysis (ABSA), previous efforts have explored data augmentation techniques, which prompt LLMs to generate new samples by modifying existing ones. However, these methods fail to produce adequately diverse data, impairing their effectiveness. Besides, some studies apply in-context learning for ABSA by using specific instructions and a few selected examples as prompts. Though promising, LLMs often yield labels that deviate from task requirements. To overcome these limitations, we propose DS$^2$-ABSA, a dual-stream data synthesis framework targeted for few-shot ABSA. It leverages LLMs to synthesize data from two complementary perspectives: \textit{key-point-driven} and \textit{instance-driven}, which effectively generate diverse and high-quality ABSA samples in low-resource settings. Furthermore, a \textit{label refinement} module is integrated to improve the synthetic labels. Extensive experiments demonstrate that DS$^2$-ABSA significantly outperforms previous few-shot ABSA solutions and other LLM-oriented data generation methods.
著者: Hongling Xu, Yice Zhang, Qianlong Wang, Ruifeng Xu
最終更新: Dec 19, 2024
言語: English
ソースURL: https://arxiv.org/abs/2412.14849
ソースPDF: https://arxiv.org/pdf/2412.14849
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。