Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica # Calcolo e linguaggio

Sintesi Dati Innovativa per Analisi del Sentiment

Un nuovo modo per migliorare l'analisi del sentiment in situazioni a bassa risorsa.

Hongling Xu, Yice Zhang, Qianlong Wang, Ruifeng Xu

― 4 leggere min


Metodo di analisi del Metodo di analisi del sentiment di nuova generazione limitate. l'analisi del sentiment in risorse Una soluzione potente per migliorare
Indice

Hongling Xu, Yice Zhang, Qianlong Wang, Ruifeng Xu
Harbin Institute of Technology, Shenzhen, Cina
Peng Cheng Laboratory, Shenzhen, Cina
Laboratorio Chiave Provinciale del Guangdong per Tecnologie di Sicurezza Intelligente Novelle
Email: [email protected], [email protected]

Abstract

I modelli di linguaggio grandi (LLMs) possono aiutare ad affrontare la scarsità di dati in situazioni a basso resourcing come l'analisi del sentiment basata su aspetti (ABSA) con pochi esempi. I metodi precedenti che usano LLM per l'Aumento dei Dati spesso mancano di diversità e rilevanza. Presentiamo DS -ABSA, che utilizza due approcci: sintesi di dati guidata da punti chiave e guidata da istanze. Questo framework genera efficacemente campioni ABSA diversificati e di alta qualità in situazioni a basso resourcing, mentre un modulo di affinamento delle etichette migliora la qualità delle etichette generate. I nostri esperimenti mostrano che DS -ABSA supera significativamente altri metodi in ABSA con pochi esempi, dimostrando il suo potenziale per applicazioni pratiche.

Introduzione

L'analisi del sentiment basata su aspetti (ABSA) identifica il sentiment verso aspetti specifici nelle recensioni degli utenti. Per esempio, nella recensione "la durata della batteria è fantastica, ma la risoluzione dello schermo è deludente," l'analisi produce (durata della batteria, positiva) e (risoluzione dello schermo, negativa). I metodi tradizionali si basano su grandi quantità di dati etichettati, che richiedono tempo e impegno per essere raccolti. Questo ha portato all'esplorazione di metodi adatti per scenari a basso resourcing. Le strategie attuali rientrano in tre categorie: aumento dei dati, apprendimento in contesto e tecniche di pre-addestramento. Ognuna ha le proprie limitazioni, come la mancanza di diversità nei dati aumentati o la necessità di ampi set di dati esterni.

Metodo Proposto: DS -ABSA

Il nostro framework di sintesi di dati a doppio flusso, DS -ABSA, combina due strategie distinte per la generazione dei dati. La strategia guidata dai punti chiave si concentra sulla generazione di potenziali attributi ABSA, mentre la strategia guidata da istanze modifica i campioni esistenti. Questo approccio consente sia diversità che rilevanza nei dati generati.

Sintesi di Dati Guidata da Punti Chiave

Questo metodo coinvolge il brainstorming di potenziali attributi per ABSA, come categorie di aspetti e termini di opinione. Gli LLM aiutano a generare nuove recensioni basate su questi attributi. Poniamo enfasi nel mantenere varietà nei campioni generati.

Sintesi di Dati Guidata da Istanze

Questo metodo trasforma campioni di recensioni esistenti per crearne di nuovi. Utilizza tecniche come combinazione di campioni e ricostruzione selettiva, assicurando che i nuovi campioni mantengano una forte somiglianza con i dati originali mentre forniscono diversità.

Affinamento delle Etichette

Per affrontare le imprecisioni nelle etichette generate dagli LLM, implementiamo un processo di affinamento delle etichette. Questo comporta la normalizzazione delle etichette e l'applicazione di un algoritmo di auto-addestramento rumoroso usando alcuni campioni di alta qualità per migliorare la qualità delle etichette sintetiche.

Esperimenti

Validiamo DS -ABSA su quattro dataset di riferimento ABSA in due domini: ristoranti e laptop. I nostri risultati indicano che DS -ABSA supera costantemente i metodi esistenti con pochi esempi. La valutazione mostra un miglioramento marcato nei punteggi F1 rispetto ad altre tecniche all'avanguardia, validando l'efficacia del nostro approccio in contesti a basso resourcing.

Conclusione

DS -ABSA rappresenta una soluzione innovativa per l'ABSA con pochi esempi. Utilizzando efficacemente la sintesi a doppio flusso e un robusto processo di affinamento delle etichette, generiamo campioni di alta qualità e diversificati senza richiedere dati aggiuntivi. I nostri risultati suggeriscono che questo framework può essere un patrimonio prezioso per future ricerche e applicazioni in vari campi. Riconosciamo alcune limitazioni, come potenziali pregiudizi negli LLM e dipendenza da un'attenta progettazione dei prompt. Affrontare questi aspetti può offrire ulteriori miglioramenti.

Appendici

  • Prompt per la Generazione di Dati: Prompt dettagliati utilizzati per generare dati sintetici.
  • Dettagli di Implementazione: Ulteriori spiegazioni sui nostri metodi e modelli di base.
  • Esperimenti Aggiuntivi: Risultati supplementari a supporto delle nostre scoperte.
Fonte originale

Titolo: DS$^2$-ABSA: Dual-Stream Data Synthesis with Label Refinement for Few-Shot Aspect-Based Sentiment Analysis

Estratto: Recently developed large language models (LLMs) have presented promising new avenues to address data scarcity in low-resource scenarios. In few-shot aspect-based sentiment analysis (ABSA), previous efforts have explored data augmentation techniques, which prompt LLMs to generate new samples by modifying existing ones. However, these methods fail to produce adequately diverse data, impairing their effectiveness. Besides, some studies apply in-context learning for ABSA by using specific instructions and a few selected examples as prompts. Though promising, LLMs often yield labels that deviate from task requirements. To overcome these limitations, we propose DS$^2$-ABSA, a dual-stream data synthesis framework targeted for few-shot ABSA. It leverages LLMs to synthesize data from two complementary perspectives: \textit{key-point-driven} and \textit{instance-driven}, which effectively generate diverse and high-quality ABSA samples in low-resource settings. Furthermore, a \textit{label refinement} module is integrated to improve the synthetic labels. Extensive experiments demonstrate that DS$^2$-ABSA significantly outperforms previous few-shot ABSA solutions and other LLM-oriented data generation methods.

Autori: Hongling Xu, Yice Zhang, Qianlong Wang, Ruifeng Xu

Ultimo aggiornamento: 2024-12-19 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2412.14849

Fonte PDF: https://arxiv.org/pdf/2412.14849

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili