Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio

Analizzando i sentimenti nei testi delle recensioni norvegesi

Un nuovo dataset rivela le complessità dell'analisi del sentiment nei testi più lunghi.

― 7 leggere min


Rilasciato il dataset diRilasciato il dataset dianalisi del sentimentsentimenti nei testi.Nuove intuizioni sull'espressione dei
Indice

Nell'analizzare come si sentono le persone riguardo a diversi argomenti, spesso guardiamo a testi più lunghi che discutono vari temi. Questi temi possono essere persone, organizzazioni o eventi, e possono avere Sentimenti diversi espressi nei loro confronti. Tuttavia, non ci sono molte ricerche su come identificare e comprendere questi sentimenti riguardo a ciascun argomento in dettaglio.

Per avere un quadro più chiaro di come i sentimenti riguardo a persone e organizzazioni emergano in testi lunghi, abbiamo creato un dataset in cui esperti hanno segnato il sentimento generale verso ciascun soggetto, insieme ai sentimenti espressi in ogni frase.

I nostri risultati mostrano che il modo in cui un lettore si sente riguardo a un argomento non è spesso semplicemente la somma dei sentimenti di ciascuna frase. Nel nostro studio, solo il 70% dei sentimenti positivi e il 55% dei sentimenti negativi corrispondevano al sentimento generale quando cercavamo di combinare i sentimenti di ciascuna frase.

Questo dataset mostra quanto possano essere complicati i sentimenti riguardo a specifici soggetti in testi più lunghi. Aiuta a migliorare il nostro modo di modellare e valutare questi sentimenti.

Esempio di Analisi del Sentimento

Immagina un testo che menziona "John" e "la band". In una frase, potrebbe dire qualcosa di positivo su "John". In un'altra frase, potrebbe riferirsi a "la band" senza menzionare direttamente "John". Tuttavia, poiché "John" fa parte della band, il sentimento positivo verso la band può valere anche per lui.

Con lo sviluppo dell'analisi del sentimento, si è passati dal dare un'etichetta positiva o negativa a fornire analisi dettagliate. Un tipo di analisi dettagliata guarda a ogni menzione di sentimento in una frase, identificando chi sente cosa riguardo a chi.

Spesso, l'obiettivo dell'analisi del sentimento è raccogliere informazioni più complete su come ciascun soggetto è visto. Questo può essere particolarmente utile per capire i pregiudizi dei media e monitorare tendenze in testi complessi.

Per rispondere alla necessità di dati che si concentrano sui sentimenti legati a soggetti specifici, abbiamo creato un nuovo dataset norvegese di recensioni scritte con cura. Ogni recensione è segnata per sentimento sia a livello del testo generale sia a livello della frase per ciascun soggetto menzionato.

Questo dataset è la prima risorsa aperta del suo genere in qualsiasi lingua, fornendo etichette di sentimento separate per ciascun soggetto sia nei testi brevi che in quelli lunghi.

Contributi della Nostra Ricerca

  1. Un nuovo dataset e sistema per segnare i sentimenti per Entità specifiche sia a livello di frase che a livello di testo generale, composto da 412 testi che includono 2479 entità.
  2. Analisi della relazione tra i sentimenti espressi in Frasi individuali e i sentimenti generali nel testo, rispondendo a domande sulla coerenza del sentimento riguardo a ciascuna menzione di un soggetto.
  3. Identificazione di frasi che si riferiscono ai sentimenti riguardo a un soggetto, anche quando quel soggetto non è il focus principale della frase. Questo dimostra come possiamo beneficiare dall'analizzare più frasi rispetto a quelle che menzionano direttamente il soggetto.

Modelli di Analisi del Sentimento

Abbiamo creato modelli di base che prevedono il sentimento generale basandosi su certi schemi trovati nel testo. Questi modelli mostrano la complessità del compito e sono stati valutati con risultati dell'accuratezza del 56% e 69%.

Lavori Correlati

Ci sono altri studi e dataset che toccano l'argomento dell'analisi del sentimento per entità specifiche in testi più lunghi. La maggior parte del lavoro si è concentrata su testi brevi, che non catturano la complessità che vediamo nel nostro dataset.

  1. Rilevamento della Pertinenza del Sentimento delle Entità: Si concentrano sull'identificazione dei sentimenti relativi a soggetti specifici in testi finanziari e medici, ma mancano di un dataset più ampio come il nostro.

  2. Inferenza del Sentimento a Livello di Documento: Il loro obiettivo è capire i sentimenti espressi verso ciascun soggetto, ma tendono a perdere le connessioni più profonde tra diverse entità nel testo.

  3. PerSenT: Questo dataset si concentra su un soggetto per testo, mentre il nostro dataset include tutte le entità menzionate, offrendo una prospettiva più ricca.

  4. NewsMTSC: Questo dataset etichetta i sentimenti per entità, ma non fornisce un sentimento generale per soggetto.

  5. ELSA-pilot: Questo è stato uno studio preliminare che mostra l'importanza di separare il sentimento generale dai sentimenti locali.

Processo di Raccolta Dati

Il nostro dataset proviene da una raccolta di recensioni professionali norvegesi che coprono vari argomenti, come musica, letteratura e film. L'obiettivo generale era avere una visione bilanciata sia dei sentimenti positivi che di quelli negativi in queste recensioni.

Abbiamo scelto un sottoinsieme specifico di recensioni, preparandole per un'analisi dettagliata del sentimento. Ogni soggetto nel testo è identificato, e abbiamo raggruppato riferimenti simili allo stesso soggetto per creare un elenco completo per l'analisi.

Compito di Annotazione

Per ogni soggetto menzionato in un documento, i nostri annotatori avevano due compiti principali:

  1. Segnare il sentimento generale del documento verso il soggetto.
  2. Identificare frasi specifiche che esprimono sentimenti riguardo al soggetto.

Questo coinvolge il riconoscimento di vari modi in cui un soggetto può essere riferito, come menzioni dirette, coreferenze e altri riferimenti correlati.

Gli annotatori hanno utilizzato una scala per etichettare i sentimenti, che include categorie come "Negativo", "Neutrale" e "Positivo", con ulteriori distinzioni per intensità.

Processo di Annotazione

L'annotazione è stata effettuata da un team di persone formate che sono madrelingua norvegesi. Hanno seguito linee guida rigorose per garantire coerenza e accuratezza nel loro lavoro. L'intero processo ha coinvolto più fasi di formazione, discussione e revisione finale da parte dei leader del progetto.

Accordo tra gli Annotatori

Per garantire la qualità, abbiamo misurato quanto bene gli annotatori concordassero sulle loro etichette di sentimento. Abbiamo trovato un forte livello di accordo, con punteggi medi che mostrano che sono stati in grado di identificare accuratamente i sentimenti nei testi.

Analisi del Dataset

Esaminando il corpo principale del nostro dataset, volevamo capire la relazione tra le menzioni specifiche di un soggetto e il sentimento generale trasmesso nel testo.

Abbiamo scoperto che non tutti i sentimenti erano espressi direttamente attraverso le menzioni del nome di un soggetto. Infatti, una parte significativa delle espressioni di sentimento si trovava in frasi in cui il soggetto non era menzionato esplicitamente. Questo evidenzia la necessità di analizzare più di semplici riferimenti diretti.

Risultati dai Dati

Dalle nostre analisi, abbiamo appreso che solo una piccola parte dei segnali di sentimento proveniva da frasi con menzioni dirette di soggetti. La maggior parte dei nostri dati di sentimento proveniva da frasi con altri tipi di relazioni con i soggetti.

Quando abbiamo sommato i sentimenti basati sulle menzioni dei nomi, ci siamo resi conto che molte entità erano state assegnate inaccuratamente un sentimento neutro a causa di segnali mancati in altre frasi. Questo indica che per classificare correttamente i sentimenti, è cruciale cercare segnali in tutte le parti di un testo, non solo dove i soggetti sono menzionati direttamente.

Modelli di Base e Previsioni

Abbiamo esplorato due metodi per utilizzare modelli linguistici per prevedere il sentimento generale legato a ciascun soggetto. Il primo metodo comportava l'addestramento di un modello per identificare le menzioni rilevanti dei soggetti e etichettarle con categorie di sentimento.

Il secondo metodo utilizzava un modello linguistico popolare per impegnarsi in una sollecitazione zero-shot, chiedendogli classificazioni di sentimento basate sul testo.

Risultati dai Modelli

Quando abbiamo aggregato i sentimenti previsti basati su menzioni dirette, abbiamo visto che una percentuale significativa di entità era stata correttamente classificata con etichette positive o negative. Tuttavia, i risultati hanno evidenziato che utilizzare solo questo approccio fa perdere segnali chiave di sentimento.

Conclusione

Abbiamo creato un dataset che fornisce un'analisi dettagliata del sentimento focalizzandosi su soggetti specifici nei testi di recensioni norvegesi. Questo dataset consente l'addestramento di modelli destinati ad analizzare i sentimenti riguardo a singole entità in modo più approfondito.

Attraverso il nostro lavoro, facciamo luce sulle complessità dell'espressione del sentimento in testi più lunghi e sottolineiamo l'importanza di un approccio completo all'analisi del sentimento.

I nostri risultati sottolineano che ignorare i sentimenti espressi attraverso varie relazioni può portare a una perdita di informazioni preziose su come i soggetti sono visti nei testi.

In futuro, questo dataset offre una base per modelli migliorati che possono comprendere meglio il sentimento a un livello più granulare, portando a analisi più accurate dell'opinione pubblica e dei pregiudizi nei media.

Tutti i materiali relativi al nostro dataset, comprese le linee guida per l'annotazione e risorse aggiuntive, sono disponibili per ulteriori esplorazioni e ricerche.

Fonte originale

Titolo: Entity-Level Sentiment: More than the Sum of Its Parts

Estratto: In sentiment analysis of longer texts, there may be a variety of topics discussed, of entities mentioned, and of sentiments expressed regarding each entity. We find a lack of studies exploring how such texts express their sentiment towards each entity of interest, and how these sentiments can be modelled. In order to better understand how sentiment regarding persons and organizations (each entity in our scope) is expressed in longer texts, we have collected a dataset of expert annotations where the overall sentiment regarding each entity is identified, together with the sentence-level sentiment for these entities separately. We show that the reader's perceived sentiment regarding an entity often differs from an arithmetic aggregation of sentiments at the sentence level. Only 70\% of the positive and 55\% of the negative entities receive a correct overall sentiment label when we aggregate the (human-annotated) sentiment labels for the sentences where the entity is mentioned. Our dataset reveals the complexity of entity-specific sentiment in longer texts, and allows for more precise modelling and evaluation of such sentiment expressions.

Autori: Egil Rønningstad, Roman Klinger, Lilja Øvrelid, Erik Velldal

Ultimo aggiornamento: 2024-09-17 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2407.03916

Fonte PDF: https://arxiv.org/pdf/2407.03916

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili