Analizando Sentimientos en Textos de Reseñas Noruegas
Un nuevo conjunto de datos revela las complejidades del análisis de sentimientos en textos más largos.
― 8 minilectura
Tabla de contenidos
- Ejemplo de Análisis de Sentimientos
- Contribuciones de Nuestra Investigación
- Modelos de Análisis de Sentimientos
- Trabajo Relacionado
- Proceso de Recolección de Datos
- Tarea de Anotación
- Proceso de Anotación
- Acuerdo Entre Anotadores
- Análisis del Conjunto de Datos
- Hallazgos de los Datos
- Modelos Base y Predicciones
- Resultados de los Modelos
- Conclusión
- Fuente original
- Enlaces de referencia
Al analizar cómo se siente la gente sobre diferentes temas, a menudo miramos textos más largos que discuten varios asuntos. Estos asuntos pueden ser personas, organizaciones o eventos, y pueden tener diferentes Sentimientos expresados hacia ellos. Sin embargo, no hay mucha investigación sobre cómo identificar y entender estos sentimientos sobre cada tema en detalle.
Para tener una imagen más clara de cómo se muestran los sentimientos sobre personas y organizaciones en textos largos, creamos un conjunto de datos donde expertos marcaron el sentimiento general hacia cada tema, junto con los sentimientos expresados en cada oración.
Nuestros hallazgos muestran que la forma en que un lector siente sobre un tema a menudo no es simplemente sumar los sentimientos de cada oración. En nuestro estudio, solo el 70% de los sentimientos positivos y el 55% de los negativos coincidieron con el sentimiento general cuando intentamos combinar los sentimientos de cada oración.
Este conjunto de datos muestra cuán complicados pueden ser los sentimientos respecto a temas específicos en textos más largos. Ayuda a mejorar cómo modelamos y evaluamos estos sentimientos.
Ejemplo de Análisis de Sentimientos
Imagina un texto que menciona a "Juan" y "la banda". En una oración, podría decir algo positivo sobre "Juan". En otra oración, podría referirse a "la banda" sin mencionar directamente a "Juan". Sin embargo, como "Juan" es parte de la banda, el sentimiento positivo hacia la banda también puede aplicarse a él.
A medida que el análisis de sentimientos ha evolucionado, ha pasado de dar una sola etiqueta positiva o negativa a proporcionar análisis detallados. Un tipo de análisis detallado examina cada mención de sentimiento en una oración, identificando quién siente qué sobre quién.
A menudo, el objetivo del análisis de sentimientos es reunir información más integral sobre cómo se ve a cada tema. Esto puede ser particularmente útil para entender el sesgo de los medios y rastrear tendencias en textos complejos.
Para abordar la necesidad de datos que se centren en sentimientos relacionados con temas específicos, creamos un nuevo conjunto de datos noruego de reseñas cuidadosamente escritas. Cada reseña está marcada por sentimiento tanto a nivel general del texto como a nivel de oración para cada tema mencionado.
Este conjunto de datos es el primer recurso abierto de su tipo en cualquier idioma, proporcionando etiquetas de sentimiento separadas para cada tema tanto en textos cortos como largos.
Contribuciones de Nuestra Investigación
- Un nuevo conjunto de datos y sistema para marcar sentimientos para Entidades específicas a nivel de oración y del texto general, compuesto por 412 textos que incluyen 2479 entidades.
- Análisis de la relación entre los sentimientos expresados en oraciones individuales y los sentimientos generales en el texto, respondiendo preguntas sobre la consistencia del sentimiento respecto a cada mención de un tema.
- Identificación de oraciones que se relacionan con sentimientos sobre un tema, incluso cuando ese tema no es el foco principal de la oración. Esto muestra cómo podemos beneficiarnos de mirar más oraciones que solo aquellas que mencionan directamente al tema.
Modelos de Análisis de Sentimientos
Creamos modelos básicos que predicen el sentimiento general basado en ciertos patrones encontrados en el texto. Estos modelos muestran la complejidad de la tarea y fueron evaluados con resultados de 56% y 69% de precisión.
Trabajo Relacionado
Hay otros estudios y Conjuntos de datos que tocan el tema del análisis de sentimientos para entidades específicas en textos más largos. La mayoría de los trabajos se han enfocado en textos cortos, que no capturan la complejidad que vemos en nuestro conjunto de datos.
Detección de Relevancia de Sentimiento de Entidades: Se centran en identificar sentimientos relacionados con temas específicos en textos financieros y médicos, pero carecen de un conjunto de datos más amplio como el nuestro.
Inferencia de Sentimiento a Nivel de Documento: Su objetivo es comprender los sentimientos expresados hacia cada tema, pero tienden a perder las conexiones más profundas entre diferentes entidades en el texto.
PerSenT: Este conjunto de datos se centra en un tema por texto, mientras que nuestro conjunto de datos incluye todas las entidades mencionadas, dando una perspectiva más rica.
NewsMTSC: Este conjunto de datos etiqueta sentimientos para entidades pero no proporciona un sentimiento general por tema.
ELSA-pilot: Este fue un estudio preliminar que mostró la importancia de separar el sentimiento general de los sentimientos locales.
Proceso de Recolección de Datos
Nuestro conjunto de datos proviene de una colección de reseñas profesionales noruegas que cubren varios temas, como música, literatura y películas. El objetivo general era tener una visión equilibrada de los sentimientos positivos y negativos en estas reseñas.
Elegimos un subconjunto específico de reseñas, preparándolas para un análisis de sentimientos detallado. Cada tema en el texto es identificado, y agrupamos referencias similares al mismo tema para crear una lista integral para el análisis.
Tarea de Anotación
Para cada tema mencionado en un documento, nuestros anotadores tenían dos tareas principales:
- Marcar el sentimiento general del documento hacia el tema.
- Identificar oraciones específicas que expresen sentimientos sobre el tema.
Esto implica reconocer varias formas en que se puede referir a un tema, como menciones directas, co-referencias y otras referencias relacionadas.
Los anotadores usaron una escala para etiquetar sentimientos, que incluye categorías como "Negativo", "Neutral" y "Positivo", con distinciones adicionales por intensidad.
Proceso de Anotación
La anotación fue realizada por un equipo de individuos capacitados que son hablantes nativos de noruego. Siguieron pautas estrictas para asegurar consistencia y precisión en su trabajo. Todo el proceso involucró múltiples fases de entrenamiento, discusión y revisión final por parte de los líderes del proyecto.
Acuerdo Entre Anotadores
Para asegurar calidad, medimos qué tan bien coincidieron los anotadores en sus etiquetas de sentimiento. Encontramos un fuerte nivel de acuerdo, con puntajes promedio que mostraron que pudieron identificar con precisión los sentimientos en los textos.
Análisis del Conjunto de Datos
Examinando el cuerpo principal de nuestro conjunto de datos, queríamos entender la relación entre menciones específicas de un tema y el sentimiento general transmitido en el texto.
Descubrimos que no todos los sentimientos se expresaron directamente a través de menciones del nombre de un tema. De hecho, una parte significativa de las expresiones de sentimientos se encontraron en oraciones donde el tema no se mencionó explícitamente. Esto destaca la necesidad de analizar más que solo referencias directas.
Hallazgos de los Datos
A partir de nuestros análisis, aprendimos que solo una pequeña porción de las señales de sentimiento provino de oraciones con menciones directas de los temas. La mayor parte de nuestros datos de sentimiento provino de oraciones con otros tipos de relaciones con los temas.
Cuando sumamos los sentimientos basados en menciones de nombre, nos dimos cuenta de que muchas entidades fueron asignadas erróneamente un sentimiento neutral debido a señales perdidas en otras oraciones. Esto indica que, para clasificar correctamente los sentimientos, es crucial buscar señales en todas las partes de un texto, no solo donde se mencionan directamente los temas.
Modelos Base y Predicciones
Exploramos dos métodos para usar modelos de lenguaje para predecir el sentimiento general relacionado con cada tema. El primer método involucró entrenar un modelo para identificar menciones relevantes de temas y etiquetarlas con categorías de sentimiento.
El segundo método utilizó un modelo de lenguaje popular para participar en el prompting de cero disparos, pidiéndole clasificaciones de sentimiento basadas en el texto.
Resultados de los Modelos
Cuando agregamos los sentimientos predichos basados en menciones directas, vimos que un porcentaje significativo de entidades fue correctamente clasificado con etiquetas positivas o negativas. Sin embargo, los resultados destacaron que usar solo este enfoque pierde señales clave de sentimiento.
Conclusión
Hemos creado un conjunto de datos que proporciona un análisis detallado de sentimientos centrado en temas específicos en textos de reseñas noruegas. Este conjunto de datos permite el entrenamiento de modelos destinados a analizar sentimientos sobre entidades individuales de una manera más reflexiva.
A través de nuestro trabajo, arrojamos luz sobre las complejidades de la expresión de sentimientos en textos más largos y enfatizamos la importancia de un enfoque integral para el análisis de sentimientos.
Nuestros hallazgos subrayan que ignorar los sentimientos expresados a través de varias relaciones puede llevar a una pérdida de información valiosa sobre cómo se ven los temas en los textos.
En el futuro, este conjunto de datos ofrece una base para modelos mejorados que pueden entender mejor el sentimiento a un nivel más granular, lo que lleva a análisis más precisos de la opinión pública y los sesgos de los medios.
Todos los materiales relacionados con nuestro conjunto de datos, incluidas las pautas de anotación y recursos adicionales, están disponibles para una exploración y investigación más profunda.
Título: Entity-Level Sentiment: More than the Sum of Its Parts
Resumen: In sentiment analysis of longer texts, there may be a variety of topics discussed, of entities mentioned, and of sentiments expressed regarding each entity. We find a lack of studies exploring how such texts express their sentiment towards each entity of interest, and how these sentiments can be modelled. In order to better understand how sentiment regarding persons and organizations (each entity in our scope) is expressed in longer texts, we have collected a dataset of expert annotations where the overall sentiment regarding each entity is identified, together with the sentence-level sentiment for these entities separately. We show that the reader's perceived sentiment regarding an entity often differs from an arithmetic aggregation of sentiments at the sentence level. Only 70\% of the positive and 55\% of the negative entities receive a correct overall sentiment label when we aggregate the (human-annotated) sentiment labels for the sentences where the entity is mentioned. Our dataset reveals the complexity of entity-specific sentiment in longer texts, and allows for more precise modelling and evaluation of such sentiment expressions.
Autores: Egil Rønningstad, Roman Klinger, Lilja Øvrelid, Erik Velldal
Última actualización: 2024-09-17 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2407.03916
Fuente PDF: https://arxiv.org/pdf/2407.03916
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.