Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje# Inteligencia artificial

Analizando el discurso de odio a través de la argumentación

Este artículo examina la estructura de los argumentos de discurso de odio en las redes sociales.

― 6 minilectura


Análisis de ArgumentaciónAnálisis de Argumentacióndel Discurso de Odiodiscurso dañino en línea.Un estudio sobre la estructura del
Tabla de contenidos

Los modelos de lenguaje grandes (LLMs) se están usando cada vez más en varias aplicaciones, como chatbots y herramientas de completar texto. A medida que su uso crece, se vuelve importante analizar textos con más detalle, especialmente en entornos como las redes sociales donde puede haber discursos dañinos. Este artículo se centra en cómo podemos evaluar el discurso de odio al mirar los argumentos que se presentan en estos textos.

El discurso de odio puede ser perjudicial para las personas y la sociedad. A menudo refuerza estereotipos dañinos y puede llevar a la deshumanización. El desafío es encontrar formas efectivas de identificar, analizar y responder al discurso de odio sin infringir los derechos de libre expresión.

Argumentación en los Textos

La argumentación implica presentar razones para apoyar una afirmación o Conclusión. En el discurso de odio, los argumentos suelen dirigirse a grupos específicos, asociándolos con rasgos o acciones negativas. Reconocer estos argumentos es clave para entender cómo funciona el discurso de odio y cómo contrarrestarlo.

Para estudiar el discurso de odio de manera efectiva, creamos un sistema para anotar y clasificar los argumentos presentes en redes sociales. Este sistema ayuda a los investigadores a identificar los diferentes componentes de los argumentos en tweets que expresan odio.

El Corpus Hateval y su Anotación

Trabajamos con un conjunto de datos llamado corpus Hateval que contiene ejemplos de discurso de odio en tweets. Nuestro objetivo era mejorar este conjunto de datos añadiendo información sobre los argumentos dentro de estos tweets. Usamos un método basado en la Tabla Periódica de Argumentos para categorizar los diferentes componentes de los argumentos presentes en los tweets.

A través de este proceso, encontramos que algunos componentes de argumento se podían identificar con precisión mientras que otros eran más complicados. También analizamos patrones de desacuerdo entre diferentes anotadores para definir mejor las categorías de argumentos.

Metodología

Proceso de Anotación

Nuestro proceso de anotación involucró múltiples pasos. Primero, definimos qué hace que un tweet sea argumentativo. Establecimos que un tweet se considera argumentativo si presenta tanto una conclusión como una premisa.

Luego, nos centramos en elementos específicos del discurso de odio, como el colectivo objetivo y las Propiedades negativas asociadas con ese grupo. Etiquetamos tweets según estos elementos e identificamos las Justificaciones dadas para las conclusiones que se sacaron.

Identificación de Componentes

Los componentes que identificamos incluyen:

  1. Colectivo: El grupo que está siendo atacado en el discurso de odio.
  2. Propiedad: El atributo o acción negativa asociada con el colectivo.
  3. Justificación: Las razones proporcionadas para apoyar la conclusión.
  4. Conclusión: El punto principal que se hace en el tweet.

Nuestro objetivo era crear un conjunto claro de pautas para que diferentes anotadores pudieran estar de acuerdo en las etiquetas aplicadas a cada tweet.

Acuerdo entre Anotadores

Para asegurar la fiabilidad de nuestras anotaciones, evaluamos el acuerdo entre diferentes anotadores. Este paso fue crucial porque indicó cuán consistente era nuestro proceso de etiquetado.

Medimos el acuerdo en varios componentes y encontramos que, en general, los anotadores alcanzaron un nivel sustancial de acuerdo en la mayoría de las categorías. Sin embargo, algunos componentes, como el pivote, mostraron un menor acuerdo. Esto destacó áreas donde se necesitaba una mayor refinación de nuestro enfoque.

Identificación Automática de Argumentos

Con los datos anotados, exploramos cómo los LLMs podrían identificar automáticamente componentes argumentativos. Ajustamos diferentes modelos, como RoBERTa y BERTweet, usando nuestro conjunto de datos.

Análisis de Rendimiento

Probamos los modelos en varias tareas:

  • Distinguir entre tweets argumentativos y no argumentativos
  • Identificar componentes como Colectivos, propiedades y justificaciones
  • Clasificar los tipos de conclusiones y justificaciones

En general, los modelos tuvieron un buen rendimiento en reconocer si un tweet era argumentativo. Sin embargo, tuvieron problemas con componentes más complejos, especialmente aquellos que requieren entendimiento de contexto y matices.

Resultados y Discusión

Los hallazgos mostraron que ciertos aspectos argumentativos podían ser identificados de manera confiable por los LLMs, especialmente los elementos estructurales centrales. Las justificaciones y conclusiones resultaron más fáciles de etiquetar con precisión que los colectivos y propiedades.

Los resultados también revelaron que cuanto mayor era el conjunto de datos usado para entrenar los modelos, mejor era el rendimiento. Esto sugiere que reunir más ejemplos de discurso de odio puede mejorar la fiabilidad de los sistemas de detección automática.

Limitaciones del Estudio

Aunque el estudio produjo valiosas ideas, también descubrió limitaciones. Por ejemplo, los modelos automáticos a menudo identificaban incorrectamente componentes cuando las relaciones entre ellos no estaban claramente expresadas. Además, los modelos tenían dificultades para manejar el lenguaje complejo usado en los tweets.

Trabajo Futuro

De cara al futuro, hay varias vías para mejorar. Un enfoque será refinar las definiciones y categorías de los argumentos para aumentar el acuerdo entre anotadores. Otro paso importante será expandir el conjunto de datos anotados, especialmente para tweets en español, para mejorar la diversidad y representatividad de nuestros hallazgos.

También planeamos explorar métodos para generar contranarrativas en respuesta al discurso de odio, aprovechando el análisis argumentativo de tweets. Esto podría llevar al desarrollo de herramientas más efectivas para abordar el discurso dañino en tiempo real.

Consideraciones Éticas

Al realizar esta investigación, reconocimos la responsabilidad que implica manejar contenido que puede ser ofensivo o dañino. Tomamos medidas para garantizar que el equipo de investigación estuviera bien apoyado y capacitado para gestionar cualquier angustia emocional que pudiera surgir de la exposición al discurso de odio.

Conclusión

En conclusión, nuestro trabajo destaca la importancia de analizar la estructura argumentativa del discurso de odio en redes sociales. Al entender mejor cómo se construyen los argumentos en estos textos tóxicos, podemos desarrollar estrategias más efectivas para la detección y respuesta. Los conocimientos obtenidos de esta investigación contribuirán al esfuerzo continuo por combatir el discurso de odio mientras se equilibra la necesidad de libre expresión en los espacios digitales.

Fuente original

Título: Which Argumentative Aspects of Hate Speech in Social Media can be reliably identified?

Resumen: With the increasing diversity of use cases of large language models, a more informative treatment of texts seems necessary. An argumentative analysis could foster a more reasoned usage of chatbots, text completion mechanisms or other applications. However, it is unclear which aspects of argumentation can be reliably identified and integrated in language models. In this paper, we present an empirical assessment of the reliability with which different argumentative aspects can be automatically identified in hate speech in social media. We have enriched the Hateval corpus (Basile et al. 2019) with a manual annotation of some argumentative components, adapted from Wagemans (2016)'s Periodic Table of Arguments. We show that some components can be identified with reasonable reliability. For those that present a high error ratio, we analyze the patterns of disagreement between expert annotators and errors in automatic procedures, and we propose adaptations of those categories that can be more reliably reproduced.

Autores: Damián Furman, Pablo Torres, José A. Rodríguez, Diego Letzen, Vanina Martínez, Laura Alonso Alemany

Última actualización: 2023-06-05 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2306.02978

Fuente PDF: https://arxiv.org/pdf/2306.02978

Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares