Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje# Aprendizaje automático# Redes sociales y de información

Mejorando la detección de discurso de odio usando autoentrenamiento

Esta investigación explora métodos de autoentrenamiento para mejorar la detección de discursos de odio en las redes sociales.

― 8 minilectura


Detección de Discurso deDetección de Discurso deOdio Mejoradacomentarios dañinos en redes sociales.mejoran la precisión en la detección deLos métodos de autoentrenamiento
Tabla de contenidos

Las redes sociales son una parte gigante de nuestras vidas, pero también pueden ser un lugar donde la gente publica comentarios hirientes y ofensivos. Como se crean un montón de publicaciones nuevas cada segundo, es complicado para los humanos monitorearlas todas. Por eso necesitamos programas de computadora que encuentren y marquen automáticamente esos comentarios dañinos.

Crear un buen conjunto de ejemplos etiquetados, donde los comentarios dañinos y los inofensivos estén claramente marcados, es clave para entrenar estos programas. Sin embargo, es difícil obtener suficientes ejemplos etiquetados ya que la mayoría de las publicaciones no son ofensivas. Hay muchos más comentarios inofensivos que dañinos. Por suerte, hay un montón de publicaciones sin marcar disponibles, lo que hace que usarlas para entrenamiento sea mucho más barato y fácil.

Una forma de trabajar con esas publicaciones sin marcar es un método llamado Autoentrenamiento. Esto implica usar algunos ejemplos etiquetados para ayudar a identificar y crear nuevos ejemplos. Algunas técnicas recientes se enfocan en el autoentrenamiento "ruidoso", lo que significa que utilizan métodos para añadir variedad a los datos, asegurando que el programa aprenda mejor frente a información de calidad mixta. Este documento analiza qué tan efectivo es el autoentrenamiento al intentar detectar comentarios ofensivos, especialmente cuando se combina con técnicas de variedad de datos.

El desafío de la Detección de discursos de odio

Las plataformas modernas de redes sociales pueden ser muy útiles, pero también sacan a relucir muchos comentarios negativos. El anonimato de los usuarios a menudo lleva a un aumento de comentarios hirientes. Revisar manualmente estos comentarios dañinos no es práctico debido a la gran cantidad de publicaciones y la carga mental que eso implica para los moderadores. Esto resalta la necesidad de formas automáticas para detectar discursos de odio.

En los últimos años, los investigadores han puesto mucho esfuerzo en crear nuevos métodos y conjuntos de datos para identificar comentarios ofensivos en diferentes idiomas y contextos. Sin embargo, la mayoría de los conjuntos de datos disponibles tienen un desequilibrio; contienen muchos más ejemplos no ofensivos que ofensivos.

Para lidiar con este problema, se suelen usar métodos tradicionales como el submuestreo o el sobremuestreo. Otra forma de abordar esto es aplicando técnicas semi-supervisadas como el autoentrenamiento, que pueden ayudar a ampliar el conjunto de datos sin necesidad de muchas etiquetas manuales.

Autoentrenamiento explicado

El autoentrenamiento es una forma de enseñar a las máquinas con datos etiquetados y sin etiquetar. Comienza con un modelo entrenado en ejemplos etiquetados. Después de aprender de estos, trata de adivinar las etiquetas para un conjunto de datos sin etiquetar, creando lo que se llama un conjunto débilmente etiquetado. Luego, el modelo combina los datos etiquetados y débilmente etiquetados para mejorar su entrenamiento. Este proceso se repite varias veces hasta que el modelo deja de mostrar mejoras.

El autoentrenamiento puede ser muy útil cuando no hay muchos ejemplos etiquetados disponibles. Ya ha tenido éxito en diferentes campos como la visión por computadora y el procesamiento del lenguaje. A lo largo de los años, se han desarrollado muchas variaciones del autoentrenamiento.

Un método popular está relacionado con el modelo de maestro-alumno, donde un modelo "maestro" guía a un modelo "alumno" compartiendo su salida. A veces, se añade un filtro para eliminar ejemplos que parecen demasiado inciertos o poco útiles.

Enfoques de autoentrenamiento ruidoso

Los métodos de autoentrenamiento ruidoso añaden pequeños cambios a los datos de entrada originales o sus características para ayudar al modelo a aprender mejor. Estos cambios, a menudo llamados aumentaciones de datos, se utilizan comúnmente en tareas visuales, pero no se han aplicado tanto en tareas de lenguaje natural. En el autoentrenamiento ruidoso, estos métodos ayudan a asegurar que el modelo pueda manejar diferentes variaciones de datos y aún así hacer predicciones precisas.

Algunas investigaciones han mostrado que la efectividad de la aumentación de datos puede depender de la tarea específica para la que se destina. En el área de la detección de discursos de odio, estudios anteriores han encontrado resultados mixtos al usar técnicas de aumentación de datos.

Aún no está claro si aplicar autoentrenamiento ruidoso junto con aumentaciones de datos textuales puede ayudar en tareas de Clasificación usando modelos avanzados de BERT, que son conocidos por su capacidad de manejar diferentes tipos de cambios en la entrada. El reto con la detección de discursos de odio es que es muy sensible a ciertas palabras. Un pequeño cambio en una palabra puede alterar el significado y, por lo tanto, afectar la clasificación.

Este documento describe experimentos usando tres tipos diferentes de enriquecimiento de datos - retrotraducción, intercambio aleatorio de palabras y sustitución aleatoria de sinónimos - combinados con autoentrenamiento a través de cinco modelos de BERT de diferentes tamaños.

Hallazgos clave de los experimentos

Los resultados de los experimentos muestran que el autoentrenamiento mejora el rendimiento de los modelos, ya sea que se use aumentación de datos o no. Esta mejora puede llegar hasta un 1.5% de aumento en el rendimiento en dos conjuntos de datos. Sin embargo, cuando se comparó el autoentrenamiento ruidoso con aumentaciones de datos con el autoentrenamiento estándar, los resultados mostraron que el autoentrenamiento ruidoso no condujo a un mejor rendimiento, contradiciendo hallazgos en otros campos.

El estudio también destaca que algunas técnicas de aumentación de datos, particularmente la retrotraducción, no mejoraron las puntuaciones de clasificación. Esto sugiere que la naturaleza específica de la detección de discursos de odio puede requerir métodos más personalizados.

Otro hallazgo importante es que el tipo de método de aumentación afecta cómo se clasifican los ejemplos. Notablemente, la sustitución de sinónimos y el intercambio aleatorio de palabras funcionaron mejor que la retrotraducción en muchas configuraciones.

Entendiendo la aumentación de datos

Los experimentos analizaron qué tan bien los métodos de aumentación fueron capaces de generar nuevos ejemplos sin cambiar el significado del texto original. El éxito se midió por cuántas nuevas palabras únicas se introdujeron y si los cambios llevaron a cambios en la clasificación de comentarios dañinos versus inofensivos.

Curiosamente, la retrotraducción introdujo más nuevas palabras, pero también llevó a la mayor cantidad de casos de clasificación errónea-donde un comentario pasó de ser visto como no ofensivo a ofensivo o viceversa.

En el caso de la sustitución de sinónimos y el intercambio de palabras, aunque produjeron menos nuevas palabras, resultaron en un cambio menor en la clasificación. Esto muestra cuán sensible puede ser la clasificación a lo que podrían parecer ajustes menores en el texto.

Conclusión

Este análisis demostró que el autoentrenamiento puede mejorar significativamente la detección de discursos dañinos a través de varios tamaños de modelos y conjuntos de datos. Aunque se encontró que el autoentrenamiento fue beneficioso en general, añadir ruido de datos a través de aumentaciones como la retrotraducción no condujo a los beneficios esperados, revelando los desafíos únicos de la clasificación de discursos de odio.

Las diferentes estrategias de aumentación de datos utilizadas mostraron resultados distintos, enfatizando la necesidad de un enfoque cuidadoso en el diseño de métodos destinados a tareas de clasificación que involucren contenido sensible como el discurso de odio. El trabajo futuro puede enfocarse en desarrollar técnicas de aumentación que respeten las sutilezas del lenguaje ofensivo, así como probar la efectividad de modelos de lenguaje más grandes en este contexto.

Direcciones futuras

Para avanzar en esta investigación, se pueden hacer esfuerzos para crear técnicas más matizadas para la aumentación de datos que preserven el significado central de palabras clave sensibles sin introducir variaciones engañosas. Podrían obtenerse valiosos conocimientos de modelos de lenguaje grandes que puedan ofrecer modificaciones de texto más especializadas que sean aún conscientes del contexto.

Con los desarrollos continuos en esta área de investigación, hay potencial para métodos más efectivos que impulsen los modelos de aprendizaje automático destinados a identificar y mitigar contenido dañino en plataformas de redes sociales.

Fuente original

Título: Noisy Self-Training with Data Augmentations for Offensive and Hate Speech Detection Tasks

Resumen: Online social media is rife with offensive and hateful comments, prompting the need for their automatic detection given the sheer amount of posts created every second. Creating high-quality human-labelled datasets for this task is difficult and costly, especially because non-offensive posts are significantly more frequent than offensive ones. However, unlabelled data is abundant, easier, and cheaper to obtain. In this scenario, self-training methods, using weakly-labelled examples to increase the amount of training data, can be employed. Recent "noisy" self-training approaches incorporate data augmentation techniques to ensure prediction consistency and increase robustness against noisy data and adversarial attacks. In this paper, we experiment with default and noisy self-training using three different textual data augmentation techniques across five different pre-trained BERT architectures varying in size. We evaluate our experiments on two offensive/hate-speech datasets and demonstrate that (i) self-training consistently improves performance regardless of model size, resulting in up to +1.5% F1-macro on both datasets, and (ii) noisy self-training with textual data augmentations, despite being successfully applied in similar settings, decreases performance on offensive and hate-speech domains when compared to the default method, even with state-of-the-art augmentations such as backtranslation.

Autores: João A. Leite, Carolina Scarton, Diego F. Silva

Última actualización: 2023-07-31 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2307.16609

Fuente PDF: https://arxiv.org/pdf/2307.16609

Licencia: https://creativecommons.org/licenses/by-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares