Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Multimedia# Inteligencia artificial# Visión por Computador y Reconocimiento de Patrones

Abordando el discurso de odio en videos con el conjunto de datos MultiHateClip

Nuevo conjunto de datos ofrece información sobre el discurso de odio en diferentes idiomas y formatos.

― 7 minilectura


Se revela el conjunto deSe revela el conjunto dedatos MultiHateClip.idiomas.discurso de odio en videos en variosNuevo conjunto de datos aborda el
Tabla de contenidos

El Discurso de odio es un tema importante que afecta a la gente tanto en línea como en la vida real. Muchos estudios recientes se han centrado en detectar palabras y frases de odio en textos escritos, pero los Videos no han recibido la misma atención, a pesar de su potencial para difundir contenido dañino. La mayoría de la investigación existente sobre videos de odio se limita al contenido en inglés y no proporciona información detallada sobre el contexto de los mensajes de odio.

Para abordar esta falta, hemos creado un nuevo conjunto de datos llamado MultiHateClip. Este conjunto incluye videos de plataformas como YouTube y Bilibili y abarca tanto el inglés como el chino. Contiene 2,000 videos que han sido etiquetados por su nivel de odio, ofensa y normalidad, permitiendo a los investigadores estudiar el discurso de odio a través de diferentes culturas. Este conjunto de datos está diseñado para ayudar a mejorar la detección de contenido odioso en los videos.

La Importancia del Análisis Multilingüe y Multimodal

Las redes sociales han cambiado cómo la gente comparte información, haciendo más fácil conectarse con otros. Sin embargo, estas plataformas también permiten que el discurso de odio se propague rápidamente. El discurso de odio puede dirigirse a grupos basados en raza, religión, género y otras características. Este comportamiento puede llevar a la violencia en el mundo real y conflictos, por lo que es esencial encontrar y reducir este tipo de contenido.

La mayoría de la investigación actual se centra en detectar el discurso de odio en texto escrito, pero el contenido de video a menudo es pasado por alto. Los videos combinan componentes visuales, auditivos y textuales, lo que los hace efectivos para transmitir el discurso de odio. Por lo tanto, estudiar videos puede proporcionar una comprensión más completa de cómo se comunica el discurso de odio.

Los Conjuntos de datos existentes para videos de odio principalmente presentan contenido en inglés y se enfocan en si son odiosos o no, dejando de lado el contexto detallado y los factores específicos de la cultura. Para llenar este vacío, desarrollamos el conjunto de datos MultiHateClip, que incluye videos en inglés y chino dirigidos al discurso de odio relacionado con género.

Creando el Conjunto de Datos MultiHateClip

El conjunto de datos MultiHateClip se desarrolló con el objetivo de proporcionar una comprensión más matizada del discurso de odio en videos. Recolectamos videos usando palabras clave relacionadas con el discurso de odio basado en género de YouTube y Bilibili. Para asegurar una perspectiva cultural amplia, utilizamos léxicos de odio adaptados tanto para el inglés como para el chino. Nuestro objetivo era reunir videos que presentaran discurso de odio dirigido a varios grupos.

En total, recolectamos 5,600 videos en inglés y 5,100 videos en chino. Después de un cuidadoso filtrado, lo redujimos a 2,000 videos de cada idioma para un análisis más detallado. Cada video fue etiquetado por un equipo de hablantes nativos familiarizados con el contexto cultural.

Los videos se categorizaron en tres grupos: odiosos, ofensivos y normales. Los videos etiquetados como odiosos u ofensivos fueron analizados más a fondo para identificar segmentos específicos que contengan dicho contenido, el objetivo del discurso de odio, y las modalidades involucradas (texto, audio o visual).

Evaluación del Conjunto de Datos

El conjunto de datos pasó por un análisis extenso para evaluar su calidad y perspectivas. Realizamos evaluaciones estadísticas para entender la prevalencia del discurso de odio entre diferentes grupos de víctimas, enfocándonos particularmente en género. Los patrones mostraron que las mujeres eran los principales objetivos de este contenido odioso en ambos idiomas.

El análisis también reveló que muchos videos odiosos utilizaban una combinación de diferentes modalidades. Este hallazgo destaca la necesidad de un enfoque multifacético al estudiar e identificar el discurso de odio en videos. Por ejemplo, muchos videos incluían elementos combinados como palabras habladas, imágenes y texto escrito para transmitir sus mensajes.

Desafíos en la Detección del Discurso de Odio

Mientras desarrollábamos este conjunto de datos, también reconocimos las limitaciones de los modelos existentes de detección de discurso de odio. Muchos de estos modelos tenían dificultades para diferenciar entre contenido odioso y ofensivo de manera precisa. A menudo, podían clasificar el contenido como odioso/offensivo o normal, pero la delgada línea entre odioso y ofensivo seguía siendo un desafío.

Además, muchos modelos actuales están principalmente entrenados en conjuntos de datos en inglés. Este énfasis los deja mal preparados para manejar contenido en otros idiomas o de otros contextos culturales, como el chino.

Los modelos también muestran una falta de comprensión cuando se trata de odio implícito. El odio implícito se refiere al discurso de odio que no se declara abiertamente, pero que se puede inferir del contexto, pistas tonales o referencias sutiles.

Dado estos desafíos, el conjunto de datos MultiHateClip tiene como objetivo fomentar el desarrollo de modelos de detección más efectivos que consideren tanto las sutilezas lingüísticas como el contexto cultural.

Evaluación de Modelos de Clasificación

Para evaluar la efectividad de los modelos actuales para detectar discurso de odio en videos, aplicamos varios modelos de última generación a nuestro conjunto de datos. Estos modelos utilizan una combinación de características de texto, audio y visuales para clasificar videos.

En las pruebas, los modelos fueron evaluados sobre su capacidad para clasificar videos en una de tres categorías: odiosos, ofensivos o normales. Esta evaluación incluyó tanto escenarios de clasificación multiclase como binaria.

Resultados de la Evaluación

Los resultados revelaron que los modelos que funcionaron mejor con un enfoque multimodal (usando texto, audio y visual juntos) superaron a aquellos que se basaban únicamente en un tipo de entrada. Por ejemplo, la integración del audio a menudo mejoró el rendimiento de clasificación, lo que indica la importancia de considerar todas las modalidades presentes en un video.

Las pruebas de diferentes modelos mostraron que, aunque algunos sobresalieron en conjuntos de datos en inglés, tuvieron dificultades con los videos en chino debido a su falta de exposición y entrenamiento en contenido no occidental.

Perspectivas Obtenidas

Nuestro análisis del conjunto de datos MultiHateClip ha proporcionado perspectivas críticas que pueden mejorar los métodos de detección de discurso de odio. Los hallazgos indican que el discurso de odio dirigido a las mujeres es más frecuente que el de otros grupos de víctimas.

Además, la naturaleza multimodal de muchos videos ilustra la necesidad de modelos que puedan integrar múltiples tipos de entrada para una comprensión más completa del contenido relacionado con el odio.

Direcciones Futuras

Basándonos en estas perspectivas, la investigación futura debería centrarse en crear modelos más culturalmente conscientes adaptados a varios idiomas. Mejorar el entrenamiento de modelos y abordar las limitaciones actuales será esencial para enfrentar efectivamente el discurso de odio en varios contextos.

El conjunto de datos MultiHateClip sirve como un recurso valioso para los investigadores que buscan entender mejor la naturaleza del discurso de odio y desarrollar modelos de detección más precisos.

Conclusión

En resumen, el conjunto de datos MultiHateClip es un paso importante hacia la comprensión y detección del discurso de odio en videos. Al ofrecer un conjunto de datos multilingüe y multimodal, esperamos contribuir al desarrollo de herramientas analíticas más robustas.

A medida que el discurso de odio sigue planteando desafíos en línea y fuera de línea, crear sistemas de detección y clasificación efectivos será vital. La colaboración entre disciplinas y culturas será esencial para abordar este complejo problema social.

El desarrollo y refinamiento continuo del conjunto de datos MultiHateClip, con suerte, allanará el camino para avances en el campo de la detección del discurso de odio, fomentando un entorno en línea más seguro para todos los usuarios.

Fuente original

Título: MultiHateClip: A Multilingual Benchmark Dataset for Hateful Video Detection on YouTube and Bilibili

Resumen: Hate speech is a pressing issue in modern society, with significant effects both online and offline. Recent research in hate speech detection has primarily centered on text-based media, largely overlooking multimodal content such as videos. Existing studies on hateful video datasets have predominantly focused on English content within a Western context and have been limited to binary labels (hateful or non-hateful), lacking detailed contextual information. This study presents MultiHateClip1 , an novel multilingual dataset created through hate lexicons and human annotation. It aims to enhance the detection of hateful videos on platforms such as YouTube and Bilibili, including content in both English and Chinese languages. Comprising 2,000 videos annotated for hatefulness, offensiveness, and normalcy, this dataset provides a cross-cultural perspective on gender-based hate speech. Through a detailed examination of human annotation results, we discuss the differences between Chinese and English hateful videos and underscore the importance of different modalities in hateful and offensive video analysis. Evaluations of state-of-the-art video classification models, such as VLM, GPT-4V and Qwen-VL, on MultiHateClip highlight the existing challenges in accurately distinguishing between hateful and offensive content and the urgent need for models that are both multimodally and culturally nuanced. MultiHateClip represents a foundational advance in enhancing hateful video detection by underscoring the necessity of a multimodal and culturally sensitive approach in combating online hate speech.

Autores: Han Wang, Tan Rui Yang, Usman Naseem, Roy Ka-Wei Lee

Última actualización: 2024-08-12 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2408.03468

Fuente PDF: https://arxiv.org/pdf/2408.03468

Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares