Entendiendo Mensajes Ocultos en el Lenguaje
Una mirada al lenguaje codificado y sus implicaciones en la sociedad.
― 8 minilectura
Tabla de contenidos
- Contexto Histórico de los Silbidos para Perros
- El Papel de los Modelos de Lenguaje Grande (LLMs)
- Importancia de la Desambiguación de Significado de Palabras
- El Conjunto de Datos de Señales Silenciosas
- Desafíos en la Detección de Silbidos
- Aplicaciones en Investigación Social y Política
- Construyendo el Conjunto de Datos de Señales Silenciosas
- Proceso de Recolección de Datos
- Experimentando con LLMs
- Rendimiento del Modelo
- Entendiendo la Evolución de los Silbidos
- El Papel de la Intención en los Silbidos
- Utilizando el Conjunto de Datos
- Importancia de la Investigación
- El Futuro de la Investigación sobre Silbidos
- Conclusión
- Fuente original
- Enlaces de referencia
Los silbidos para perros son una forma de comunicación que tiene significados ocultos, a menudo usados para mandar mensajes a grupos específicos sin alertar al público en general. Aunque pueden parecer inofensivos para muchos, los silbidos pueden llevar mensajes dañinos, especialmente en temas de raza, clase y política. Históricamente, estos términos eran comunes en la política de EE.UU., pero últimamente se han expandido a las redes sociales. Esto permite a los usuarios expresar opiniones que pueden evadir la detección de sistemas de detección de discursos de odio.
Contexto Histórico de los Silbidos para Perros
El término "silbido para perros" surgió en el ámbito del discurso político, particularmente en épocas cuando el racismo abierto era mal visto, especialmente después del Movimiento por los Derechos Civiles. Los políticos empezaron a usar un lenguaje codificado para expresar prejuicios raciales sin enfrentar reacciones negativas. Esto les permitió comunicar ideas discriminatorias mientras mantenían la apariencia de no ser racistas. Con el tiempo, el uso de los silbidos ha evolucionado, y a menudo se adaptan para encajar en los climas sociales y plataformas actuales, especialmente en línea.
Modelos de Lenguaje Grande (LLMs)
El Papel de losLos Modelos de Lenguaje Grande (LLMs) son sistemas de IA capaces de entender y generar lenguaje humano. En este contexto, los LLMs pueden ayudar a identificar y explicar los silbidos analizando patrones de lenguaje. Son particularmente útiles porque pueden procesar grandes cantidades de texto y pueden ser entrenados en tareas específicas como detectar lenguaje codificado.
Importancia de la Desambiguación de Significado de Palabras
La desambiguación de significado de palabras es una tarea que ayuda a distinguir entre diferentes significados de las palabras según el contexto. Por ejemplo, una palabra como "soy" podría referirse a un producto alimenticio en una situación, pero puede usarse de manera insultante en otra. Muchos silbidos funcionan así: pueden parecer inocentes a primera vista, pero tienen un significado dañino dentro de contextos específicos. Enseñar a los LLMs a desambiguar estos significados es crucial para identificar efectivamente los silbidos.
El Conjunto de Datos de Señales Silenciosas
Para entender y analizar mejor el uso de los silbidos, se creó un conjunto de datos conocido como Señales Silenciosas. Este conjunto contiene numerosos ejemplos de silbidos, tanto de entornos formales como registros del Congreso de EE.UU. y entornos informales como comentarios de Reddit. El conjunto de datos tiene como objetivo proporcionar un recurso integral para estudiar cómo se utilizan los silbidos en diferentes contextos a lo largo del tiempo.
Desafíos en la Detección de Silbidos
Una de las principales dificultades para identificar los silbidos radica en su sutileza y en el hecho de que muchos términos tienen significados comúnmente aceptados. Por ejemplo, la palabra "soy" por sí sola no señala nada dañino, pero en ciertos contextos, puede usarse para insultar a un grupo específico. Los sistemas tradicionales de detección de discursos de odio a menudo luchan con estas diferencias, ya que están diseñados para atrapar lenguaje abiertamente ofensivo en lugar de frases más sutiles y codificadas.
Aplicaciones en Investigación Social y Política
Entender los silbidos es esencial para varios campos, incluyendo ciencias sociales y estudios políticos. Al analizar cómo se utilizan los silbidos, los investigadores pueden entender mejor la dinámica de la discriminación y cómo ciertos grupos pueden usar el lenguaje para manipular la opinión pública. Este conocimiento también puede ayudar a crear mejores sistemas de moderación de contenido, asegurando que el discurso dañino sea identificado y abordado adecuadamente.
Construyendo el Conjunto de Datos de Señales Silenciosas
El conjunto de datos de Señales Silenciosas se construye a partir de fuentes de datos públicas, principalmente Reddit y registros del Congreso de EE.UU. Al reunir una amplia gama de ejemplos, el conjunto proporciona un recurso rico para estudiar la evolución y prevalencia de los silbidos. Esta colección también incluye información contextual clave para cada entrada, permitiendo un análisis más exhaustivo de cómo operan estas frases en el discurso.
Proceso de Recolección de Datos
Para crear el conjunto de datos, se recogieron miles de comentarios y transcripciones de redes sociales y archivos gubernamentales. El equipo de investigación buscó términos específicos que se sabe que se utilizan como silbidos. Cada instancia fue cuidadosamente anotada con detalles adicionales, como el contexto en el que se usó el término, para asegurar que los investigadores pudieran interpretar con precisión los significados.
Experimentando con LLMs
Una vez compilado el conjunto de datos, se pusieron a prueba varios LLMs para medir su efectividad en la detección y explicación de silbidos. Esto implicó pedir a los modelos que analizaran oraciones e identificaran si contenían silbidos. Los modelos fueron evaluados en función de su capacidad para identificar y definir correctamente las frases que encontraron.
Rendimiento del Modelo
Los resultados de probar diferentes modelos mostraron grados variados de éxito. Algunos modelos, como GPT-4, se desempeñaron bien en la identificación de silbidos, mientras que otros tuvieron dificultades. La investigación destacó que, aunque los LLMs podrían ser útiles para ciertas tareas, aún no son completamente fiables y requieren un desarrollo adicional para mejorar su precisión en la detección de lenguaje codificado sutil.
Entendiendo la Evolución de los Silbidos
A medida que el lenguaje evoluciona continuamente, los significados de los silbidos también pueden cambiar. Pueden surgir nuevas frases que sirvan a los mismos propósitos discriminatorios, mientras que términos más antiguos pueden perder su potencia o ser redefinidos. Esta adaptabilidad hace que estudiar los silbidos sea un proceso dinámico, ya que los investigadores deben mantenerse actualizados sobre las tendencias actuales en el uso del lenguaje para identificar y analizar eficazmente nuevas formas de discurso codificado.
Intención en los Silbidos
El Papel de laOtro aspecto esencial de esta investigación es la noción de intención. Cuando se usa un término, puede llevar un significado dañino, pero la intención del hablante puede variar. Algunas personas pueden usar ciertas frases sin ser conscientes de sus significados más profundos, mientras que otras pueden elegir intencionalmente silbidos para transmitir discriminación. Distinguir entre el uso intencional y no intencional es importante para analizar con precisión el impacto y las implicaciones de estas frases.
Utilizando el Conjunto de Datos
El conjunto de datos de Señales Silenciosas sirve como una herramienta valiosa para futuros estudios sobre silbidos y sus implicaciones. Los investigadores pueden usarlo para rastrear cambios en el lenguaje, analizar el impacto de eventos políticos y sociales en el discurso y estudiar la efectividad de los actuales sistemas de detección de discursos de odio.
Importancia de la Investigación
Los esfuerzos por categorizar y entender los silbidos representan un paso significativo hacia adelante en la lucha contra el discurso de odio y la discriminación. Al emplear tecnologías avanzadas como los LLMs y construir conjuntos de datos completos, los investigadores pueden discernir mejor el lenguaje sutil pero dañino que a menudo pasa desapercibido. Esta investigación tiene potencial para mejorar los sistemas de moderación del lenguaje e informar el discurso público.
El Futuro de la Investigación sobre Silbidos
A medida que la sociedad continúa enfrentándose a problemas de odio, discriminación y manipulación política, el estudio de los silbidos seguirá siendo crucial. La investigación futura puede expandir los métodos para detectar lenguaje codificado, refinar conjuntos de datos para incluir frases emergentes y explorar las implicaciones socioculturales del uso del lenguaje a lo largo del tiempo.
Conclusión
La investigación sobre los silbidos resalta la importancia de la claridad y la intención en el lenguaje. Aunque el conjunto de datos de Señales Silenciosas ofrece una base sólida para estudiar estos mensajes encubiertos, se necesitarán esfuerzos continuos para mantener el ritmo con la naturaleza en evolución de la comunicación. Al aprovechar la tecnología moderna y métodos analíticos rigurosos, podemos trabajar hacia una comprensión más profunda de los significados ocultos en nuestro lenguaje y su impacto en la sociedad.
Título: Silent Signals, Loud Impact: LLMs for Word-Sense Disambiguation of Coded Dog Whistles
Resumen: A dog whistle is a form of coded communication that carries a secondary meaning to specific audiences and is often weaponized for racial and socioeconomic discrimination. Dog whistling historically originated from United States politics, but in recent years has taken root in social media as a means of evading hate speech detection systems and maintaining plausible deniability. In this paper, we present an approach for word-sense disambiguation of dog whistles from standard speech using Large Language Models (LLMs), and leverage this technique to create a dataset of 16,550 high-confidence coded examples of dog whistles used in formal and informal communication. Silent Signals is the largest dataset of disambiguated dog whistle usage, created for applications in hate speech detection, neology, and political science. The dataset can be found at https://huggingface.co/datasets/SALT-NLP/silent_signals.
Autores: Julia Kruk, Michela Marchini, Rijul Magu, Caleb Ziems, David Muchlinski, Diyi Yang
Última actualización: 2024-06-18 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2406.06840
Fuente PDF: https://arxiv.org/pdf/2406.06840
Licencia: https://creativecommons.org/licenses/by-sa/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.