Identificando Peligros en Línea: Un Nuevo Enfoque
Analizando patrones de lenguaje para identificar contenido negativo en las redes sociales.
― 9 minilectura
Tabla de contenidos
- La Importancia de los Peligros en el Lenguaje
- Desarrollo del Modelo de Detección de Peligros
- Recolección de Datos y Anotación
- Entrenamiento del Modelo y Rendimiento
- Hallazgos Clave del Análisis en Redes Sociales
- Leyendas Urbanas y Su Conexión con los Peligros
- Implicaciones para la Comunicación en Línea
- Desafíos en la Detección de Peligros
- Direcciones Futuras para la Investigación
- Consideraciones Éticas
- Conclusión
- Fuente original
- Enlaces de referencia
Las comunidades de odio en línea están creciendo y cambiando rápido. Entender cómo se comunican estos grupos es muy importante, especialmente para detectar lenguaje dañino. Este artículo investiga cómo podemos identificar y medir contenido negativo en Publicaciones de redes sociales. Nos enfocamos en texto que hable sobre Peligros, un término que significa cualquier cosa que podría ser peligrosa o dañina, y en cómo se propaga información negativa en línea.
La Importancia de los Peligros en el Lenguaje
Los humanos han evolucionado para prestar más atención a la información negativa. Esto se llama sesgo de negatividad. Cuando la gente ve o escucha algo negativo, a menudo responde más fuertemente que si fuera algo positivo. Por ejemplo, si alguien escucha una historia sobre un evento peligroso, puede ser más propenso a compartirla que una historia sobre algo bueno. Esta tendencia es útil para la supervivencia porque ayuda a las personas a notar amenazas potenciales.
Estudios recientes han mostrado que la gente tiende a creer más fácilmente en información negativa que en positiva. Esta idea se conoce como credulidad sesgada negativamente. Significa que las personas están más inclinadas a confiar en declaraciones que advierten sobre peligros. Esto es especialmente cierto en contextos políticos, donde personas con diferentes creencias políticas pueden reaccionar de manera diferente a la información sobre peligros. Por ejemplo, los conservadores suelen prestar más atención a la información sobre peligros que los liberales.
En nuestra exploración, observamos cómo este lenguaje de peligros está presente en redes sociales y leyendas urbanas, enfocándonos particularmente en publicaciones de Twitter, ahora llamado X. Analizar estas publicaciones nos ayuda a entender las tendencias en cómo la gente comunica sobre peligros, especialmente durante eventos significativos.
Desarrollo del Modelo de Detección de Peligros
Para analizar publicaciones sobre peligros, creamos un modelo que detecta lenguaje relacionado con peligros. Entrenamos este modelo usando una mezcla de publicaciones de redes sociales y leyendas urbanas. Las leyendas urbanas son historias que se creen ampliamente pero que a menudo son falsas, y frecuentemente contienen elementos de peligro o riesgo, lo que las hace ideales para nuestra investigación.
El modelo analiza las palabras usadas en las publicaciones y determina si describen un peligro. Al mirar tweets relacionados con eventos como la pandemia de COVID-19 y el conflicto Hamas-Israel de 2023, podemos ver cómo la gente reacciona a las crisis y el lenguaje que usan para expresar sus miedos o preocupaciones.
Recolección de Datos y Anotación
Recopilamos publicaciones de X basadas en palabras clave específicas relacionadas con peligros, como "peligro", "riesgo" o "amenaza". También conseguimos leyendas urbanas de sitios web que catalogan esas historias. Para las publicaciones de redes sociales, pedimos a trabajadores que las leyeran y etiquetaran, determinando si el texto describía un peligro.
Cada publicación fue examinada por múltiples anotadores para asegurar precisión, y se asignó una etiqueta final basada en la opinión mayoritaria. Este enfoque ayuda a crear un conjunto de datos confiable para entrenar nuestro modelo de detección de peligros.
Entrenamiento del Modelo y Rendimiento
Para nuestro modelo, usamos varias técnicas de aprendizaje automático para identificar peligros en el texto. Probamos diferentes algoritmos y encontramos que un modelo de máquina de soporte vectorial (SVM) tuvo el mejor rendimiento. Pudo clasificar peligros en publicaciones de redes sociales con mayor precisión que otros Modelos.
También comparamos el rendimiento de nuestro modelo con el de modelos de lenguaje populares, como GPT-3.5 y GPT-4, que son conocidos por entender y generar texto. Si bien estos modelos son fuertes en muchas áreas, nuestro modelo especializado demostró ser más efectivo para identificar peligros específicamente.
Hallazgos Clave del Análisis en Redes Sociales
Después de entrenar nuestro modelo, lo aplicamos a varios conjuntos de datos. Al hacerlo, encontramos tendencias interesantes en el lenguaje sobre peligros.
Variaciones en el Lenguaje de Peligros a lo Largo del Tiempo
Uno de los hallazgos clave fue que las menciones de peligros aumentaron durante eventos importantes. Por ejemplo, durante la pandemia de COVID-19 y el conflicto Hamas-Israel, el lenguaje sobre peligros se volvió más prominente. Esto sugiere que eventos específicos desencadenan una mayor conciencia y reacción ante peligros potenciales.
Diferencias Políticas al Discutir Peligros
También descubrimos diferencias notables en cómo diferentes grupos políticos discuten sobre peligros. Nuestro análisis mostró que los usuarios conservadores tendían a hablar sobre peligros más frecuentemente que los liberales. Esto se alinea con el sesgo de negatividad, sugiriendo que los conservadores estaban más atentos a las amenazas en sus publicaciones.
Además, las palabras usadas por cada grupo diferían, con los conservadores enmarcando ciertos temas, como protestas, como peligros, mientras que los liberales a menudo abordaban temas similares desde un ángulo diferente.
La Relación Entre Peligros y Emociones
Otro aspecto interesante de nuestros hallazgos es la conexión entre el lenguaje de peligros y los indicadores emocionales. Notamos que las publicaciones que contenían lenguaje de peligros a menudo estaban correlacionadas con sentimientos de miedo y enojo. En contraste, emociones positivas, como la alegría, estaban menos asociadas con el lenguaje de peligros.
Esta correlación indica que cuando la gente habla sobre amenazas, a menudo lo hace con una carga emocional fuerte, lo que aumenta aún más la difusión de dicha información.
Leyendas Urbanas y Su Conexión con los Peligros
Además de analizar publicaciones de redes sociales, también vimos leyendas urbanas. Nuestros hallazgos revelaron que las leyendas urbanas frecuentemente contienen referencias a peligros. Estas historias a menudo amplifican miedos y preocupaciones, convirtiéndolas en un vehículo poderoso para difundir información negativa.
Curiosamente, encontramos que las leyendas urbanas con contenido sobre peligros eran más propensas a ser creídas y compartidas. Esto refleja la idea de que las historias que advierten sobre peligros resuenan más fuertemente con los individuos, llevándolos a confiar y propagar tales narrativas.
Implicaciones para la Comunicación en Línea
Entender cómo se difunde el lenguaje de peligros en línea es importante por varias razones. Primero, puede ayudar a individuos y organizaciones a desarrollar mejores estrategias para combatir la desinformación. Al identificar patrones en cómo se discuten los peligros, se vuelve más fácil contrarrestar narrativas dañinas.
Además, reconocer el peso emocional del lenguaje de peligros puede informar campañas de salud pública y estrategias de comunicación. Por ejemplo, durante una crisis de salud, enmarcar mensajes en torno a riesgos potenciales puede provocar reacciones más fuertes y llevar a la gente a tomar acción.
Desafíos en la Detección de Peligros
A pesar de los avances en la construcción de nuestro modelo de detección de peligros, todavía hay desafíos que superar. El análisis de texto sigue siendo subjetivo, y la presencia de jerga, sarcasmo y lenguaje dentro de grupos complica la interpretación precisa. Los esfuerzos para mejorar el rendimiento y la generalizabilidad del modelo están en curso.
Además, aunque nuestros resultados apoyan las teorías psicológicas existentes sobre el sesgo de negatividad, se necesita más investigación para confirmar estos hallazgos en diferentes conjuntos de datos y contextos.
Direcciones Futuras para la Investigación
A medida que nuestra comprensión de la comunicación sobre peligros evoluciona, hay muchas vías para la investigación futura. Un área potencial implica examinar cómo funciona el lenguaje de peligros en diferentes culturas y lenguajes. Dado que nuestro modelo es multilingüe, podemos expandir nuestro análisis para incluir publicaciones de todo el mundo.
Además, integrar técnicas de aprendizaje automático más avanzadas, incluidas versiones mejoradas de grandes modelos de lenguaje, podría generar resultados aún más precisos. Modelos ajustados a instrucciones podrían jugar un papel clave en refinar aún más las capacidades de detección de peligros.
Consideraciones Éticas
Cuando trabajamos con datos en línea, las consideraciones éticas son fundamentales. Tuvimos mucho cuidado de anonimizar los datos y eliminar cualquier información identificable antes del análisis. Es esencial equilibrar la búsqueda de conocimiento con el respeto por la privacidad individual y el impacto potencial de nuestros hallazgos.
Aunque el modelo muestra promesas, es crucial recordar que puede cometer errores. La interpretación de los resultados del modelo debe abordarse con precaución, especialmente al evaluar el comportamiento de usuarios individuales o patrones de compartición.
Conclusión
Este estudio arroja luz sobre la dinámica de la comunicación sobre peligros en espacios en línea. Al analizar publicaciones de redes sociales y leyendas urbanas, revelamos cómo se propaga la información negativa y cómo diversos grupos responden a amenazas percibidas. Los conocimientos adquiridos de esta investigación pueden desempeñar un papel crucial en el desarrollo de estrategias para abordar la desinformación y mejorar el discurso público en torno a temas importantes.
Entender el lenguaje de los peligros nos ayuda a ver el poderoso papel que juegan las emociones en la configuración de la comunicación. A medida que refinamos nuestros modelos y métodos de investigación, esperamos contribuir aún más a la comprensión de cómo opera la información en la era digital.
Al reconocer y analizar el lenguaje que rodea los peligros, podemos ayudar a crear una sociedad más informada y resistente. Los desafíos de la desinformación son significativos, pero con una investigación continua y colaboración, podemos trabajar hacia soluciones que empoderen a los usuarios y fomenten el compartir responsable de información.
Título: Trust and Terror: Hazards in Text Reveal Negatively Biased Credulity and Partisan Negativity Bias
Resumen: Socio-linguistic indicators of text, such as emotion or sentiment, are often extracted using neural networks in order to better understand features of social media. One indicator that is often overlooked, however, is the presence of hazards within text. Recent psychological research suggests that statements about hazards are more believable than statements about benefits (a property known as negatively biased credulity), and that political liberals and conservatives differ in how often they share hazards. Here, we develop a new model to detect information concerning hazards, trained on a new collection of annotated X posts, as well as urban legends annotated in previous work. We show that not only does this model perform well (outperforming, e.g., zero-shot human annotator proxies, such as GPT-4) but that the hazard information it extracts is not strongly correlated with other indicators, namely moral outrage, sentiment, emotions, and threat words. (That said, consonant with expectations, hazard information does correlate positively with such emotions as fear, and negatively with emotions like joy.) We then apply this model to three datasets: X posts about COVID-19, X posts about the 2023 Hamas-Israel war, and a new expanded collection of urban legends. From these data, we uncover words associated with hazards unique to each dataset as well as differences in this language between groups of users, such as conservatives and liberals, which informs what these groups perceive as hazards. We further show that information about hazards peaks in frequency after major hazard events, and therefore acts as an automated indicator of such events. Finally, we find that information about hazards is especially prevalent in urban legends, which is consistent with previous work that finds that reports of hazards are more likely to be both believed and transmitted.
Autores: Keith Burghardt, Daniel M. T. Fessler, Chyna Tang, Anne Pisor, Kristina Lerman
Última actualización: 2024-05-28 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2405.17838
Fuente PDF: https://arxiv.org/pdf/2405.17838
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://dictionary.cambridge.org/us/
- https://github.com/KeithBurghardt/Hazards
- https://anonymous.4open.science/r/Hazards-38F1
- https://pypi.org/project/demoji/
- https://huggingface.co/sentence-transformers/stsb-xlm-r-multilingual
- https://xgboost.readthedocs.io/
- https://www.wordfrequency.info/samples.asp
- https://covid19.who.int/WHO-COVID-19-global-data.csv
- https://xxxx
- https://t.co/xxxx