Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje# Inteligencia artificial# Aprendizaje automático

Identificando la propaganda en artículos de noticias

Este artículo examina cómo reconocer la propaganda usando métodos de aprendizaje humano y de máquina.

― 5 minilectura


Detectando Propaganda enDetectando Propaganda enlas Noticiascontenido de noticias engañoso.Aprende métodos para identificar
Tabla de contenidos

La Propaganda es una forma de comunicación que busca influir en las creencias y acciones de la gente. A menudo utiliza estilos de lenguaje específicos que se pueden reconocer y analizar. Este artículo explora cómo identificar estas características estilísticas en la propaganda, centrándose en artículos de noticias de fuentes conocidas por difundir información falsa.

El Conjunto de Datos

Se creó un conjunto de datos a partir de varias fuentes conocidas por promover propaganda, especialmente durante el conflicto en curso relacionado con Ucrania. Este conjunto incluye artículos de noticias en múltiples idiomas de sitios web identificados por expertos. El conjunto es diverso, abarcando contenido que cubre una variedad de temas y utiliza diferentes idiomas.

Para hacer una comparación justa, también se incluyeron artículos de periódicos franceses convencionales en el conjunto de datos. Esta mezcla permitió entender mejor cómo la propaganda difiere de las noticias regulares.

Anotación Humana

Se llevó a cabo un experimento en el que las personas anotaron los artículos. Tenían que etiquetar los artículos según criterios específicos, como si el contenido era manipulador o exagerado. Se crearon un total de 11 etiquetas diferentes para esta tarea. Se pidió a los anotadores que identificaran si un artículo contenía elementos como "Fake News," "Exageración" o "Título Deshonesto." Este proceso implicó el juicio humano para determinar la presencia de estas características en cada artículo.

Los resultados mostraron que la gente era generalmente buena para identificar diferencias entre artículos de propaganda y noticias regulares. Podían reconocer qué artículos pertenecían a qué categoría aun cuando ambos tipos discutían temas similares.

Análisis de las Anotaciones Humanas

Una vez que los artículos fueron anotados, los investigadores examinaron los resultados para ver qué tan consistentes eran los anotadores. Midieron con qué frecuencia los anotadores estaban de acuerdo entre sí al etiquetar los artículos. Los hallazgos indicaron un nivel de acuerdo moderado a alto entre los anotadores, mostrando que podían distinguir de manera confiable entre los dos tipos de prensa.

Ciertas etiquetas se usaron con más frecuencia en un tipo de artículo que en el otro. Por ejemplo, etiquetas relacionadas con la Manipulación, como "Exageración," fueron mucho más comunes en artículos de propaganda en comparación con las noticias regulares.

Examinando Características Textuales

Después del proceso de anotación, el siguiente paso fue analizar el lenguaje utilizado en los artículos. Se examinaron características específicas del texto, como la Vaguedad, la Subjetividad y los detalles, para entender qué hacía distintos a los artículos de propaganda. Por ejemplo, los artículos de propaganda a menudo utilizaban expresiones vagas con más frecuencia que los artículos regulares.

Los investigadores utilizaron herramientas especiales para calcular puntajes relacionados con estas características en los artículos. El análisis mostró que los puntajes de vaguedad más altos tendían a correlacionarse con las etiquetas de propaganda.

Aprendizaje Automático para Clasificación

Para mejorar la detección de propaganda, se entrenaron modelos de aprendizaje automático. Estos modelos estaban diseñados para clasificar artículos como propaganda o noticias regulares según las características textuales identificadas anteriormente. Se usaron diferentes tipos de modelos, algunos centrados en la estructura de la oración mientras que otros consideraban las características generales del texto.

Los modelos se entrenaron en un gran conjunto de artículos. Se probaron para ver qué tan efectivamente podían identificar propaganda en datos no vistos. Los resultados indicaron que los modelos se desempeñaron bien en este tema específico, logrando una alta precisión en distinguir entre artículos de propaganda y regulares.

Características Clave de la Propaganda

Los modelos de aprendizaje automático identificaron ciertos marcadores que son comunes en artículos de propaganda. Al analizar las contribuciones de diferentes partes del texto, los investigadores pudieron señalar palabras y frases específicas que a menudo señalaban propaganda. Por ejemplo, los artículos llenos de exageraciones o lenguaje subjetivo eran más propensos a ser clasificados como propaganda.

Además, se encontró que el uso de puntuación difería significativamente entre los dos tipos de artículos. Los artículos de propaganda tenían menos comas y comillas, pero más puntos en comparación con los artículos de noticias regulares. Esta diferencia sintáctica proporcionó más información sobre cómo se estructura la propaganda.

Posibles Sesgos en el Aprendizaje Automático

Aunque los modelos de aprendizaje automático mostraron un alto rendimiento en la detección de propaganda, hay preocupaciones sobre los sesgos en el conjunto de datos que pueden afectar los resultados. Los modelos entrenados en temas específicos pueden no desempeñarse igualmente bien en otros temas. Dado que la calidad del conjunto de datos puede variar, esto presenta un desafío para garantizar que los modelos puedan generalizar bien a otras áreas.

Conclusión y Direcciones Futuras

La investigación demostró formas efectivas de identificar propaganda a través de anotaciones humanas y modelos de aprendizaje automático. Al analizar el lenguaje y estilo de los artículos, se descubrieron características distintas de la propaganda. Los hallazgos sugieren que el lenguaje propagandístico a menudo contiene exageración y vaguedad.

Los esfuerzos futuros deben centrarse en mejorar la explicabilidad de los modelos y su capacidad para detectar propaganda en otros contextos. También hay una necesidad de investigaciones continuas para analizar cómo se percibe la propaganda en diferentes idiomas y trasfondos culturales.

Este trabajo proporciona una base para futuras investigaciones en el complejo mundo de la detección de propaganda, lo cual es esencial para mantener un discurso público saludable.

Fuente original

Título: Exposing propaganda: an analysis of stylistic cues comparing human annotations and machine classification

Resumen: This paper investigates the language of propaganda and its stylistic features. It presents the PPN dataset, standing for Propagandist Pseudo-News, a multisource, multilingual, multimodal dataset composed of news articles extracted from websites identified as propaganda sources by expert agencies. A limited sample from this set was randomly mixed with papers from the regular French press, and their URL masked, to conduct an annotation-experiment by humans, using 11 distinct labels. The results show that human annotators were able to reliably discriminate between the two types of press across each of the labels. We propose different NLP techniques to identify the cues used by the annotators, and to compare them with machine classification. They include the analyzer VAGO to measure discourse vagueness and subjectivity, a TF-IDF to serve as a baseline, and four different classifiers: two RoBERTa-based models, CATS using syntax, and one XGBoost combining syntactic and semantic features.

Autores: Géraud Faye, Benjamin Icard, Morgane Casanova, Julien Chanson, François Maine, François Bancilhon, Guillaume Gadek, Guillaume Gravier, Paul Égré

Última actualización: 2024-02-26 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2402.03780

Fuente PDF: https://arxiv.org/pdf/2402.03780

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares