Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Redes sociales y de información

Identificando Comunidades de Noticias Sesgadas en Plataformas Sociales

Este estudio examina comunidades que comparten noticias de poca credibilidad en las redes sociales.

― 10 minilectura


Rastreando Comunidades deRastreando Comunidades deNoticias Sesgadascredibilidad.comparten noticias de bajaExaminando grupos de usuarios que
Tabla de contenidos

Los sitios de Noticias sociales como Reddit se han vuelto lugares importantes para que la gente comparta y discuta noticias. Sin embargo, un gran problema con estos sitios es la creación de grupos donde solo se ve noticias que coinciden con sus creencias. Este problema a menudo lleva a compartir noticias que no son creíbles o que están muy sesgadas. En este estudio, vemos cómo encontrar comunidades en sitios de noticias sociales que probablemente compartan noticias de baja Credibilidad o muy sesgadas.

Usamos un método que observa cómo los Usuarios interactúan con diferentes publicaciones de noticias y sus fuentes. Analizando las opiniones y actitudes de los usuarios hacia las noticias, podemos identificar grupos que son más propensos a creer y compartir información de baja calidad. Este método nos permite ver qué usuarios individuales están en riesgo de involucrarse con contenido de baja credibilidad basado en los grupos a los que pertenecen. Nuestros experimentos revelan que diferentes grupos de usuarios muestran diferencias significativas en su susceptibilidad a contenido de baja credibilidad y noticias políticamente sesgadas.

Los sitios de noticias sociales como Reddit y Digg se han convertido en plataformas principales para compartir y acceder a información. Estas plataformas proporcionan un espacio para que los usuarios expresen sus opiniones y discutan artículos de noticias. La mínima censura en estos sitios les ha permitido albergar una amplia gama de noticias de diversas fuentes. Muchas personas ahora dependen de plataformas como Reddit para sus fuentes de noticias.

Sin embargo, la naturaleza abierta de los sitios de noticias sociales también puede promover la difusión de noticias que carecen de credibilidad o están altamente sesgadas. Por ejemplo, en el subreddit r/politics, que es la mayor Comunidad de noticias políticas en Reddit, más de la mitad de las fuentes compartidas no son verificables. La difusión de estas noticias no verificadas a menudo es respaldada por algoritmos de recomendación que empujan contenido con el que los usuarios ya están de acuerdo, lo que puede reforzar aún más las creencias existentes. Esto crea un entorno donde algunos grupos están expuestos a información engañosa o sesgada, lo que puede llevar a problemas sociales como confusión y polarización creciente.

Vemos ejemplos de esto en los subreddits políticos en Reddit. La siguiente tabla resume la proporción de envíos no verificables en algunos de estos subreddits:

Subreddit% No verificables
r/Conservative72%
r/Libertarian16%
r/democrats77%
r/Republican72%
r/politics52%

Detectar y abordar la difusión de noticias de baja credibilidad o sesgadas es un área importante de investigación. Se han desarrollado muchos métodos avanzados utilizando aprendizaje profundo para identificar fuentes de noticias no creíbles. Además, hay una tendencia a utilizar modelos de lenguaje grandes para este propósito. Algunas investigaciones también se han centrado en encontrar usuarios que difundan tal contenido, lo que permite mejores estrategias de moderación.

Nuestro estudio ofrece una perspectiva diferente al centrarse en identificar comunidades que probablemente compartan y crean en noticias de baja credibilidad o altamente sesgadas. Definimos una comunidad como un grupo de usuarios que comparten opiniones similares y muestran reacciones similares a los artículos de noticias. Nuestro enfoque implica crear incrustaciones de usuarios basadas en los comentarios de los usuarios, lo que nos permite analizar la relación entre estas incrustaciones y la probabilidad de que los usuarios se involucren con información no creíble o sesgada.

Usamos modelos de incrustación de oraciones preentrenados, específicamente un método llamado sentence-BERT (SBERT), que ayuda a agrupar los comentarios de los usuarios y entender las opiniones de los usuarios. Sin embargo, no hay una guía clara sobre cómo derivar incrustaciones de opinión del contenido con el que los usuarios interactúan. El método tradicional implica promediar las incrustaciones de las publicaciones con las que interactúan los usuarios, pero esto puede ser inefectivo debido al número limitado de publicaciones por usuario.

Para superar estos desafíos, derivamos las incrustaciones de los usuarios de sus comentarios en lugar de las fuentes de noticias compartidas. Esto nos da un conjunto de datos más grande, lo que ayuda a reducir la variabilidad en la creación de representaciones del espacio latente. Al considerar los comentarios de los usuarios en relación con la publicación de noticias original, podemos crear incrustaciones más precisas que reflejen los intereses y opiniones de los usuarios.

Aplicamos nuestro método a datos del mundo real de Reddit, donde los usuarios participan en discusiones a través de publicaciones y comentarios en grupos de interés específicos llamados subreddits. Después de incrustar a los usuarios, identificamos comunidades y exploramos sus distribuciones de credibilidad y sesgo.

Determinar la credibilidad y los Sesgos de las fuentes de noticias a menudo puede verse afectado por el sesgo personal. Para nuestro estudio, usamos un conjunto de datos de una corporación de beneficio público que busca contrarrestar la desinformación. Este conjunto de datos incluye puntuaciones de credibilidad y sesgo para varias fuentes de noticias. Asignamos estas puntuaciones a las publicaciones de Reddit que hacen referencia a estas fuentes de noticias, categorizándolas como verificables o no verificables.

Trabajo Relacionado

Incrustación de Oraciones

La incrustación de oraciones es un método que permite el análisis automatizado del contenido de noticias sociales. Los modelos iniciales dependían de arquitecturas complejas, pero los enfoques modernos utilizan arquitecturas de transformadores preentrenados. Un avance clave en este área es la introducción de SBERT, que produce incrustaciones de manera eficiente al mejorar los modelos tradicionales. En este estudio, usamos la arquitectura SBERT para incrustar publicaciones de Reddit.

Detección de Postura

La detección de postura implica clasificar el sentimiento de un texto en relación con un objetivo dado. Usamos la detección de postura para entender los comentarios de los usuarios, clasificándolos en tres categorías: a favor, en contra y ninguno. Esta clasificación nos ayuda a entender cómo reaccionan los usuarios a diferentes publicaciones de noticias.

Para lograr esto, empleamos un modelo de lenguaje grande llamado LLaMa-2-7b para categorizar los comentarios de los usuarios. Al ajustar este modelo basado en un conjunto de datos de pares de comentario-respuesta de Reddit, podemos mejorar su rendimiento en la detección de postura.

Perfilado de Usuarios

El perfilado de usuarios asigna una representación virtual a cada usuario, incorporando varias características como intereses y comportamientos. Muchos estudios han analizado cómo el perfilado de usuarios puede detectar la difusión de noticias falsas. Nuestro enfoque se diferencia al centrarse en las comunidades de usuarios en lugar de los usuarios individuales y caracterizar cómo estas comunidades interactúan con noticias de fuentes de baja credibilidad o sesgadas.

Incrustación de Usuarios

Introducimos un método para incrustar usuarios en un espacio multidimensional. Este proceso comienza asignando incrustaciones de oraciones SBERT a las publicaciones de noticias, y luego asignamos incrustaciones a los comentarios basándonos en su postura hacia la publicación original. Al promediar las incrustaciones de todos los comentarios de cada usuario, creamos una representación única que refleja sus intereses y opiniones.

Al reunir las incrustaciones de las publicaciones, codificamos todo el conjunto de títulos de publicaciones utilizando un modelo SBERT preentrenado. Estas incrustaciones sirven como base contextual para estimar las incrustaciones de los comentarios.

Metodología de Detección de Postura

En el contexto de los comentarios, la detección de postura identifica la relación del texto de un hijo con un texto padre. Clasificamos las posturas en a favor, en contra y ninguna, y clasificamos estas posturas usando el modelo LLaMa-2-7b ajustado para entender cómo los usuarios responden a publicaciones de noticias particulares.

Proceso de Incrustación de Comentarios

Para incrustar comentarios con precisión, consideramos el contexto de la publicación original. Dado que los comentarios a menudo carecen de declaraciones completas por sí solos, nos basamos en la incrustación de la publicación para asignar una representación significativa a cada comentario. Nuestro método asegura que las incrustaciones de comentarios reflejen las opiniones de los usuarios de manera precisa.

Análisis de Credibilidad y Sesgo Político

Después de obtener las incrustaciones de los usuarios, analizamos los grupos de usuarios determinando sus puntuaciones promedio de credibilidad y sesgo político. Al promediar, podemos evaluar cómo los usuarios interactúan con fuentes de noticias creíbles o sesgadas.

Asignamos puntuaciones de credibilidad basadas en las fuentes de noticias referenciadas en las publicaciones de los usuarios, utilizando el conjunto de datos mencionado anteriormente como referencia. Los comentarios se asignan credibilidad según su relación con la publicación padre.

Susceptibilidades de la Comunidad

Una vez que tenemos las puntuaciones de credibilidad y sesgo de los usuarios, podemos analizar las características de los grupos de usuarios. En lugar de depender de la membresía en subreddits, empleamos agrupamiento para identificar grupos de interés distintos, lo que permite una comprensión más clara del comportamiento de los usuarios y posibles sesgos.

Recolección de Datos

Los datos utilizados para este estudio se recopilaron de Reddit, centrándonos en cuatro subreddits políticos principales: r/Conservative, r/Libertarian, r/Republican y r/democrats. Al filtrar datos irrelevantes o de baja calidad, aseguramos que el estudio se base en interacciones de usuario confiables.

Resultados

Nuestros hallazgos muestran que hay diferencias significativas entre las comunidades de usuarios en términos de su susceptibilidad a noticias de baja credibilidad. Por ejemplo, algunas comunidades son tres veces más propensas a involucrarse con tales noticias que otras. El análisis también indica una correlación entre los sesgos políticos de los usuarios y sus puntuaciones de credibilidad.

Al agrupar usuarios basados en sus incrustaciones latentes, diferenciamos entre comunidades que muestran varios niveles de susceptibilidad a noticias sesgadas o de baja credibilidad.

Discusión

Este estudio resalta la importancia de entender cómo las comunidades en línea interactúan con el contenido de noticias. Los hallazgos sugieren que el agrupamiento de usuarios puede revelar conocimientos significativos sobre cómo diferentes grupos pueden propagar información sesgada o no creíble. Algunas comunidades mostraron signos de cámaras de eco, donde los usuarios compartían predominantemente noticias que reforzaban sus creencias.

Limitaciones

Hay limitaciones al depender de un solo conjunto de datos para evaluar la credibilidad y el sesgo. Además, definir la credibilidad del usuario a través de sus interacciones puede pasar por alto comportamientos matizados relacionados con visiones y preferencias políticas. Estas consideraciones motivan la necesidad de futuros estudios para mejorar las evaluaciones de credibilidad del usuario.

Trabajo Futuro

La investigación futura debería centrarse en expandir el conjunto de datos y refinar los métodos para evaluar la credibilidad y los sesgos de los usuarios. Además, incorporar contenido de los comentarios de los usuarios y explorar métodos basados en grafos podría proporcionar conocimientos más ricos sobre cómo los usuarios interactúan con las fuentes de noticias.

Conclusión

Este estudio presenta un nuevo flujo de trabajo para analizar las interacciones de los usuarios en sitios de noticias sociales. Al derivar incrustaciones de los comentarios y publicaciones de los usuarios, demostramos que las comunidades de usuarios pueden caracterizarse por su susceptibilidad a fuentes de noticias de baja credibilidad y altamente sesgadas. Nuestra investigación enfatiza la necesidad de considerar la dinámica comunitaria en la lucha contra la difusión de desinformación y sesgos en las plataformas en línea.

Fuente original

Título: Susceptibility of Communities against Low-Credibility Content in Social News Websites

Resumen: Social news websites, such as Reddit, have evolved into prominent platforms for sharing and discussing news. A key issue on social news websites sites is the formation of echo chambers, which often lead to the spread of highly biased or uncredible news. We develop a method to identify communities within a social news website that are prone to uncredible or highly biased news. We employ a user embedding pipeline that detects user communities based on their stances towards posts and news sources. We then project each community onto a credibility-bias space and analyze the distributional characteristics of each projected community to identify those that have a high risk of adopting beliefs with low credibility or high bias. This approach also enables the prediction of individual users' susceptibility to low credibility content, based on their community affiliation. Our experiments show that latent space clusters effectively indicate the credibility and bias levels of their users, with significant differences observed across clusters -- a $34\%$ difference in the users' susceptibility to low-credibility content and a $8.3\%$ difference in the users' susceptibility to high political bias.

Autores: Yigit Ege Bayiz, Arash Amini, Radu Marculescu, Ufuk Topcu

Última actualización: 2024-03-15 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2403.10705

Fuente PDF: https://arxiv.org/pdf/2403.10705

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares