Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Física# Redes sociales y de información# Física y sociedad

Prediciendo la Popularidad de la Información en Redes Sociales

Un nuevo método predice cómo se difunde la información en WeChat y Weibo.

― 11 minilectura


Nuevo Método paraNuevo Método paraPredicciones en RedesSocialespopularidad de la información.Un enfoque sencillo para prever la
Tabla de contenidos

La capacidad de prever cuán popular se volverá la información en las redes sociales es importante para muchas cosas, como tomar decisiones y difundir mensajes de marketing. Los métodos existentes a menudo necesitan características complicadas que son difíciles de obtener de diferentes lenguajes y plataformas, o dependen de detalles sobre la estructura de la red que pueden ser complicados de acceder.

Nos enfocamos en nuestra investigación en dos grandes redes sociales, WeChat y Weibo. A través de nuestra investigación, encontramos que la forma en que se difunde la información se puede describir mejor como un ciclo de activación y decaimiento. Basándonos en este entendimiento, creamos un nuevo método llamado el algoritmo Activar-Decaer (AD). Este método puede predecir cuán popular será el contenido a largo plazo, solo con mirar cuántas veces se reenvía en las etapas iniciales. Probamos nuestro enfoque con Datos de WeChat y Weibo y encontramos que refleja con precisión cómo se difunde el contenido, permitiendo predicciones sobre el compartir mensajes a lo largo del tiempo.

Nuestra investigación encontró que hay una fuerte conexión entre la cantidad máxima de reenvíos y la cantidad total de compartidos. Saber cuándo ocurre el pico de compartir puede ayudar mucho a mejorar nuestras predicciones. Nuestro método demostró ser más preciso que otros métodos existentes para predecir la Popularidad de la información.

Con el auge de las tecnologías de comunicación y los servicios móviles, las redes sociales permiten a miles de millones de personas crear y compartir información libremente en todo el mundo. Leer y reenviar contenido en línea se ha convertido en una forma clave para que la gente se comunique y exprese sus opiniones. Por lo tanto, cómo se difunde la información es esencial en nuestras actividades diarias y tiene un valor económico y práctico significativo.

La capacidad de reunir, limpiar y analizar grandes cantidades de datos ha cambiado el campo del análisis de redes sociales. Hace que sea más fácil para los investigadores llevar a cabo estudios a gran escala. El estudio de cómo se difunde la información en las redes sociales se ha convertido en un tema central en áreas como la sociología, la física y la informática, entre otras.

En los últimos años, predecir la popularidad de la información en las plataformas sociales ha atraído un interés considerable tanto de investigadores académicos como de la industria. La popularidad generalmente se refiere a cuántas personas ven, recogen, reenvían o comparten información en las redes, dependiendo del contexto de cada estudio.

Revisión de la Investigación sobre Predicción de Popularidad

Un estudio temprano de Szabo y Huberman analizó la popularidad del contenido en Digg y YouTube. Encontraron una relación fuerte entre la popularidad temprana y la posterior del contenido. Basándose en esto, crearon un modelo logarítmico-lineal que puede predecir la popularidad.

Construyendo sobre ideas similares, se desarrolló otro modelo llamado Regresión Lineal con Grado (LR-D) que es más flexible al considerar la influencia acumulativa de los usuarios que comparten contenido. Investigaciones adicionales de Bao et al. mostraron una conexión entre la popularidad y la estructura de la red, lo que significa que predecir la popularidad final podría lograrse usando regresión lineal basada en características de la red.

Desde otra perspectiva, algunos investigadores notaron que los usuarios que comparten mensajes pueden incentivar a otros a hacer lo mismo, y exploraron esta idea en modelos como el Proceso de Refuerzo Exponencial y Mapeo del Tiempo (PETM), que combina elementos de la teoría del refuerzo con un relajamiento de ley de potencias.

La investigación sobre procesos puntuales llevó al desarrollo de un modelo llamado Modelo Auto-Emocionante de Cascadas de Información (SEIMIC). Este modelo puede prever futuros compartidos en plataformas como Twitter, usando solo las marcas de tiempo de los reenvíos y el número de seguidores que tiene un usuario.

Se ha observado que unos pocos usuarios clave tienen un gran impacto en cómo se difunde la información en línea. Reconociendo esto, algunos investigadores tomaron esto en cuenta en sus modelos predictivos. A pesar de estos avances, muchos estudios aún dependen de características complejas que son difíciles de extraer o estructuras de red que pueden ser complicadas de obtener.

Nuestro artículo examina datos empíricos para demostrar que el proceso de difusión de información se puede capturar como un proceso dinámico de activación-decaimiento. Luego propusimos nuestro algoritmo AD que solo necesita las cantidades iniciales de reenvíos para predecir la popularidad a largo plazo, sin depender de estructuras de red intrincadas u otras características del contenido.

Nuestros resultados indicaron que la cantidad de reenvíos en WeChat durante las primeras dos horas podría predecir la popularidad durante siete días con alta precisión. También encontramos una relación cercana entre la cantidad máxima de reenvíos y la cantidad total compartida. Comprender cuándo ocurre el número máximo de reenvíos puede mejorar significativamente la precisión de las predicciones.

Datos y Métodos

La investigación comenzó analizando dos redes sociales notables: WeChat y Weibo. Examinamos cómo se difunde la información en estas plataformas y construimos un proceso dinámico para describir este aumento y caída a lo largo del tiempo.

Conjuntos de Datos

El conjunto de datos de WeChat incluye más de 90,000 artículos de noticias que cubren varios temas como política, economía, derecho, tecnología, cultura, deportes y problemas sociales. Los registros de reenvíos se recopilaron de usuarios Compartiendo contenido entre sí desde el 2 de junio hasta el 8 de junio de 2016, a través de un proyecto con el equipo de WeChat de Tencent.

Para Weibo, un conjunto de datos de una competencia incluía alrededor de 30,000 microblogs y más de 17 millones de registros de reenvíos. Weibo se ve a menudo como el equivalente chino de Twitter. Los mensajes son párrafos cortos de no más de 140 caracteres chinos, algunos de los cuales incluyen imágenes.

Al estandarizar las marcas de tiempo a través de los conjuntos de datos, podemos analizar mejor las tendencias generales de reenvío de mensajes. Las observaciones iniciales mostraron que el número promedio de reenvíos tanto para WeChat como para Weibo variaba estadísticamente a lo largo del tiempo.

En WeChat, toma menos de 30 minutos para que un mensaje alcance el reenvío máximo desde el momento en que se genera. En contraste, para Weibo, esto sucede en alrededor de 200 segundos. Después de alcanzar el pico, los números de reenvíos tienden a disminuir gradualmente. Notamos que este proceso completo se puede dividir en dos etapas: la etapa activa, que conduce al pico, y la etapa de decaimiento, que sigue.

En nuestro estudio, el objetivo era predecir el número total de reenvíos para un mensaje dado. Basándonos en nuestro análisis, elaboramos un modelo matemático para capturar cómo cambia la cantidad de reenvíos a lo largo del tiempo. Nuestro modelo nos permite prever cuántas veces se compartirá un mensaje según su historial de compartidos, lo que ayuda a identificar qué mensajes son propensos a ser compartidos ampliamente.

Después de limpiar los datos, dividimos las muestras en conjuntos de entrenamiento y prueba, con el 75% asignado para entrenamiento y el 25% para pruebas basado en los tiempos de lanzamiento reales.

Modelo Activación-Decaimiento

El modelo que desarrollamos se basa en principios similares a la ecuación de Hill y su variante, la ecuación BiHill, que se utilizan ampliamente en bioquímica. Estas ecuaciones ayudan a analizar relaciones complejas y se pueden aplicar para describir el proceso no lineal de cómo se difunde la información.

La función de Hill puede mostrar cómo opera el proceso de reenvío y ayuda a definir la activación y la inhibición en el compartir información. A medida que la información se difunde, generalmente hay dos fuerzas opuestas en juego: activación, que fomenta el compartir, y decaimiento, que lo frena.

En nuestro modelo, asumimos que el proceso de compartir información es un equilibrio entre estas dos fuerzas. Antes de alcanzar el pico, el factor de activación lidera el proceso. Después del pico, el factor de decaimiento toma el control, por eso nuestro modelo ilustra esta progresión a lo largo del tiempo.

Prediciendo la Popularidad con el Algoritmo AD

Para hacer predicciones usando nuestro modelo, asumimos que tenemos datos sobre varios mensajes. El objetivo es predecir cuántas veces se compartirá la información después de un cierto período.

Los pasos para nuestro algoritmo AD incluyen:

  1. Recoger parámetros del modelo de conjuntos de datos históricos.
  2. Identificar los mejores parámetros a través de conjuntos de entrenamiento y pruebas.
  3. Usar estos parámetros en el algoritmo AD para predecir los futuros compartidos del mensaje.

Métricas de Evaluación

Usamos tres métricas para evaluar el desempeño de nuestros algoritmos de predicción: Error Porcentual Absoluto (APE), Error Porcentual Absoluto Medio (MAPE) y Coeficiente de Desigualdad de Theil (TIC).

APE mide el error relativo entre los valores predichos y reales. MAPE da una medida de error promedio a través del sistema, donde valores más bajos indican mejor precisión. TIC evalúa la capacidad de predicción general, con valores más bajos que significan mejor rendimiento del modelo.

Resultados de Nuestras Predicciones

La efectividad de nuestro modelo de predicción se destaca a través de experimentos en conjuntos de datos de WeChat y Weibo. Medimos qué tan bien se desempeña el algoritmo AD en comparación con un método base, que utiliza técnicas tradicionales para predecir la popularidad.

Encontramos que el algoritmo AD generalmente tuvo un mejor desempeño en diversas condiciones, especialmente en términos de métricas de precisión como MAPE y TIC. Las predicciones hechas usando nuestro enfoque mostraron consistentemente una precisión mejorada en comparación con métodos base.

A medida que examinamos diferentes períodos de tiempo para compartir mensajes conocidos, la precisión de nuestro algoritmo mejoró, particularmente al considerar datos a lo largo de un período de tiempo más largo. Por ejemplo, cuando miramos los datos de WeChat, la precisión óptima de predicción ocurrió con tiempos de compartición conocidos alrededor de 5 minutos. Para Weibo, esto fue alrededor de 2 minutos.

Entendiendo los Picos en el Compartir

Un factor crítico para nuestro algoritmo AD es determinar la cantidad máxima de compartidos en la línea de tiempo de publicación. Durante nuestra investigación, encontramos que identificar este pico con precisión podría mejorar significativamente los resultados de predicción.

Nuestras investigaciones revelaron que si podemos identificar cuándo ocurre el máximo compartido dentro de un período de observación inicial, la precisión de la predicción mejora. Por ejemplo, cuando usamos el número máximo registrado en las primeras 120 minutos, notamos que esta medición influye en el rendimiento de la predicción.

En conclusión, los hallazgos de nuestro estudio muestran que nuestro algoritmo AD proporciona un método sencillo y efectivo para predecir la popularidad de la información en plataformas sociales. Al depender principalmente de las cantidades iniciales de reenvíos, evitamos las complejidades de las estructuras de red y características del contenido.

El desafío sigue siendo identificar con precisión las cantidades máximas de compartidos, lo cual buscamos abordar en investigaciones futuras. En resumen, el algoritmo AD ofrece una solución práctica para entender cómo la información se vuelve popular en línea, revelando las dinámicas intrincadas que alimentan las interacciones en redes sociales.

Fuente original

Título: Predicting the popularity of information on social platforms without underlying network structure

Resumen: The ability to predict the size of information cascades in online social networks is crucial for various applications, including decision-making and viral marketing. However, traditional methods either rely on complicated time-varying features that are challenging to extract from multilingual and cross-platform content, or on network structures and properties that are often difficult to obtain. To address these issues, we conducted empirical research using data from two well-known social networking platforms, WeChat and Weibo. Our findings suggest that the information-cascading process is best described as an activate-decay dynamical process. Building on these insights, we developed an Activate-Decay (AD)-based algorithm that can accurately predict the long-term popularity of online content based solely on its early repost amount. We tested our algorithm using data from WeChat and Weibo, demonstrating that we could fit the evolution trend of content propagation and predict the longer-term dynamics of message forwarding from earlier data. We also discovered a close correlation between the peak forwarding amount of information and the total amount of dissemination. Finding the peak of the amount of information dissemination can significantly improve the prediction accuracy of our model. Our method also outperformed existing baseline methods for predicting the popularity of information.

Autores: Wu Leilei, Yi Lingling, Ren Xiao-Long, {Lü} Linyuan

Última actualización: 2023-06-21 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2306.12159

Fuente PDF: https://arxiv.org/pdf/2306.12159

Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares