Analizando las tendencias de salud en redes sociales
Una mirada a cómo los datos de redes sociales afectan las perspectivas de salud pública.
― 6 minilectura
Tabla de contenidos
En los últimos años, las redes sociales se han vuelto una fuente importante de información sobre salud. La gente comparte sus experiencias, pensamientos y sentimientos sobre temas de salud, especialmente durante eventos importantes como la pandemia de Covid-19. Esto genera una gran cantidad de texto que se puede analizar para obtener información sobre la salud pública. Una forma de analizar estos datos es a través de competencias y talleres que se centran en el Procesamiento de Lenguaje Natural (NLP), que ayuda a entender y categorizar datos de texto.
La Importancia de Analizar Datos de Redes Sociales
Durante la pandemia de Covid-19, mucha gente recurrió a plataformas como Twitter y Reddit para hablar sobre su salud y experiencias. Esta discusión en línea proporciona una rica fuente de información. Ayuda a investigadores y organizaciones de salud a entender cómo se siente la gente, qué están experimentando y cómo la pandemia les afecta emocional y físicamente.
Para darle sentido a estos datos, se han organizado talleres donde equipos pueden competir para desarrollar modelos que puedan analizar y categorizar este tipo de información de manera efectiva. Estas competencias fomentan la innovación y técnicas avanzadas en el campo de NLP.
El Taller SMM4H
El taller Social Media Mining for Health Applications (SMM4H) se centra en extraer y estandarizar información relacionada con la salud de las redes sociales. En sesiones recientes, los equipos participaron en tareas que requerían analizar tuits relacionados con Covid-19. Estas tareas implicaban distinguir entre tuits que reportaban un diagnóstico de Covid-19 y aquellos que discutían terapias para condiciones de salud.
Resumen de Tareas
En la última sesión del taller, hubo varias tareas, pero nuestro equipo se concentró en dos específicas.
Tarea 1: Clasificación Binaria de Tuits
La primera tarea consistió en identificar tuits que se autoinformaban de un diagnóstico de Covid-19 o reportaban un diagnóstico clínico. El objetivo era crear un modelo que pudiera hacer esta distinción de manera efectiva.
Tarea 2: Clasificación Multiclase de Sentimientos sobre Terapias
La segunda tarea tenía como objetivo clasificar los sentimientos expresados en tuits sobre terapias para condiciones de salud. Los tuits se categorizaron en tres grupos: positivo, neutral y negativo con respecto a la terapia discutida.
Metodología
Para construir nuestros modelos, seguimos un proceso estructurado que implicó varios pasos.
Procesamiento de Datos
Antes de poder analizar los datos, necesitamos limpiarlos y prepararlos para el procesamiento. Esto implicó eliminar palabras y caracteres innecesarios. Algunos de los pasos incluidos fueron:
- Eliminar palabras comunes que no tienen mucho significado (stopwords).
- Eliminar caracteres especiales y no estándar.
- Limpiar espacios y enlaces en el texto.
Estos pasos aseguraron que los datos estuvieran en un formato adecuado para el análisis.
Ingeniería de características
Después de procesar los datos, pasamos a la ingeniería de características. Este paso se centró en transformar los datos limpios en un formato que nuestros modelos pudieran utilizar. Usamos una técnica llamada Frecuencia de Término-Frecuencia Inversa de Documento (TF-IDF) en nuestros modelos. Este método ayuda a convertir datos de texto en valores numéricos que representan cuán importante es una palabra en relación con un tuit.
Modelos de Aprendizaje Automático
Luego aplicamos diferentes clasificadores de aprendizaje automático a nuestros datos procesados. Cada modelo tiene su método de aprendizaje a partir de los datos.
Máquina de Vectores de Soporte (SVM)
SVM es un modelo fuerte para tareas de clasificación. Intenta encontrar la mejor manera de separar puntos de datos en diferentes clases. Lo hace creando un límite que maximiza la distancia entre los puntos más cercanos de diferentes clases.
Pasivo Agresivo (PA)
El modelo PA es eficaz para clasificación binaria. Observa los datos de entrenamiento y actualiza sus parámetros según si las predicciones son correctas o incorrectas. Este modelo puede ser bastante agresivo en sus ajustes para mejorar la precisión.
Perceptrón Multicapa (MLP)
El MLP es un tipo de red neuronal que es bueno reconociendo patrones. Tiene capas de nodos interconectados que procesan los datos de maneras complejas.
Bosque Aleatorio (RF)
RF es una forma avanzada de árboles de decisión. Combina múltiples árboles para hacer una predicción final basada en el voto mayoritario.
Evaluación del Modelo
Después de entrenar los modelos, evaluamos su rendimiento usando un conjunto de datos de prueba proporcionado por los organizadores del taller. Este conjunto de prueba contenía miles de tuits que nuestros modelos no habían visto antes. Medimos qué tan bien desempeñó cada modelo usando tres métricas clave: precisión, recall y F1-score.
Resultados para la Tarea 1
Para la Tarea 1, cuando probamos los modelos en los datos de prueba ciegos, encontramos que el clasificador PA fue el mejor, logrando un F1-score de 63.7%. Esto significa que fue particularmente bueno identificando tuits que reportaban diagnósticos de Covid-19.
Resultados para la Tarea 2
En la Tarea 2, el clasificador SVM superó a los demás, alcanzando un F1-score de 71.4%. Esto mostró que clasificaba eficazmente el sentimiento de los tuits que discutían terapias.
Discusión
A través de este trabajo, comparamos diferentes modelos de aprendizaje automático bajo las condiciones desafiantes de analizar tuits relacionados con la salud. Los hallazgos destacan cómo diferentes técnicas pueden dar resultados variados dependiendo de la tarea específica.
Para la Tarea 1, el modelo PA fue más preciso que SVM. Sin embargo, para la Tarea 2, SVM tomó la delantera. Estos resultados sugieren que no hay una solución única para analizar datos. Cada modelo tiene fortalezas y debilidades dependiendo de la naturaleza del contenido que se examina.
Direcciones Futuras
Mirando hacia el futuro, hay muchas formas de mejorar el análisis de datos de redes sociales. Por ejemplo, usar técnicas de aprendizaje profundo que involucren embeddings de palabras podría proporcionar información adicional y mejorar el rendimiento. Los modelos basados en transformers también podrían mejorar la capacidad para entender el contexto y el sentimiento en datos de texto complejos.
Además, a medida que las redes sociales continúan evolucionando, mantenerse al día con nuevas tendencias y la forma en que los usuarios se comunican será crucial para interpretar con precisión las discusiones relacionadas con la salud.
Conclusión
El análisis de datos de redes sociales ofrece información valiosa sobre la salud pública. Al participar en talleres como SMM4H, los investigadores pueden desarrollar y refinar modelos que entiendan mejor estos datos. Con los continuos avances en tecnología y métodos, el futuro parece prometedor para el campo de aplicaciones de salud usando la minería de redes sociales. Las ideas obtenidas de tal análisis pueden llevar, en última instancia, a respuestas y estrategias mejoradas para la salud pública.
Título: BFCI at #SMM4H 2023: Integration of Machine Learning and TF-IDF for Covid-19 Tweets Analysis
Resumen: Extracting information from texts generated by users of social media platforms becomes a crucial task. In this paper, we describe the systems submitted to the SMM4H shared tasks 1 and 2. The aims of these two tasks are binary and multi-class classification of English tweets. We developed a machine learning-based model integrated with TF-IDF as a feature extraction approach. Four classification algorithms have been implemented namely, support vector machines, passive-aggressive classifier, multi-layer perceptron and random forest. For task 1, the passive-aggressive classifier reported f1-score of 63.7%. For task 2, multi-layer perceptron reported f1-score of 71.4%.
Autores: Hamada Nayel, N. Ashraf, M. Aldawsari
Última actualización: 2023-11-20 00:00:00
Idioma: English
Fuente URL: https://www.medrxiv.org/content/10.1101/2023.11.18.23297862
Fuente PDF: https://www.medrxiv.org/content/10.1101/2023.11.18.23297862.full.pdf
Licencia: https://creativecommons.org/licenses/by-nc/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a medrxiv por el uso de su interoperabilidad de acceso abierto.