Analizzando le tendenze sulla salute nei social media
Uno sguardo a come i dati dei social media influenzano le intuizioni sulla salute pubblica.
― 6 leggere min
Indice
Negli ultimi anni, i social media sono diventati una fonte importante di informazioni sulla salute. La gente condivide le proprie esperienze, pensieri e sentimenti su questioni di salute, specialmente durante eventi importanti come la pandemia di Covid-19. Questo genera una grande quantità di testo che può essere analizzata per ottenere informazioni sulla salute pubblica. Un modo per analizzare questi dati è attraverso competizioni e workshop che si concentrano sul Natural Language Processing (NLP), che aiuta a capire e categorizzare i dati testuali.
L'importanza di analizzare i dati dei social media
Durante la pandemia di Covid-19, molte persone si sono rivolte a piattaforme come Twitter e Reddit per parlare della propria salute e delle esperienze vissute. Questa discussione online fornisce una fonte ricca di informazioni. Aiuta ricercatori e organizzazioni sanitarie a capire come si sentono le persone, cosa stanno vivendo e come la pandemia li sta influenzando emotivamente e fisicamente.
Per dare un senso a questi dati, sono stati organizzati workshop in cui i team possono competere per sviluppare modelli che possano analizzare e categorizzare con precisione questo tipo di informazioni. Queste competizioni stimolano l'innovazione e tecniche avanzate nel campo del NLP.
Il workshop SMM4H
Il workshop Social Media Mining for Health Applications (SMM4H) si concentra sull'estrazione e la standardizzazione di informazioni sulla salute dai social media. Nelle sessioni recenti, i team hanno partecipato a compiti che richiedevano di analizzare tweet relativi al Covid-19. Questi compiti includevano la distinzione tra tweet che riportavano una diagnosi di Covid-19 e quelli che discutevano terapie per condizioni di salute.
Panoramica dei compiti
Nell'ultima sessione del workshop, ci sono stati diversi compiti, ma il nostro team si è concentrato su due in particolare.
Compito 1: Classificazione binaria dei tweet
Il primo compito prevedeva di identificare i tweet che riportavano o una diagnosi di Covid-19 auto-riferita o una diagnosi clinica. L'obiettivo era creare un modello che potesse fare questa distinzione in modo efficace.
Classificazione multi-classe dei sentimenti sulle terapie
Compito 2:Il secondo compito mirava a classificare i sentimenti espressi nei tweet riguardanti terapie per condizioni di salute. I tweet sono stati categorizzati in tre gruppi: positivi, neutri e negativi riguardo alla terapia discussa.
Metodologia
Per costruire i nostri modelli, abbiamo seguito un processo strutturato che prevedeva diversi passaggi.
Elaborazione dei dati
Prima di analizzare i dati, abbiamo dovuto pulirli e prepararli per l'elaborazione. Questo ha comportato la rimozione di parole e caratteri non necessari. Alcuni dei passaggi includevano:
- Rimuovere parole comuni che non hanno molto significato (stopwords).
- Eliminare caratteri speciali e non standard.
- Ripulire spazi e link nel testo.
Questi passaggi hanno garantito che i dati fossero in un formato adatto per l'analisi.
Ingegneria delle caratteristiche
Dopo aver elaborato i dati, siamo passati all'ingegneria delle caratteristiche. Questo passaggio si è concentrato sulla trasformazione dei dati puliti in un formato con cui i nostri modelli potessero lavorare. Abbiamo utilizzato una tecnica chiamata Term Frequency-Inverse Document Frequency (TF-IDF) nei nostri modelli. Questo metodo aiuta a convertire i dati testuali in valori numerici che rappresentano quanto sia importante una parola rispetto a un tweet.
Modelli di Machine Learning
Abbiamo poi applicato diversi classificatori di machine learning ai nostri dati elaborati. Ogni modello ha il proprio metodo di apprendimento dai dati.
Support Vector Machine (SVM)
L'SVM è un modello potente per compiti di classificazione. Cerca di trovare il modo migliore per separare i punti dati in diverse classi. Fa questo creando un confine che massimizza la distanza tra i punti più vicini delle diverse classi.
Passive Aggressive (PA)
Il modello PA è efficace per la classificazione binaria. Guarda i dati di addestramento e aggiorna i propri parametri in base a se le previsioni sono corrette o meno. Questo modello può essere piuttosto aggressivo nei suoi aggiustamenti per migliorare l'accuratezza.
Multi-Layer Perceptron (MLP)
Il MLP è un tipo di rete neurale che è brava a riconoscere schemi. Ha strati di nodi interconnessi che elaborano i dati in modi complessi.
Random Forest (RF)
Il RF è una forma avanzata di alberi decisionali. Combina più alberi per fare una previsione finale basata sul voto di maggioranza.
Valutazione del modello
Dopo aver addestrato i modelli, abbiamo valutato le loro prestazioni utilizzando un set di dati di test fornito dagli organizzatori del workshop. Questo set di test conteneva migliaia di tweet che i nostri modelli non avevano mai visto prima. Abbiamo misurato quanto bene ogni modello ha performato utilizzando tre metriche chiave: precisione, richiamo e F1-score.
Risultati per il Compito 1
Per il Compito 1, quando abbiamo testato i modelli sui dati di test ciechi, abbiamo scoperto che il classificatore PA ha performato meglio, raggiungendo un F1-score del 63,7%. Questo significa che era particolarmente bravo a identificare i tweet che riportavano diagnosi di Covid-19.
Risultati per il Compito 2
Nel Compito 2, il classificatore SVM ha superato gli altri, raggiungendo un F1-score del 71,4%. Questo ha dimostrato che ha classificato efficacemente il sentimento dei tweet che discutevano terapie.
Discussione
Attraverso questo lavoro, abbiamo confrontato diversi modelli di machine learning nelle condizioni difficili di analisi dei tweet legati alla salute. I risultati evidenziano come tecniche diverse possano produrre risultati variabili a seconda del compito specifico.
Per il Compito 1, il modello PA è stato più preciso dell'SVM. Tuttavia, per il Compito 2, l'SVM ha preso il sopravvento. Questi risultati suggeriscono che non esiste una soluzione unica quando si tratta di analizzare i dati. Ogni modello ha punti di forza e debolezze a seconda della natura del contenuto esaminato.
Direzioni future
Guardando al futuro, ci sono molti modi per migliorare l'analisi dei dati dei social media. Ad esempio, utilizzare tecniche di deep learning che coinvolgono word embeddings potrebbe fornire ulteriori informazioni e migliorare le performance. I modelli basati su transformer potrebbero anche migliorare la capacità di capire il contesto e il sentimento nei dati testuali complessi.
Inoltre, man mano che i social media continuano a evolversi, stare al passo con le nuove tendenze e con il modo in cui gli utenti comunicano sarà cruciale per interpretare accuratamente le discussioni legate alla salute.
Conclusione
L'analisi dei dati dei social media offre informazioni preziose sulla salute pubblica. Partecipando a workshop come SMM4H, i ricercatori possono sviluppare e affinare modelli che comprendono meglio questi dati. Con continui progressi nella tecnologia e nei metodi, il futuro sembra promettente per il campo delle applicazioni sanitarie che utilizzano il mining dei social media. Le informazioni ricavate da tali analisi possono alla fine portare a migliori risposte e strategie di salute pubblica.
Titolo: BFCI at #SMM4H 2023: Integration of Machine Learning and TF-IDF for Covid-19 Tweets Analysis
Estratto: Extracting information from texts generated by users of social media platforms becomes a crucial task. In this paper, we describe the systems submitted to the SMM4H shared tasks 1 and 2. The aims of these two tasks are binary and multi-class classification of English tweets. We developed a machine learning-based model integrated with TF-IDF as a feature extraction approach. Four classification algorithms have been implemented namely, support vector machines, passive-aggressive classifier, multi-layer perceptron and random forest. For task 1, the passive-aggressive classifier reported f1-score of 63.7%. For task 2, multi-layer perceptron reported f1-score of 71.4%.
Autori: Hamada Nayel, N. Ashraf, M. Aldawsari
Ultimo aggiornamento: 2023-11-20 00:00:00
Lingua: English
URL di origine: https://www.medrxiv.org/content/10.1101/2023.11.18.23297862
Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.11.18.23297862.full.pdf
Licenza: https://creativecommons.org/licenses/by-nc/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia medrxiv per l'utilizzo della sua interoperabilità ad accesso aperto.