Tracciamento delle esperienze su Covid-19 attraverso i dati di Twitter
Un metodo per analizzare le esperienze personali del Covid-19 tramite tweet in tempo reale.
― 5 leggere min
Indice
L'obiettivo del compito è usare i dati di Twitter per tracciare esperienze personali con il COVID-19 in tempo reale e su larga scala. Vogliamo trovare automaticamente i tweet in cui gli utenti segnalano una diagnosi di Covid-19, come un test positivo, una diagnosi clinica o un ricovero. Questo è diverso dai tweet in cui gli utenti menzionano di aver avuto il Covid-19 ma senza fornire prove di una diagnosi.
Panoramica dei Dati
Il compito utilizza un dataset di tweet in inglese, che include note su se ogni tweet menziona una diagnosi di Covid-19. Il dataset è diviso in tre parti: un set di addestramento con 7.600 tweet, un set di validazione con 400 tweet e un set di test con 10.000 tweet. La maggior parte dei tweet (circa l'80%) non menziona una diagnosi di Covid-19, il che crea uno sbilanciamento che dobbiamo affrontare. Usciamo metodi di oversampling per aiutare con questo sbilanciamento.
Per misurare quanto bene sta funzionando il nostro modello, usiamo il punteggio F1, che si concentra sui tweet che confermano una diagnosi di Covid-19. I dati di addestramento comprendono l'ID del tweet, il testo del tweet e un'etichetta che indica se il tweet riporta o meno una diagnosi.
Preparazione dei Dati
Prima di usare il dataset, lo abbiamo pulito. Abbiamo rimosso link, retweet, menzioni degli utenti, spazi extra e caratteri non standard. Abbiamo anche messo tutto in minuscolo e ritagliato gli spazi all'inizio e alla fine del testo. Inoltre, ci siamo assicurati che ci fossero spazi tra i segni di punteggiatura per chiarezza.
Metodologia
Per questo compito, usiamo due strategie principali per migliorare i nostri dati di addestramento:
- Aumento Testuale: Questo significa che cambiamo i tweet originali per creare più esempi.
- Affinamento con Modelli Preaddestrati: Usciamo un modello speciale chiamato Covid-Twitter-BERT (CT-BERT), che è stato addestrato su un gran numero di tweet relativi al Covid-19. Questo modello di solito dà buoni risultati per compiti che coinvolgono dati di Twitter.
Per gestire lo sbilanciamento nelle nostre etichette e ridurre la possibilità di overfitting (quando il modello funziona bene sui dati di addestramento ma male su nuovi dati), applichiamo diverse tecniche.
Tecnica di Regolarizzazione
Una tecnica che usiamo si chiama R-drop. Questo metodo è intelligente perché aiuta il modello a imparare meglio lavorando con diverse versioni dei dati. Fa questo creando due previsioni dallo stesso input e cercando poi di rendere quelle previsioni simili. Questo aiuta il modello a imparare da esempi diversi senza fare troppo affidamento su un singolo esempio.
Tecniche di Aumento Testuale
Abbiamo usato vari metodi per cambiare i tweet in nuovi esempi:
Sostituzione di Sinonimi: Sostituiamo alcune parole nei tweet con parole simili da un database linguistico, che ci dà modi diversi di dire la stessa cosa.
Trasformazione del Tempo Verbale: Cambiamo il tempo delle frasi, ad esempio, cambiando il presente in passato.
Sostituzione di Token Riservati: Abbiamo sostituito alcune parole con alternative predefinite. Ad esempio, potremmo sostituire "Covid-19" con "Coronavirus" o altri termini correlati.
Traduzione Inversa: Prendiamo un tweet in inglese, lo traduciamo in un'altra lingua come il tedesco e poi lo traduciamo di nuovo in inglese. Questo aiuta a creare nuove frasi che portano lo stesso significato ma sono espresse diversamente.
Configurazione dell'Esperimento
Per testare il nostro modello, lo affinatiamo usando una configurazione specifica. Ogni modello è addestrato per 10 cicli (o epoche) con un piccolo tasso di apprendimento. La dimensione del batch è impostata a 32, il che significa che elaboriamo 32 tweet alla volta, e la lunghezza massima per qualsiasi tweet è di 128 caratteri. Usciamo un framework chiamato PyTorch insieme a un altro strumento chiamato HuggingFace per il processo di addestramento.
Durante l'addestramento, salviamo i progressi del modello ogni 200 passaggi, concentrandoci su quanto bene funziona sul set di validazione usando il punteggio F1.
Prestazioni del Modello
Combinando R-drop e aumenti testuali con CT-BERT, abbiamo ottenuto risultati impressionanti nel rilevare diagnosi di Covid-19 nei tweet. L'aggiunta di dati aumentati aiuta il modello a diventare più robusto e in grado di generalizzare meglio su dati non visti. Questo riduce anche le possibilità che il modello diventi troppo adattato a esempi specifici.
Le strategie che abbiamo usato aiutano il modello a imparare da una varietà di prospettive all'interno dei dati. Di conseguenza, il nostro sistema non solo ha performato meglio della media, ma ha anche superato i punteggi tipici visti in compiti simili.
Risultati
Abbiamo misurato quanto bene ha funzionato il nostro modello usando Precisione Micro-media (P), Richiamo (R) e punteggi F1 sia sui set di validazione che su quelli di test. I risultati hanno mostrato che il nostro modello ha funzionato efficacemente nella classificazione dei tweet che menzionano diagnosi di Covid-19.
Nel set di test, il nostro sistema ha raggiunto un punteggio F1 di 0.877. Questo punteggio riflette l'equilibrio tra precisione e richiamo, suggerendo che il nostro modello è affidabile nell'identificare i tweet che confermano diagnosi di Covid-19.
Conclusione
Questo lavoro dimostra l'efficacia di usare un modello di classificazione che integra sia Tecniche di regolarizzazione che aumenti testuali. Affrontando lo sbilanciamento delle classi e riducendo il rischio di overfitting, abbiamo migliorato significativamente le prestazioni del modello. I risultati indicano che le strategie che abbiamo implementato, comprese le modifiche testuali e il metodo R-drop, giocano un ruolo cruciale nel rendere il modello più adattabile e preciso.
Il nostro approccio mostra promesse nell'analizzare in modo efficiente i dati di Twitter riguardo al Covid-19, segnando un passo avanti nell'uso delle intuizioni dei social media per il monitoraggio della salute in tempo reale. Con questa metodologia, possiamo catturare meglio le esperienze personali con il Covid-19, rendendo più facile comprendere l'impatto della pandemia sugli individui e sulla società nel suo complesso.
Titolo: Text Augmentations with R-drop for Classification of Tweets Self-Reporting Covid-19
Estratto: This paper presents models created for the Social Media Mining for Health 2023 shared task. Our team addressed the first task, classifying tweets that self-report Covid-19 diagnosis. Our approach involves a classification model that incorporates diverse textual augmentations and utilizes R-drop to augment data and mitigate overfitting, boosting model efficacy. Our leading model, enhanced with R-drop and augmentations like synonym substitution, reserved words, and back translations, outperforms the task mean and median scores. Our system achieves an impressive F1 score of 0.877 on the test set.
Autori: Sumam Francis
Ultimo aggiornamento: 2023-11-07 00:00:00
Lingua: English
URL di origine: https://www.medrxiv.org/content/10.1101/2023.11.06.23298151
Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.11.06.23298151.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia medrxiv per l'utilizzo della sua interoperabilità ad accesso aperto.