Classificare i tweet sui disturbi infantili
Uno studio classifica i tweet dei genitori sui disturbi dell'infanzia.
― 5 leggere min
Indice
I disturbi dell'infanzia come ADHD, Autismo, ritardi nel linguaggio e Asma possono influenzare molto la crescita e la salute di un bambino, e questi problemi spesso continuano fino all'età adulta. Negli Stati Uniti, circa 1 bambino su 6 tra i 3 e i 17 anni ha un problema dello sviluppo, con ADHD e autismo come esempi comuni. Studi precedenti hanno usato Twitter per trovare autosegnalazioni di queste condizioni, ma non hanno esaminato da vicino i tweet in cui i genitori menzionano i loro figli che hanno questi problemi. Questo apre la possibilità di utilizzare i dati di Twitter per saperne di più su queste condizioni nei bambini.
Descrizione del Compito e dei Dati
C'è un workshop chiamato SMM4H-2024 che si concentra sull'uso di modelli di linguaggio per studiare i social media. Abbiamo partecipato a un compito specifico che prevede la classificazione dei tweet. L'obiettivo è distinguere i tweet dei genitori che menzionano di avere un bambino con ADHD, autismo, ritardi nel linguaggio o asma dai tweet che menzionano solo questi disturbi senza indicare che riguardano i loro figli.
Sono stati forniti tre set di dati: uno per l'addestramento, uno per la validazione e uno per il test. I set di dati di addestramento e di validazione erano etichettati, mentre il set di test non lo era. Tutti i set di dati consistono in tweet di utenti che hanno segnalato la loro gravidanza su Twitter e menzionano un bambino con un disturbo, oltre a tweet che menzionano solo un disturbo. Il numero totale di tweet include 7.398 per l'addestramento, 389 per la validazione e 1.947 per il test.
Un classificatore di riferimento utilizzando un modello specifico ha raggiunto un F1-score di 0.927 per identificare i tweet che segnalano di avere un bambino con un disturbo nei dati di test.
Modelli Utilizzati
Abbiamo testato tre diversi modelli di linguaggio: BioLinkBERT, RoBERTa e BERTweet. BioLinkBERT è bravo a capire il linguaggio medico; RoBERTa è forte nei compiti di linguaggio generale; e BERTweet è particolarmente efficace per i tweet. Abbiamo addestrato ciascun modello utilizzando il set di dati di addestramento e controllato come si sono comportati utilizzando il set di dati di validazione.
Regime di Addestramento
Informazioni dettagliate su come abbiamo addestrato i modelli sono incluse in un'appendice. Le impostazioni chiave per l'addestramento, come il tasso di apprendimento e la dimensione del lotto, sono state decise nelle sezioni seguenti.
Ottimizzazione degli Ipoperarametri
Abbiamo ottimizzato le impostazioni dei modelli utilizzando uno strumento che aiuta a gestire e affinare i modelli di apprendimento automatico. Maggiori dettagli sulle impostazioni possono essere trovati anche in un'appendice.
Esperimenti Preliminari
Ognuno dei modelli che abbiamo scelto è stato addestrato per tre turni, con dieci cicli di addestramento per ciascun turno. Dopo ogni ciclo, abbiamo controllato l'F1-score per vedere quanto bene si comportava ciascun modello con i dati di validazione. Abbiamo salvato la migliore performance di ciascun modello per ciascun turno. I risultati sono riassunti in un'appendice.
Dai nostri risultati, RoBERTa e BERTweet hanno mostrato prestazioni simili sui dati di validazione, facendo molto meglio di BioLinkBERT, anche se BioLinkBERT era stato addestrato su un ampio set di dati medici. Di conseguenza, abbiamo deciso di escludere BioLinkBERT da ulteriori test.
Strategia di Insieme
Quando si addestrano modelli grandi su set di dati piccoli, può essere difficile ottenere risultati stabili perché piccoli cambiamenti nei dati di addestramento o punti di partenza casuali possono portare a risultati diversi. Per affrontare questo problema e migliorare l'affidabilità delle nostre previsioni, abbiamo combinato diversi modelli. Abbiamo creato due gruppi separati di modelli utilizzando i migliori risultati delle nostre prove con RoBERTa e BERTweet. Tutti i modelli in ciascun gruppo utilizzavano le stesse impostazioni, differendo solo per le loro condizioni iniziali casuali. Abbiamo poi utilizzato un metodo di voto per arrivare a una previsione finale basata su questi modelli.
I risultati hanno mostrato che il gruppo di modelli BERTweet ha performato meglio rispetto al gruppo RoBERTa. Questo è principalmente dovuto al fatto che le variazioni nelle prestazioni nei tre turni erano minori per BERTweet. Abbiamo anche notato che i risultati del gruppo BERTweet corrispondevano al miglior esito di uno dei turni di RoBERTa.
Risultati delle Prestazioni
Poiché sia il miglior turno di RoBERTa che il gruppo BERTweet hanno avuto un successo simile con i dati di validazione, abbiamo testato entrambi su un insieme separato di dati di test non visti. I risultati hanno mostrato che il gruppo BERTweet ha superato la media delle prestazioni viste in tutte le sottomissioni del team di un bel po', superando anche il classificatore di riferimento di 1.18%. Anche se entrambi i classificatori hanno performato in modo simile nei test di validazione, il gruppo BERTweet ha fatto molto meglio quando abbiamo esaminato i dati di test. Una ragione potrebbe essere che i diversi turni del modello BERTweet potrebbero aver catturato vari schemi nei dati.
Quando affiniamo modelli di linguaggio complessi, ci troviamo spesso di fronte a incoerenze nelle prestazioni con set di dati piccoli. Per contrastare ciò, abbiamo combinato le previsioni di più versioni del modello BERTweet per risultati migliori. Questo approccio ha portato a miglioramenti notevoli nei nostri punteggi finali.
Conclusione
Sia il miglior turno di RoBERTa che il gruppo BERTweet hanno mostrato una forte prestazione sul set di dati di validazione. Tuttavia, il gruppo BERTweet ha eccelso quando lo abbiamo valutato sui dati di test, ottenendo punteggi più alti rispetto al modello iniziale utilizzato come riferimento. Il successo del gruppo BERTweet suscita interesse per esaminare ulteriormente come l'aggiunta di più turni al gruppo potrebbe influenzare le prestazioni. Questa indagine potrebbe portare a risultati ancora migliori nella comprensione e classificazione dei tweet relativi ai disturbi dell'infanzia. In generale, il nostro lavoro suggerisce che combinare i risultati di più modelli può migliorare le previsioni, specialmente quando si affrontano piccole quantità di dati.
Titolo: Tweets Classification for Digital Epidemiology of Childhood Health Outcomes Using Pre-Trained Language Models
Estratto: This paper presents our approaches for the SMM4H24 Shared Task 5 on the binary classification of English tweets reporting childrens medical disorders. Our first approach involves fine-tuning a single RoBERTa-large model, while the second approach entails ensembling the results of three fine-tuned BERTweet-large models. We demonstrate that although both approaches exhibit identical performance on validation data, the BERTweet-large ensemble excels on test data. Our best-performing system achieves an F1-score of 0.938 on test data, out-performing the benchmark classifier by 1.18%.
Autori: Dasun Srimal Wickrama Arachchi Athukoralage, T. Atapattu, M. Thilakaratne, K. Falkner
Ultimo aggiornamento: 2024-06-12 00:00:00
Lingua: English
URL di origine: https://www.medrxiv.org/content/10.1101/2024.06.11.24308776
Fonte PDF: https://www.medrxiv.org/content/10.1101/2024.06.11.24308776.full.pdf
Licenza: https://creativecommons.org/licenses/by-nc/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia medrxiv per l'utilizzo della sua interoperabilità ad accesso aperto.