Affrontare il linguaggio d'odio in tutte le lingue
Un progetto mira a identificare commenti dannosi per LGBTQ+ in più lingue.
― 5 leggere min
Indice
Negli ultimi anni, i Social Media sono diventati una piattaforma potente per condividere opinioni ed esperienze. Tuttavia, hanno anche mostrato un aumento dei commenti negativi, in particolare quelli omofobi o transfobici. Questo documento parla di un progetto mirato a creare un sistema per identificare contenuti dannosi in più lingue.
Obiettivi del Progetto
L'obiettivo principale di questo progetto era sviluppare un sistema in grado di classificare i commenti sui social media in base alla presenza di Discorsi d'odio verso le persone LGBTQ+. Il progetto si è concentrato su cinque lingue: inglese, spagnolo, hindi, malayalam e tamil. Il team voleva costruire due sistemi di classificazione: uno con tre categorie e l'altro con sette, ciascuno identificando diversi tipi di discorsi negativi.
Come Funziona il Sistema
Per creare questo sistema, il team ha utilizzato un tipo di modello informatico noto come BERT, efficace per compiti linguistic. Hanno anche usato un altro modello chiamato XLM-RoBERTa, addestrato su testi in molte lingue. Questo modello è stato riaddestrato utilizzando commenti sui social media che riflettevano l'uso della lingua locale, rendendolo più sensibile al modo in cui le persone comunicano online.
Il progetto ha coinvolto la raccolta e preparazione di un grande insieme di commenti da utenti che reagivano a video LGBTQ+ su YouTube. Questi dati sono stati etichettati con attenzione in diverse categorie, ma il team ha affrontato alcune sfide poiché non ha ricevuto informazioni dettagliate su come erano stati annotati i commenti.
Dati di Addestramento
Per il progetto, gli organizzatori hanno fornito dati in file .csv che includevano commenti nelle cinque lingue target. I commenti sono stati categorizzati in diversi gruppi a seconda della presenza o meno di discorsi d'odio. In totale, c'erano due compiti principali da svolgere. Il primo compito riguardava l'identificazione di tre classi di commenti: osservazioni omofobe, contenuti non anti-LGBT+ e osservazioni transfobiche. Il secondo compito aveva sette categorie: contro-discorso, diversi tipi di contenuti omofobi e transfobici, e "nessuno dei precedenti".
Sfide nei Dati
Una sfida significativa in questo progetto era la quantità sbilanciata di dati in ciascun gruppo linguistico. Alcune lingue avevano più esempi di altre, il che rendeva più difficile addestrare un modello efficace. Il team del progetto ha notato che i tentativi precedenti di identificare discorsi d'odio tra le lingue avevano avuto successi misti, con alcuni modelli che performavano meglio di altri.
Ri-addestramento del Modello
Il modello XLM-RoBERTa era inizialmente addestrato su un grande dataset che includeva varie lingue, ma il team doveva migliorare le sue performance per il compito specifico di identificazione dei discorsi d'odio. Per farlo, hanno raccolto tweet da Twitter per l'addestramento, assicurandosi che i tweet riflettessero lo stesso tempo e luogo dei commenti di YouTube. Hanno filtrato questi dati per renderli più pertinenti rimuovendo caratteri non necessari e concentrandosi sulla preservazione dello stile linguistico.
Inoltre, il team ha creato campioni che mescolavano diversi scritti. Ad esempio, alcuni tweet in malayalam sono stati traslitterati in scrittura latina. Questo processo mirava ad affrontare la mancanza di esempi di malayalam romanizzato nel modello esistente.
Ottimizzazione del Modello
Dopo aver ri-addestrato il modello con i nuovi dati, il team lo ha affinato utilizzando i dati di addestramento etichettati. Hanno usato un metodo per sovracampionare le categorie con meno esempi per assicurarsi che il modello avesse materiale di addestramento sufficiente per ciascuna classe. Il modello è stato addestrato più volte, valutando continuamente le sue prestazioni per migliorare l'accuratezza.
Risultati
Il progetto ha prodotto risultati promettenti. Il nuovo modello ri-addestrato ha mostrato performance migliori nell'identificare discorsi d'odio rispetto al modello di base. Per il primo compito, il malayalam ha raggiunto il punteggio più alto, mentre lo spagnolo il più basso. Nel secondo compito, anche il malayalam ha performato meglio tra i modelli, dimostrando che il processo di ri-addestramento ha giovato enormemente alle performance. Tuttavia, alcuni risultati inaspettati sono emersi mescolando le scritture, dove le performance variavano significativamente tra le lingue.
Affrontare le Questioni
Rilevare discorsi d'odio è un compito difficile a causa dei diversi modi in cui le persone esprimono negatività online. I commenti sui social media possono spesso essere sottili, richiedendo ai sistemi di comprendere il contesto anziché limitarsi a cercare parole specifiche. Il team ha riconosciuto che questa complessità non è limitata a una lingua o regione, rendendo il compito ancora più cruciale.
Per affrontare le carenze nei dati, il team ha suggerito di utilizzare dati sintetici per migliorare la diversità. Questi dati sintetici potrebbero aiutare a colmare le lacune in aree sottorappresentate, migliorando potenzialmente l'efficacia complessiva del modello. L'idea era di creare più dati di addestramento che potessero affrontare i pregiudizi e tener conto dei diversi modi in cui possono essere espressi i discorsi d'odio.
Applicazioni nel Mondo Reale
I risultati di questo progetto hanno implicazioni significative per il monitoraggio dei discorsi d'odio online. Raffinando il modello con dati specifici per lingua e regione, può aiutare a tenere sotto controllo i commenti dannosi rivolti alle comunità LGBTQ+. Questo è particolarmente importante per le lingue che spesso mancano di rappresentanza sufficiente nei modelli più grandi.
Conclusione
Il progetto ha dimostrato con successo il potenziale di modelli come XLM-RoBERTa per identificare discorsi d'odio in varie lingue, specialmente quando ri-addestrati con dati pertinenti. Anche se ci sono stati risultati misti con l'aggiunta dei dati misti di scrittura, il miglioramento complessivo nelle performance di classificazione evidenzia l'importanza di adattare i modelli all'uso della lingua locale.
In futuro, il team prevede di continuare a perfezionare i propri metodi, esplorando anche tecniche come l'iniezione di rumore per rafforzare il sistema di classificazione. Con il lavoro continuo, si spera che questi modelli diventino ancora migliori nel rilevare e affrontare i discorsi d'odio tra lingue e regioni.
Titolo: cantnlp@LT-EDI-2023: Homophobia/Transphobia Detection in Social Media Comments using Spatio-Temporally Retrained Language Models
Estratto: This paper describes our multiclass classification system developed as part of the LTEDI@RANLP-2023 shared task. We used a BERT-based language model to detect homophobic and transphobic content in social media comments across five language conditions: English, Spanish, Hindi, Malayalam, and Tamil. We retrained a transformer-based crosslanguage pretrained language model, XLMRoBERTa, with spatially and temporally relevant social media language data. We also retrained a subset of models with simulated script-mixed social media language data with varied performance. We developed the best performing seven-label classification system for Malayalam based on weighted macro averaged F1 score (ranked first out of six) with variable performance for other language and class-label conditions. We found the inclusion of this spatio-temporal data improved the classification performance for all language and task conditions when compared with the baseline. The results suggests that transformer-based language classification systems are sensitive to register-specific and language-specific retraining.
Autori: Sidney G. -J. Wong, Matthew Durward, Benjamin Adams, Jonathan Dunn
Ultimo aggiornamento: 2023-08-24 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2308.10370
Fonte PDF: https://arxiv.org/pdf/2308.10370
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.