Approfondimenti culturali sulla rilevazione dell'odio
Un nuovo dataset mette in evidenza il ruolo della cultura nell'identificare i discorsi d'odio.
― 8 leggere min
Indice
Il discorso d'odio è un problema serio che colpisce molte persone e comunità in tutto il mondo. Può portare a danni, discriminazione e divisione tra i gruppi. Capire come il discorso d'odio varia tra le diverse culture è importante per creare sistemi che possano identificarlo e contrastarlo. Tuttavia, molti dei dataset esistenti che aiutano a rilevare il discorso d'odio spesso trascurano le differenze culturali.
Una delle iniziative per affrontare questo problema è la creazione di un nuovo dataset chiamato CREHate. Questo dataset si concentra sul discorso d'odio in inglese e include input provenienti da vari paesi con diverse culture. Raccogliendo una gamma diversificata di post online e osservando come le persone di culture diverse interpretano questi post, possiamo comprendere meglio il discorso d'odio e costruire sistemi di rilevamento più efficaci.
L'importanza della diversità culturale nel rilevamento del discorso d'odio
La maggior parte dei dataset usati per identificare il discorso d'odio è limitata, concentrandosi principalmente su anglofoni del Nord America. Questo crea un divario perché non tiene conto delle diverse culture e origini degli anglofoni nel mondo. Per rilevare efficacemente il discorso d'odio, è fondamentale comprendere il contesto in cui si verifica, che varia ampiamente tra le culture.
Le diverse culture hanno norme, valori e esperienze diversi che influenzano le loro prospettive su cosa costituisce un discorso d'odio. Ad esempio, una frase considerata offensiva in una cultura potrebbe non essere percepita allo stesso modo in un'altra. Questa variazione può portare a confusione e imprecisioni nel rilevare il discorso d'odio.
Introducendo CREHate
CREHate è progettato per colmare questo divario fornendo un dataset che rifletta la diversità culturale nel discorso d'odio. Include 1.580 post online raccolti da cinque diversi paesi anglofoni: Australia, Regno Unito, Singapore, Stati Uniti e Sudafrica. Il dataset è stato costruito utilizzando un processo in due fasi: raccogliendo post specifici per cultura e poi annotando questi post attraverso prospettive interculturali.
Raccolta dei post
Il primo passo nella creazione di CREHate ha comportato la raccolta di post da varie fonti come YouTube e Reddit. L'obiettivo era raccogliere post che riflettessero i contesti culturali dei paesi selezionati. Per farlo, i ricercatori hanno utilizzato parole chiave culturalmente rilevanti ottenute da sondaggi condotti in questi paesi.
Sono stati raccolti un totale di 600 post specifici per cultura da Australia, Regno Unito, Singapore e Sudafrica. Inoltre, 980 post sono stati campionati da un altro dataset che rappresenta principalmente i punti di vista nordamericani. Questa collezione diversificata di post è essenziale per comprendere come il discorso d'odio venga espresso in diversi contesti culturali.
Annotazione interculturale
Il passo successivo ha coinvolto annotatori di ciascuno dei cinque paesi che hanno etichettato i post raccolti. Ogni post è stato esaminato da più annotatori di diverse regioni per capire come interpretano il discorso d'odio. I ricercatori miravano a creare etichette rappresentative per ogni paese, permettendo un confronto su come il discorso d'odio venga percepito tra le culture.
I risultati hanno rivelato che solo poco più della metà dei post ha raggiunto consenso tra gli annotatori. Questa mancanza di accordo mette in evidenza quanto possa essere soggettiva e influenzata dalla cultura l'interpretazione del discorso d'odio. Quando persone di diverse origini culturali guardano lo stesso post, potrebbero etichettarlo in modo diverso in base alla loro comprensione delle norme e dei valori di quella cultura.
Risultati chiave
L'analisi di CREHate mostra che il Contesto culturale gioca un ruolo significativo in come viene identificato il discorso d'odio. Ecco alcune intuizioni chiave:
Variabilità nell'etichettatura: Solo il 56,2% dei post ha avuto un accordo unanime sulle etichette tra i cinque paesi. Il tasso medio di disaccordo tra annotatori di paesi diversi ha raggiunto il 26%. Questo indica che c'è una differenza sostanziale di opinioni quando si tratta di identificare il discorso d'odio.
Il contesto culturale conta: I disaccordi derivavano spesso da differenze culturali, soggettività e ambiguità dei post. Gli annotatori erano più propensi a non essere d'accordo su post che contenevano riferimenti culturali specifici o contesto.
Performance del classificatore: Utilizzando CREHate per addestrare i Classificatori si è mostrata una maggiore precisione nel prevedere etichette specifiche per paese rispetto all'uso di dati di una singola cultura. Questo suggerisce che avere un dataset diversificato come CREHate può migliorare le prestazioni dei sistemi di rilevamento del discorso d'odio.
La metodologia dietro CREHate
Raccolta dei post
Per creare un dataset ben bilanciato, i ricercatori hanno utilizzato un approccio metodico per raccogliere i post. La raccolta dei post specifici per cultura ha comportato l'input di lavoratori che vivevano nei paesi target. Hanno identificato gli obiettivi comuni del discorso d'odio e raccolto parole chiave pertinenti. I post sono stati estratti da varie piattaforme social per garantire una rappresentazione ampia.
Annotazione dei post
Per il processo di annotazione, i ricercatori hanno reclutato persone di ciascun paese per etichettare i post in base alla loro comprensione del discorso d'odio. Gli annotatori sono stati selezionati in base alla loro familiarità con la cultura e la lingua delle rispettive regioni. Hanno esaminato e etichettato i post come "odio", "non odio" o "incerto".
Il processo ha incluso fasi di validazione per garantire un'alta qualità nella raccolta dei dati. Ha anche coinvolto il voto di maggioranza per finalizzare le etichette per ciascun post. Questa strategia mirava a minimizzare l'influenza di un singolo annotatore sui risultati complessivi.
Analisi statistica di CREHate
Il dataset ha rivelato discrepanze statistiche significative nel modo in cui il discorso d'odio è stato annotato nei diversi paesi. I ricercatori hanno condotto test chi-quadrato per analizzare gli accordi e i disaccordi tra gli annotatori.
Disparità nelle annotazioni
I risultati hanno indicato che le origini culturali degli annotatori hanno influito significativamente sui risultati. I disaccordi nell'etichettatura si verificavano più frequentemente quando i post contenevano riferimenti culturali o esempi che richiedevano un contesto specifico. Questo evidenzia le sfide nel raggiungere un consenso quando culture diverse interpretano linguaggio e significato in modo diverso.
Analisi approfondita dei disaccordi
Analizzando ulteriormente la natura dei disaccordi, i ricercatori hanno categorizzato le ragioni dietro di essi. Le ragioni comuni includevano:
- Ambiguità: Alcuni post contenevano linguaggio poco chiaro, rendendo difficile classificarli in modo definitivo.
- Soggettività: I pregiudizi personali influenzavano come gli annotatori percepivano i post, soprattutto quando il contenuto toccava argomenti sensibili.
- Contesto culturale: I post che includevano riferimenti culturali specifici spesso portavano a malintesi tra annotatori di paesi diversi.
Sviluppo di classificatori culturalmente adattivi
Il dataset CREHate non serve solo come risorsa per comprendere il discorso d'odio, ma anche come strumento fondamentale per sviluppare classificatori che possano meglio identificare il discorso d'odio nelle diverse culture.
La necessità di modelli culturalmente sensibili
I modelli di intelligenza artificiale e machine learning addestrati esclusivamente su dati di una cultura spesso non riescono a rilevare accuratamente il discorso d'odio in ambienti diversificati. Utilizzando CREHate, i ricercatori possono creare modelli che tengano conto delle diverse sfumature culturali in linguaggio e significato.
Tecniche per classificatori culturalmente adattivi
I ricercatori hanno utilizzato diverse tecniche per migliorare i classificatori:
Multi-etichettatura: Addestrando il modello a considerare più etichette da diversi paesi, i classificatori possono adattarsi a punti di vista variati.
Apprendimento multi-task: Questo approccio consente al modello di gestire vari compiti contemporaneamente, migliorando le prestazioni quando si identifica il discorso d'odio da diverse prospettive culturali.
Tagging culturale: Il modello include tag specifici per la cultura per aiutarlo a comprendere meglio il contesto e fare previsioni più accurate.
Sfide e limitazioni
Sebbene CREHate faccia notevoli progressi nell'affrontare la diversità culturale nel rilevamento del discorso d'odio, non è privo di sfide. Alcune limitazioni includono:
Dimensione del dataset: Con solo 1.580 post, il dataset è relativamente piccolo rispetto ad altri grandi dataset utilizzati nel machine learning. Espandere il dataset sarà necessario per applicazioni più ampie.
Rappresentanza culturale: Anche se sono stati inclusi cinque paesi, il dataset non copre tutte le nazioni anglofone. Le ricerche future dovrebbero mirare a includere altre regioni per riflettere prospettive culturali più diverse.
Possibili pregiudizi: La raccolta di post da piattaforme specifiche potrebbe introdurre pregiudizi, poiché gli utenti di diverse piattaforme potrebbero avere demografie variabili che influenzano il contenuto.
Direzioni future
Lo sviluppo di CREHate apre diverse strade per future ricerche nel campo del rilevamento del discorso d'odio:
Espandere il dataset: Gli sforzi futuri potrebbero concentrarsi sulla raccolta di più post da ulteriori paesi e culture, migliorando ulteriormente la diversità del dataset.
Variazioni all'interno del paese: Esplorare il discorso d'odio tra diversi gruppi etnici e culturali all'interno dello stesso paese può fornire approfondimenti più dettagliati su come il discorso d'odio vari anche in contesti linguistici simili.
Inclusione di lingue più ampie: Le metodologie stabilite nella ricerca del contesto culturale e nella raccolta dei post possono essere applicate ad altre lingue, consentendo ai ricercatori di costruire dataset simili per lingue come lo spagnolo e oltre.
Ulteriori studi sulla soggettività: Comprendere come i pregiudizi personali e le percezioni culturali influenzano l'interpretazione del discorso d'odio può portare a migliori metodi di formazione per gli annotatori e a una maggiore prestazione dei classificatori.
Conclusione
CREHate rappresenta un passo vitale verso la comprensione del discorso d'odio attraverso le culture. Raccogliendo una gamma diversificata di post online e analizzando come le persone di diversi background interpretano il discorso d'odio, questo dataset ha il potenziale di migliorare i sistemi di rilevamento del discorso d'odio.
Riconoscere le sfumature culturali nel linguaggio è fondamentale per identificare accuratamente il discorso d'odio. Man mano che i ricercatori continuano ad esplorare e ampliare i risultati di CREHate, possono sviluppare strumenti più efficaci per combattere il discorso d'odio e promuovere un ambiente online più sicuro per tutti.
Titolo: Exploring Cross-Cultural Differences in English Hate Speech Annotations: From Dataset Construction to Analysis
Estratto: Warning: this paper contains content that may be offensive or upsetting. Most hate speech datasets neglect the cultural diversity within a single language, resulting in a critical shortcoming in hate speech detection. To address this, we introduce CREHate, a CRoss-cultural English Hate speech dataset. To construct CREHate, we follow a two-step procedure: 1) cultural post collection and 2) cross-cultural annotation. We sample posts from the SBIC dataset, which predominantly represents North America, and collect posts from four geographically diverse English-speaking countries (Australia, United Kingdom, Singapore, and South Africa) using culturally hateful keywords we retrieve from our survey. Annotations are collected from the four countries plus the United States to establish representative labels for each country. Our analysis highlights statistically significant disparities across countries in hate speech annotations. Only 56.2% of the posts in CREHate achieve consensus among all countries, with the highest pairwise label difference rate of 26%. Qualitative analysis shows that label disagreement occurs mostly due to different interpretations of sarcasm and the personal bias of annotators on divisive topics. Lastly, we evaluate large language models (LLMs) under a zero-shot setting and show that current LLMs tend to show higher accuracies on Anglosphere country labels in CREHate. Our dataset and codes are available at: https://github.com/nlee0212/CREHate
Autori: Nayeon Lee, Chani Jung, Junho Myung, Jiho Jin, Jose Camacho-Collados, Juho Kim, Alice Oh
Ultimo aggiornamento: 2024-04-03 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2308.16705
Fonte PDF: https://arxiv.org/pdf/2308.16705
Licenza: https://creativecommons.org/licenses/by-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://platform.openai.com/docs/models/gpt-3-5
- https://datareportal.com/essential-twitter-stats
- https://www.cia.gov/the-world-factbook/field/languages/
- https://www.iso.org/iso-3166-country-codes.html
- https://files.pushshift.io/gab/GABPOSTS_CORPUS.xz
- https://www.semrush.com/website/reddit.com/overview/
- https://www.semrush.com/website/gab.com/overview/
- https://www.prolific.co/
- https://www.mturk.com/
- https://www.tictagkr.com/
- https://www.un.org/en/hate-speech/understanding-hate-speech/what-is-hate-speech
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://aclweb.org/anthology/anthology.bib.gz