Riconoscere il razzismo nel linguaggio dei social media
Esaminando e classificando il linguaggio razzista su Twitter, concentrandosi sull'Ecuador.
― 7 leggere min
Indice
- Concettualizzare il Razzismo
- Diverse Forme di Razzismo
- Comprendere il Razzismo nei Contesti Moderni
- La Struttura Razziale in Ecuador
- Metodologia
- Passo 1: Concettualizzazione
- Passo 2: Contestualizzazione
- Passo 3: Identificare il Linguaggio Razzista
- Passo 4: Applicare Tecniche di Apprendimento Automatico
- Raccolta Dati
- Esplorazione dei Dati di Twitter
- Processo di Formazione
- Creazione del Codice
- Implementazione dell'Apprendimento Automatico
- Pre-addestramento del Modello
- Fine-Tuning del Modello
- Risultati e Analisi
- Razzismo Nascosto vs. Razzismo Evidente
- Il Ruolo delle Figure Pubbliche
- Implicazioni per Comprendere il Razzismo
- Affrontare il Razzismo nella Società
- Conclusione
- Fonte originale
- Link di riferimento
Il Razzismo esiste in molte forme e può essere visto in diverse aree della società. Capire e identificare queste forme, specialmente nel linguaggio, è importante. Con l'aumento dei social media, il linguaggio razzista è diventato più complicato e difficile da cogliere. Questo articolo presenta un metodo per riconoscere e categorizzare i diversi tipi di linguaggio razzista in grandi collezioni di testi, in particolare usando i tweet.
Concettualizzare il Razzismo
Il razzismo può essere definito in vari modi. Molti studiosi concordano sul fatto che sia una pratica sociale che mette le persone in categorie in base alla loro razza, portando spesso a disuguaglianze sociali. In generale, il razzismo può essere compreso come un sistema che promuove l'idea di superiorità per alcune razze mentre considera altre inferiori. Questa comprensione permette ai ricercatori di vedere come il razzismo opera ed evolve nel tempo.
Diverse Forme di Razzismo
Il razzismo può manifestarsi in due modi principali: evidente e nascosto. Il razzismo evidente è espresso apertamente e spesso comporta un linguaggio chiaramente dispregiativo. Il razzismo nascosto, d'altra parte, è più sottile. Può includere linguaggio codificato, stereotipi e frasi apparentemente innocue che portano comunque una connotazione negativa per alcuni gruppi razziali. Questa natura invisibile rende il razzismo nascosto particolarmente pericoloso, poiché può essere trascurato o ignorato da chi non è addestrato a identificarlo.
Comprendere il Razzismo nei Contesti Moderni
Il linguaggio gioca un ruolo cruciale nella diffusione di idee razziste. Il modo in cui le persone parlano di certe razze può riflettere le dinamiche di potere esistenti e rafforzare le gerarchie sociali. Comprendere il contesto in cui il linguaggio è usato è essenziale per identificare il discorso razzista. Ad esempio, in Ecuador, i contesti storici e sociali modellano come il razzismo si esprime, in particolare verso la popolazione indigena.
La Struttura Razziale in Ecuador
La struttura razziale dell'Ecuador ha radici nel suo passato coloniale, dove la popolazione indigena affrontava gravi discriminazioni e disuguaglianze. Questi fattori storici influenzano le interazioni e le affermazioni moderne riguardanti la razza. La comunità indigena ha lavorato duramente per ottenere potere politico e riconoscimento sociale, ma continua ad affrontare sfide e atteggiamenti razzisti.
Metodologia
Per identificare e classificare efficacemente il linguaggio razzista, proponiamo un approccio sistematico che combina concetti teorici con tecniche moderne di Apprendimento Automatico. Questo processo include la comprensione del contesto del razzismo, la costruzione di un framework di codifica e l'impiego di modelli avanzati di elaborazione del linguaggio che possono classificare il testo in modo accurato.
Passo 1: Concettualizzazione
I ricercatori devono prima definire cosa significa razzismo nel loro studio. Questa scelta è fondamentale poiché influisce sui risultati della loro ricerca. Stabilendo una definizione chiara, i ricercatori possono creare ipotesi radicate nella comprensione teorica del razzismo.
Contestualizzazione
Passo 2:Una volta concettualizzato il razzismo, è cruciale collocarlo nei contesti storici e sociali specifici che si stanno studiando. Ad esempio, il modo in cui il razzismo funziona in America Latina può differire drasticamente dalla sua manifestazione negli Stati Uniti. I ricercatori devono considerare fattori come la storia locale, le strutture sociali e le dinamiche culturali.
Passo 3: Identificare il Linguaggio Razzista
Dopo aver contestualizzato il razzismo, il passo successivo implica riconoscere come appare nel linguaggio. Questo comporta la creazione di schemi di codifica che riflettono le varie espressioni di razzismo identificate nei dati.
Passo 4: Applicare Tecniche di Apprendimento Automatico
Per una classificazione efficace, utilizziamo modelli di apprendimento automatico che possono comprendere il testo all'interno del contesto. Il modello XLM-RoBERTa è una scelta leader per questo compito, poiché si è dimostrato efficace nelle attività di classificazione del linguaggio. Addestrando i modelli su set di dati etichettati che riflettono le complessità del linguaggio razzista, possiamo migliorare l'accuratezza e l'affidabilità.
Raccolta Dati
Questo studio si concentra sui tweet relativi alla comunità indigena in Ecuador dal 2018 al 2021, con un'enfasi sulle proteste di ottobre 2019. Il set di dati comprende milioni di tweet, fornendo una ricca fonte di informazioni su come il razzismo si esprime nei social media.
Esplorazione dei Dati di Twitter
I tweet sono stati raccolti utilizzando vari termini di ricerca legati alla comunità indigena. Questo approccio ha garantito una vasta gamma di contenuti, coprendo sia affermazioni razziste evidentemente che nascoste. L'obiettivo era catturare l'ampiezza del discorso riguardante la popolazione indigena.
Processo di Formazione
Per addestrare i modelli di apprendimento automatico, è stato creato un set di dati etichettato di tweet. Questo processo ha comportato la codifica dei tweet come evidentemente razzisti, esconditi razzisti o non razzisti, basandosi sulle definizioni stabilite in precedenza.
Creazione del Codice
È stato sviluppato un codice per guidare i codificatori nell'identificazione e etichettatura dei tweet in modo accurato. Conteneva definizioni, regole ed esempi per sia il razzismo evidente che per quello nascosto, garantendo coerenza nel processo di etichettatura. Il codice ha aiutato i codificatori a prendere decisioni informate quando trovavano testi ambigui.
Implementazione dell'Apprendimento Automatico
Con un set di dati solido e linee guida di codifica chiare, il passo successivo è addestrare modelli di apprendimento automatico. Il modello XLM-RoBERTa, noto per le sue capacità di comprendere il contesto, è stato scelto per questo compito.
Pre-addestramento del Modello
Il modello è stato ulteriormente pre-addestrato utilizzando un ampio corpus di tweet, focalizzandosi specificamente sulle espressioni di razzismo nel contesto ecuadoriano. Questo addestramento aggiuntivo mirava a migliorare la comprensione da parte del modello del linguaggio sfumato associato al razzismo nascosto e evidente.
Fine-Tuning del Modello
Una volta pre-addestrato, il modello è stato affinato per classificare i tweet in modo più accurato. Questo passaggio ha comportato l'aggiustamento degli iperparametri e l'utilizzo di una metodologia chiamata convalida incrociata per valutare le prestazioni. Affinando il modello, abbiamo mirato a migliorare la sua accuratezza nell'identificare diverse forme di discorso razzista.
Risultati e Analisi
Il modello addestrato è stato applicato ai tweet raccolti, producendo intuizioni sulla prevalenza di varie forme di discorso razzista. I risultati hanno indicato che il razzismo nascosto era più comune del razzismo evidente, allineandosi con le nostre aspettative basate sulle dinamiche sociali.
Razzismo Nascosto vs. Razzismo Evidente
L'analisi ha mostrato che mentre il razzismo evidente è meno frequentemente espresso a causa delle conseguenze sociali, il razzismo nascosto pervade le discussioni quotidiane. Questa scoperta sottolinea la necessità di una vigilanza continua nel riconoscere forme sottili di razzismo, che possono facilmente sfuggire all'attenzione.
Il Ruolo delle Figure Pubbliche
Si è scoperto che le figure pubbliche si impegnano meno in un linguaggio razzista evidente rispetto agli utenti normali. Questo comportamento è probabilmente influenzato dai costi sociali associati alle dichiarazioni pubbliche. Al contrario, il razzismo nascosto era più ampiamente accettato e appariva in tweet di vari tipi di utenti, comprese le persone in posizioni di influenza.
Implicazioni per Comprendere il Razzismo
I risultati di questo studio hanno significative implicazioni per comprendere le manifestazioni del razzismo nella società moderna. Utilizzando metodi avanzati per rilevare il linguaggio razzista, possiamo comprendere meglio come il razzismo opera ed evolve, in particolare nell'era digitale.
Affrontare il Razzismo nella Società
La capacità di identificare diverse forme di discorso razzista è essenziale per affrontare il razzismo all'interno della società. Riconoscendo il razzismo nascosto accanto a quello evidente, possono essere sviluppate iniziative per affrontare questi problemi in modo più efficace.
Conclusione
Questo articolo offre un approccio completo per classificare diverse forme di linguaggio razzista nei testi, in particolare sui social media. Concettualizzando il razzismo, contestualizzandolo, identificando il linguaggio e impiegando tecniche di apprendimento automatico, i ricercatori possono ottenere intuizioni inestimabili sulle dinamiche del razzismo nella società contemporanea. I risultati evidenziano la natura pervasiva del razzismo nascosto, il modo sfumato in cui interagisce con le gerarchie sociali e l'importanza degli sforzi continui per comprendere e combattere tutte le forme di razzismo.
Titolo: Machines Do See Color: A Guideline to Classify Different Forms of Racist Discourse in Large Corpora
Estratto: Current methods to identify and classify racist language in text rely on small-n qualitative approaches or large-n approaches focusing exclusively on overt forms of racist discourse. This article provides a step-by-step generalizable guideline to identify and classify different forms of racist discourse in large corpora. In our approach, we start by conceptualizing racism and its different manifestations. We then contextualize these racist manifestations to the time and place of interest, which allows researchers to identify their discursive form. Finally, we apply XLM-RoBERTa (XLM-R), a cross-lingual model for supervised text classification with a cutting-edge contextual understanding of text. We show that XLM-R and XLM-R-Racismo, our pretrained model, outperform other state-of-the-art approaches in classifying racism in large corpora. We illustrate our approach using a corpus of tweets relating to the Ecuadorian ind\'igena community between 2018 and 2021.
Autori: Diana Davila Gordillo, Joan Timoneda, Sebastian Vallejo Vera
Ultimo aggiornamento: 2024-01-20 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2401.09333
Fonte PDF: https://arxiv.org/pdf/2401.09333
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.