Rilevare l'odio su Parler: Uno studio
Questo documento esamina il rilevamento del discorso d'odio e l'identificazione degli obiettivi su Parler.
― 7 leggere min
Indice
I social network online fanno ormai parte della nostra vita quotidiana, ma creano anche uno spazio in cui l'odio può prosperare. Alcuni social network dicono di sostenere la libertà di parola, il che può portare a un aumento dei contenuti odiati. Questo documento parla di un metodo per rilevare il discorso d'odio e identificare i gruppi colpiti su una piattaforma chiamata Parler. Il nostro approccio utilizza due modelli principali: uno per rilevare il discorso d'odio e l'altro per classificare i bersagli di quel discorso.
Il Problema del Discorso d'Odio
Il discorso d'odio si riferisce a dichiarazioni negative rivolte a gruppi minoritari, spesso basate su razza, religione, orientamento sessuale o altre caratteristiche. Molte piattaforme online hanno regole contro questo tipo di contenuto, ma alcuni utenti trovano comunque modi per esprimere odio. In questo studio, ci concentriamo su quattro gruppi minoritari chiave: persone di colore, musulmani, ebrei e la comunità LGBT. Il nostro obiettivo è capire meglio la distribuzione del discorso d'odio rivolto a questi gruppi su Parler.
Ricerca Correlata
La ricerca sulla rilevazione del discorso d'odio è cresciuta negli ultimi anni. Molti studi hanno cercato di distinguere tra il discorso d'odio e altre forme di linguaggio offensivo. Alcuni ricercatori hanno sviluppato metodi di machine learning per identificare il discorso d'odio nei post sui social media. Vari studi hanno prodotto risultati diversi, spesso rivelando la complessità nel pinpointare il discorso d'odio e i suoi bersagli.
Uno studio significativo ha esaminato i post sui social media in Indonesia e ha scoperto che, sebbene la rilevazione del discorso d'odio fosse abbastanza efficace, identificare i bersagli specifici fosse meno efficace. Un altro sforzo di ricerca ha utilizzato metafore odiose come indizi per migliorare l'identificazione dei tipi di discorso d'odio e dei bersagli. Altri dataset focalizzati sul linguaggio offensivo sono stati creati per aiutare i ricercatori nei loro studi.
Dataset Utilizzati
Per la nostra ricerca, ci servivano diversi dataset per l'addestramento e il collaudo. Abbiamo usato un dataset annotato di Parler per rilevare il discorso d'odio, insieme a due altri dataset, HateXplain e Dialoconan, per identificare i bersagli. Inoltre, abbiamo creato un nuovo dataset chiamato Target Annotated Parler (TAP) per valutare il nostro modello di classificazione dei bersagli.
Dataset Annotato di Parler
Il dataset annotato di Parler consiste in oltre 10.000 post, ognuno etichettato per il discorso d'odio su una scala da 1 a 5. Un punteggio sopra 3 indica il discorso d'odio. In questo dataset, circa il 32% dei post è stato classificato come discorso d'odio, concentrandosi principalmente su contenuti politici.
Target Annotated Parler (TAP)
Per il dataset TAP, abbiamo annotato 276 post categorizzandoli in sei gruppi: Ebraico, Islam, Omosessuale, Africano, Politico e Altro. Questo aiuta a separare il discorso d'odio diretto ai minoritari da altri tipi di contenuto negativo. La maggior parte dell'odio identificato era rivolto ai musulmani, seguiti dalle persone di origine africana, dagli ebrei e poi dalla comunità LGBT.
Dataset HateXplain
Il dataset HateXplain contiene circa 20.000 post provenienti da piattaforme come Twitter e Gab. Questo dataset si concentra principalmente sul discorso d'odio contro gli stessi gruppi minoritari che stiamo studiando. Ogni post è stato etichettato più volte per garantire accuratezza.
Dataset Dialoconan
Il dataset Dialoconan include conversazioni tra odiatori online e operatori di ONG. Questo dataset presenta dialoghi che coprono vari bersagli del discorso d'odio, fornendo spunti sui modelli di odio.
Dataset Toxigen
Il dataset Toxigen consiste in oltre 270.000 dichiarazioni etichettate come tossiche o benigne, coprendo 13 gruppi minoritari. Questo dataset è stato generato utilizzando un grande modello di linguaggio, consentendo una vasta gamma di esempi.
Preparazione dei Dati
Prima di addestrare i nostri modelli, era necessario pulire e standardizzare i dati. Questo passaggio è fondamentale per garantire la qualità dell'input per i modelli. Abbiamo rimosso post non in inglese, convertito il testo in minuscolo, sostituito menzioni e URL con segnaposto, e assicurato che caratteri speciali e contrazioni fossero formattati correttamente.
Il Nostro Approccio
Abbiamo sviluppato un processo in due fasi per rilevare il discorso d'odio e identificare i suoi bersagli. Prima, abbiamo utilizzato un modello per determinare se un post contiene discorso d'odio. Se lo fa, un secondo modello viene impiegato per classificare il bersaglio di quel discorso d'odio.
Rilevazione del Discorso d'Odio
Abbiamo affinato un modello BERT per la rilevazione del discorso d'odio utilizzando il dataset annotato di Parler. Abbiamo stabilito una soglia che classifica i post con un punteggio superiore a un certo livello come discorso d'odio. Per gestire lo squilibrio di classe, abbiamo utilizzato una funzione di perdita pesata, dando più importanza alla classe meno comune (discorso d'odio).
Classificazione dei Bersagli
La seconda parte del nostro processo ha coinvolto l'affinamento di un altro modello BERT per identificare i bersagli del discorso d'odio. Ci siamo concentrati sugli stessi quattro gruppi minoritari e abbiamo utilizzato dataset aggiuntivi per l'addestramento. Abbiamo anche combinato informazioni sui temi con i dati di input per migliorare la comprensione del contesto del discorso d'odio da parte del modello.
Miglioramento delle Prestazioni del Modello
I nostri modelli hanno mostrato segni di overfitting, il che significa che funzionavano bene sui dati di addestramento ma male su dati nuovi. Per contrastare questo, abbiamo utilizzato varie tecniche come pulizia dei dati, normalizzazione e aumento dei dati.
Abbiamo scoperto che aggiungere informazioni sui temi ai dati di input migliorava la capacità dei modelli di classificare il discorso d'odio. Per farlo, abbiamo impiegato un metodo chiamato BERTopic per identificare i temi chiave.
Inoltre, abbiamo usato una tecnica chiamata back translation, in cui traduciamo i post in diverse lingue e poi li traduciamo di nuovo in inglese. Questo ha aiutato a introdurre più varietà nei dati di addestramento.
Risultati
Rilevazione del Discorso d'Odio
Abbiamo addestrato il nostro modello di discorso d'odio usando una suddivisione 80:20 tra addestramento e test sul dataset annotato di Parler. Utilizzando una GPU potente, abbiamo testato diverse configurazioni del modello. Il miglior risultato, con un'alta accuratezza del 89%, è arrivato da un modello a soglia specifica.
Rilevazione dei Bersagli
Per la rilevazione dei bersagli, abbiamo utilizzato il dataset HateXplain per addestrare il nostro secondo modello. Ottimizzando i parametri del modello BERTopic, abbiamo identificato temi significativi che si allineavano con le etichette nei dati.
Anche se i nostri modelli di solito hanno dato buoni risultati, abbiamo anche condotto valutazioni dettagliate per assicurarci che stessero apprendendo in modo efficace. Abbiamo esaminato i casi in cui i modelli hanno avuto successo e dove hanno fallito per fornire spunti sui loro processi decisionali.
Spiegabilità del Modello
Per capire meglio i nostri modelli, abbiamo implementato tecniche per spiegare le decisioni fatte dai modelli. Ad esempio, abbiamo utilizzato l'algoritmo LIME per valutare come i modelli sono giunti alle loro conclusioni. Questo aiuta a confermare se i modelli si concentrano sulle parti rilevanti dei dati di input.
Conclusione e Lavori Futuri
In sintesi, abbiamo sviluppato un sistema per rilevare il discorso d'odio e identificare i bersagli all'interno dei post su Parler. I nostri due modelli basati su BERT hanno mostrato risultati promettenti, e abbiamo introdotto un nuovo dataset annotato per migliorare le nostre valutazioni.
I nostri risultati indicano che circa il 17% dei post su Parler contiene discorso d'odio, principalmente indirizzato a persone di origine africana. Questo solleva importanti questioni etiche riguardo alla natura delle discussioni su queste piattaforme e ai demografici dei loro utenti.
Guardando al futuro, prevediamo di affinare ulteriormente i nostri modelli, applicarli a dataset più grandi e esplorare tecniche non supervisionate per scoprire nuove intuizioni sul discorso d'odio online.
Titolo: Hate Speech Targets Detection in Parler using BERT
Estratto: Online social networks have become a fundamental component of our everyday life. Unfortunately, these platforms are also a stage for hate speech. Popular social networks have regularized rules against hate speech. Consequently, social networks like Parler and Gab advocating and claiming to be free speech platforms have evolved. These platforms have become a district for hate speech against diverse targets. We present in our paper a pipeline for detecting hate speech and its targets and use it for creating Parler hate targets' distribution. The pipeline consists of two models; one for hate speech detection and the second for target classification, both based on BERT with Back-Translation and data pre-processing for improved results. The source code used in this work, as well as other relevant sources, are available at: https://github.com/NadavSc/HateRecognition.git
Autori: Nadav Schneider, Shimon Shouei, Saleem Ghantous, Elad Feldman
Ultimo aggiornamento: 2023-04-03 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2304.01179
Fonte PDF: https://arxiv.org/pdf/2304.01179
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.