Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio# Intelligenza artificiale

Rilevare la Misoginia nel Linguaggio dei Social Media Italiani

Uno studio su come identificare il linguaggio misogino tramite parole peggiorative nei tweet.

― 8 leggere min


Misoginia nei TweetMisoginia nei Tweetitalianipeggiorativo che colpisce le donne.Nuovo studio rivela linguaggio
Indice

La misoginia spesso si manifesta attraverso un linguaggio offensivo, rendendo importante trovare modi per rilevarla sui social media. Molti termini neutri possono avere significati negativi quando usati come insulti. Capire il significato di queste parole è fondamentale per individuare il linguaggio misogino. Per aiutare con questo, presentiamo una nuova raccolta di 1.200 tweet italiani che sono stati accuratamente etichettati per mostrare sia il linguaggio offensivo sia il contenuto misogino.

Linguaggio Pejorativo

Il linguaggio pejorativo si riferisce a parole o frasi che possono sminuire o insultare qualcuno. Ad esempio, alcune parole possono sembrare innocue ma possono assumere un significato negativo in base a come vengono utilizzate. Alcuni termini possono fare riferimento sia a idee neutre che a tratti negativi. Il modo in cui questi termini cambiano significato dipende dal loro contesto. Questo cambiamento di significato è noto come pejorazione.

Al contrario, la meliorazione è quando un termine che inizialmente è negativo alla fine assume un significato neutro o positivo. Ad esempio, alcuni insulti possono essere ripresi dai gruppi a cui erano stati rivolti, cambiando il loro impatto nel tempo.

I termini pejorativi sono particolarmente rilevanti quando si cerca segni di misoginia, poiché molte parole innocue vengono spesso usate per insultare le donne, concentrandosi sul loro aspetto o intelligenza. Chiamiamo questi termini dannosi "epiteti pejorativi." Esempi in italiano includono "balena" che significa sia "whale" ed è usato per insultare donne sovrappeso, e "gallina," che significa "chicken" ma può implicare stupidità.

I modelli di linguaggio moderni fanno fatica a identificare accuratamente il linguaggio misogino quando le frasi includono questi termini insidiosi. Quando parole che possono significare più cose sono presenti nei dati di addestramento ma non in quelli di test, si verificano molti errori di classificazione.

Per migliorare la rilevazione del linguaggio misogino, proponiamo di disambiguare prima i termini pejorativi. Il nostro obiettivo è scoprire se chiarire termini potenzialmente offensivi può portare a una migliore identificazione del linguaggio misogino riducendo anche gli errori.

Domande di Ricerca e Metodologia

Per affrontare i nostri obiettivi, ci concentriamo su tre domande principali:

  1. Quali parole pejorative sono comunemente usate contro le donne online?
  2. Possiamo migliorare i modelli per identificare se le parole nei tweet sono usate in modo negativo o neutro?
  3. Quanto bene i modelli di linguaggio comprendono le parole pejorative nel contesto?

Per affrontare la prima domanda, creiamo un elenco di termini offensivi usati per colpire le donne. Questo ci aiuta a raccogliere tweet che contengono queste parole, che poi usiamo per costruire la nostra raccolta di 1.200 tweet.

Per la seconda domanda, perfezioniamo due modelli basati su BERT, un modello di comprensione del linguaggio popolare. Il primo modello determina se una parola in un tweet è usata in modo negativo o neutro, mentre il secondo modello rileva la misoginia. I risultati del primo modello aiutano a informare il secondo riguardo alla natura delle parole utilizzate.

In risposta alla terza domanda, analizziamo quanto bene i modelli di linguaggio più grandi comprendano questi termini pejorativi usando i loro schemi di parole nel contesto.

Compilazione del Corpus

Per raccogliere le parole pejorative usate contro le donne nelle comunità online italiane, seguiamo due passaggi principali:

  1. Creare un Lessico: Raccogliamo un elenco di parole da diverse fonti, incluso il contributo di madrelingua che usano regolarmente i social media, e database esistenti di termini offensivi. L'attenzione è rivolta a parole polisemic-quelle con significati sia neutri che negativi.

  2. Recuperare Tweet: Usando l'elenco compilato, raccogliamo tweet che includono questi termini pejorativi. Per la nostra raccolta, miriamo a una miscela equilibrata di tweet che usano queste parole sia in modi neutri che offensivi.

Per garantire la qualità delle nostre scelte lessicali, verifichiamo manualmente che queste parole possano essere usate in entrambi i modi cercandole su Twitter. Di conseguenza, arriviamo a un elenco finale di 24 parole che hanno questo uso duale.

Annotazione dei Dati

Per etichettare il nostro dataset secondo i significati delle parole e la rilevazione della misoginia, coinvolgiamo sei annotatori con competenze in vari campi. Inizialmente, conduciamo uno studio pilota per esplorare le sfide nell'etichettatura e controllare le differenze di prospettive tra annotatori maschi e femmine.

L'annotazione segue un approccio flessibile, consentendo giudizi personali senza linee guida rigide. Ogni annotatore esamina 50 tweet. La coerenza delle etichette viene successivamente misurata usando uno strumento di analisi statistica, mostrando un accordo moderato tra il gruppo.

Grazie ai feedback ricevuti dagli annotatori, identifichiamo diverse aree chiave di dibattito:

  1. Mancanza di Contesto: Alcuni tweet sono troppo brevi, rendendo poco chiaro l'intento dell'autore. Etichettiamo questi come neutri quando il significato non può essere determinato.

  2. Complimenti Oggettivanti: Alcuni tweet potrebbero sembrare complimentari in superficie ma sono in realtà oggettivanti. Li classifichiamo come pejorativi.

  3. Uso verso Oggetti: Un termine usato negativamente per un oggetto inanimato non lo rende automaticamente pejorativo. Etichettiamo questi come neutri.

  4. Termini Pejorativi contro Uomini: Parole usate per insultare gli uomini dovrebbero essere etichettate come pejorative, anche se non riguardano l'oggetto principale dello studio.

  5. Discorso Riportato: Se un termine pejorativo è usato in un discorso riportato, può comunque qualificarsi come negativo nonostante il contesto generale sia neutro. Li categorizziamo come pejorativi.

Dopo gli studi pilota, annotiamo la nostra raccolta di 1.200 tweet. Per garantire accuratezza, un annotatore si occupa di questo compito, assicurando coerenza nel dataset. La correlazione finale tra misoginia e etichette pejorative mostra un legame significativo-molti tweet contenenti parole pejorative vengono anche identificati come misogini.

Metodologia per Rilevare la Misoginia

Per valutare l'efficacia del nostro approccio, utilizziamo un modello BERT popolare chiamato AlBERTo. Lo perfezioniamo per eseguire disambiguazione delle parole pejorative e rilevazione della misoginia.

Il compito di disambiguazione implica identificare se una parola in una frase è pejorativa o neutra. Questa classificazione aiuta ad arricchire l'input per il modello di rilevazione della misoginia. Esploriamo due metodi per farlo:

  1. Concatenazione: Aggiungere informazioni su se le parole sono pejorative alla fine dei tweet.
  2. Sostituzione: Sostituire termini ambigui con i loro equivalenti chiari e univoci.

Eseguiamo esperimenti sul nostro dataset e su dataset di riferimento, cercando miglioramenti nella precisione della classificazione.

Risultati e Valutazione

I risultati dei nostri esperimenti dimostrano che la disambiguazione delle parole pejorative migliora notevolmente la rilevazione del linguaggio misogino. Entrambi i metodi provati-concatenazione e sostituzione-mostrano miglioramenti evidenti nelle prestazioni del modello.

Analizziamo anche i tassi di falsi positivi, osservando quante volte il modello etichetta erroneamente tweet neutri come misogini. Dopo aver applicato la nostra disambiguazione delle parole pejorative, notiamo una considerevole diminuzione dei falsi positivi, specialmente nel nostro set di test.

Sebbene vediamo guadagni nei nostri risultati, l'impatto su dataset di riferimento più vecchi è più limitato a causa del loro numero inferiore di esempi pejorativi. Questo suggerisce che il nostro approccio funziona meglio quando il set di addestramento include una buona miscela di usi pejorativi e neutri.

Analisi Qualitativa degli Errori

Per capire meglio dove i nostri modelli faticano, esaminiamo manualmente i tweet classificati erroneamente in diversi contesti.

Nei casi in cui è presente misoginia riportata, i modelli spesso hanno difficoltà a riconoscere l'intento dietro un termine pejorativo usato in un contesto di condanna. Inoltre, quando i termini pejorativi sono rivolti agli uomini, queste istanze sono talvolta erroneamente classificate come misogine.

Analisi delle Embeddings delle Parole

Per analizzare quanto bene il nostro modello apprende i significati delle parole pejorative, estraiamo e studiamo le embeddings delle parole utilizzate. Queste embeddings aiutano a rappresentare quanto siano correlati nel significato le parole.

Guardiamo specificamente alla somiglianza media tra i nostri termini pejorativi e le loro parole ancore neutre o negative. I risultati mostrano una chiara distinzione su quanto bene il modello catturi il contesto dopo il fine-tuning-indicando che ha effettivamente imparato a comprendere meglio il significato dietro queste parole.

Analisi dei Modelli di Linguaggio

Per indagare ulteriormente la comprensione dei termini pejorativi, sollecitiamo modelli di linguaggio ampi e popolari a chiarire i significati di queste parole nel contesto senza alcun addestramento precedente.

Tre modelli open-source vengono testati, e troviamo che mentre un modello si comporta bene nel comprendere sottili variazioni di significato, altri lottano significativamente e spesso forniscono risposte generiche che non chiariscono efficacemente i termini.

Questo rivela un divario su quanto bene questi modelli comprendano significati sfumati, suggerendo che ulteriori sviluppi e addestramenti potrebbero portare a risultati migliori.

Conclusione

Abbiamo introdotto un metodo per disambiguare le parole pejorative come primo passo nella rilevazione di misoginia nei tweet. Costruendo una raccolta completa di parole polisemiche e un nuovo dataset di tweet, abbiamo dimostrato che chiarire i significati delle parole può migliorare gli sforzi di rilevamento.

Gli esperimenti evidenziano la capacità del nostro modello di ridurre i tassi di classificazione errata, e la nostra analisi delle embeddings delle parole illustra un miglioramento della comprensione dei significati sfumati dopo il fine-tuning.

Infine, abbiamo scoperto che altri modelli di linguaggio hanno margini di miglioramento quando si tratta di disambiguare termini pejorativi. Futuri sforzi potrebbero includere l'espansione di questo lavoro a più lingue e culture, il che consentirebbe una prospettiva più ampia su come il linguaggio plasmi le percezioni di genere.

Considerazioni Etiche

Ci siamo assicurati di rispettare le linee guida di Twitter per l'uso dei dati mentre raccoglievamo il nostro dataset da tweet pubblicamente disponibili. L'anonimato delle persone menzionate nel nostro lavoro è rigorosamente mantenuto.

Sebbene la nostra ricerca si concentri sulla lingua italiana, i risultati suggeriscono la possibilità di estendere questo approccio a più lingue. Questo fornirebbe ulteriori spunti sull'uso dei termini pejorativi e le loro implicazioni in diversi contesti culturali.

Anche se le nostre scoperte sono preziose, riconosciamo i limiti della prospettiva di un singolo annotatore e le sfide introdotte dalle sostituzioni delle parole che potrebbero non avere sempre lo stesso significato.

Mentre procediamo, incorporare una gamma più ampia di modelli e affrontare i limiti precedentemente menzionati rafforzerà la nostra comprensione del linguaggio nel contesto della rilevazione della misoginia.

Fonte originale

Titolo: PejorativITy: Disambiguating Pejorative Epithets to Improve Misogyny Detection in Italian Tweets

Estratto: Misogyny is often expressed through figurative language. Some neutral words can assume a negative connotation when functioning as pejorative epithets. Disambiguating the meaning of such terms might help the detection of misogyny. In order to address such task, we present PejorativITy, a novel corpus of 1,200 manually annotated Italian tweets for pejorative language at the word level and misogyny at the sentence level. We evaluate the impact of injecting information about disambiguated words into a model targeting misogyny detection. In particular, we explore two different approaches for injection: concatenation of pejorative information and substitution of ambiguous words with univocal terms. Our experimental results, both on our corpus and on two popular benchmarks on Italian tweets, show that both approaches lead to a major classification improvement, indicating that word sense disambiguation is a promising preliminary step for misogyny detection. Furthermore, we investigate LLMs' understanding of pejorative epithets by means of contextual word embeddings analysis and prompting.

Autori: Arianna Muti, Federico Ruggeri, Cagri Toraman, Lorenzo Musetti, Samuel Algherini, Silvia Ronchi, Gianmarco Saretto, Caterina Zapparoli, Alberto Barrón-Cedeño

Ultimo aggiornamento: 2024-04-03 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2404.02681

Fonte PDF: https://arxiv.org/pdf/2404.02681

Licenza: https://creativecommons.org/licenses/by-sa/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili