Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio# Computer e società

Modelli Linguistici ed Espressione di Genere Queer

Indagare su come i modelli di linguaggio trattano il linguaggio di genere non conforme online.

― 7 leggere min


Pregiudizi nei modelliPregiudizi nei modellilinguisticilinguaggio gender-queer online.Esaminare il trattamento ingiusto del
Indice

Molte persone usano i social media per esprimere se stesse e connettersi con gli altri. Però, alcune persone affrontano delle sfide per essere accettate e comprese, specialmente quelle che si identificano come gender-queer, transgender o non-binari. Questi gruppi spesso usano parole o frasi specifiche per descriversi, che a volte possono sembrare offensive o dannose per gli altri. Il modo in cui le piattaforme social monitorano e gestiscono i contenuti può influenzare se queste persone si sentono al sicuro nell'esprimersi online.

Recenti ricerche hanno dimostrato che le piattaforme social potrebbero segnare ingiustamente e rimuovere post da utenti transgender e non-binari, etichettandoli come dannosi. Questo studio esplora come i modelli linguistici, che sono sistemi usati per identificare il linguaggio dannoso, trattano il linguaggio degli individui gender-queer. In particolare, vogliamo capire se questi modelli riconoscono accuratamente quando vengono usati insulti o parole offensive in modo non dannoso da membri della comunità LGBTQ+.

Importanza degli Spazi Online

Le piattaforme online forniscono spazi vitali per le persone per esplorare la propria identità e trovare supporto. Per molti gender-queer, che spesso affrontano discriminazioni nella loro vita quotidiana, queste comunità online possono essere cruciali per la salute mentale e il benessere. Quando la Moderazione dei contenuti è fatta in modo efficace, può creare ambienti sicuri che proteggono gli utenti dalle molestie. Tuttavia, se i sistemi di moderazione sono difettosi, possono portare a esclusione o aumento della discriminazione contro le comunità emarginate.

Tradizionalmente, la moderazione dei contenuti si è basata su modelli informatici addestrati per identificare il linguaggio dannoso. Recentemente, sono stati impiegati modelli linguistici più grandi (LLM) per questo scopo perché possono considerare meglio il contesto nei messaggi. Nonostante questo progresso, ci sono evidenze che suggeriscono che questi sistemi automatizzati svantaggiano ancora le persone emarginate segnando erroneamente i loro contenuti come dannosi.

Il Ruolo dei Modelli Linguistici

I modelli linguistici sono sistemi progettati per analizzare e interpretare il linguaggio umano. Possono aiutare a identificare se un pezzo di testo è dannoso o tossico. Tuttavia, questi modelli sembrano avere difficoltà a riconoscere le espressioni e i dialetti unici usati dagli individui gender-queer. Il modo in cui questi individui si riappropriano dei termini derogatori può spesso essere frainteso dai sistemi automatizzati, portando a classificazioni errate.

Questo documento si concentra su come questi modelli linguistici gestiscono il linguaggio usato dagli individui gender-queer, in particolare riguardo agli insulti riappropriati. Gli insulti riappropriati sono termini che storicamente sono stati usati per denigrare un gruppo, ma ora vengono usati con orgoglio dai membri di quel gruppo per affermare la propria identità. Per esempio, parole come "queer" e "femboy" possono portare un senso di orgoglio all'interno delle comunità LGBTQ+, nonostante le loro origini derogatorie.

Creazione del Dataset

Per studiare questo problema, abbiamo creato un nuovo dataset composto da esempi in cui gli insulti riappropriati vengono usati in modo non derogatorio. Abbiamo raccolto oltre 100 esempi, permettendoci di indagare quanto bene i modelli linguistici classificano questi casi. Ogni esempio è stato valutato in base a se poteva essere visto come dannoso, tenendo conto del contesto e dell'identità della persona che usa il linguaggio.

Abbiamo poi valutato cinque diversi modelli linguistici per vedere quanto accuratamente potessero identificare il linguaggio dannoso quando fornito di un contesto aggiuntivo. L'obiettivo era capire se informazioni aggiuntive sul parlante potessero aiutare i modelli a comprendere meglio l'intento dietro le parole.

Risultati

La nostra analisi ha rivelato che i modelli linguistici spesso etichettano erroneamente i testi scritti da utenti gender-queer come dannosi. Infatti, in tutti i modelli testati, le prestazioni nel riconoscere correttamente i testi di questi individui erano molto basse. Questo indica che i modelli stavano sistematicamente segnalando il linguaggio non dannoso come tossico, il che potrebbe contribuire a una ulteriore emarginazione di queste comunità.

Anche quando i modelli erano avvisati che l'autore era un membro del gruppo preso di mira, le loro prestazioni non miglioravano molto. Questo mostra una tendenza pericolosa in cui i modelli linguistici non riescono ad adattarsi alle espressioni sfumate di identità e comunità che esistono nello spazio LGBTQ+.

L'importanza del Contesto

Comprendere il linguaggio richiede più che semplicemente riconoscere parole specifiche. Il contesto gioca un ruolo significativo in come il linguaggio viene interpretato. Quando una persona gender-queer usa un insulto per descrivere se stessa o le proprie esperienze, spesso lo fa in un modo che non è dannoso. Tuttavia, i modelli linguistici potrebbero non tenere conto della sfumatura e dell'intento dietro queste parole.

Molte piattaforme social attualmente usano sistemi basati su parole chiave per filtrare contenuti dannosi, il che può portare a classificazioni errate. Per esempio, se un modello vede un insulto in un tweet, potrebbe automaticamente etichettarlo come dannoso senza considerare il contesto in cui è stato usato. Questa dipendenza dalle parole chiave ignora la complessità del linguaggio umano e i significati ricchi dietro determinati termini all'interno di comunità specifiche.

Pregiudizio nella Moderazione dei Contenuti

I sistemi automatizzati di moderazione dei contenuti hanno dimostrato di mostrare pregiudizi contro le popolazioni emarginate. Le ricerche indicano che i contenuti pubblicati da individui transgender vengono spesso segnalati come tossici a tassi più alti rispetto ai post di altri demografici. Questo porta a far sì che le persone LGBTQ+ vengano zittite o escluse dagli spazi online che dovrebbero offrire supporto.

Inoltre, quando il linguaggio dannoso viene identificato in modo errato, alza le palizzate per l'espressione e la partecipazione individuale. Gli utenti possono sentirsi scoraggiati dal condividere i propri pensieri o esperienze, temendo che i loro post vengano fraintesi e rimossi. Questo rafforza sentimenti di alienazione e esclusione tra gli individui gender-queer.

Analisi del Linguaggio Dannoso

Determinare se un discorso è dannoso può essere soggettivo. Molti fattori possono influenzare come il discorso è percepito, inclusa l'identità del parlante, il contesto del discorso e il pubblico che lo riceve. Per combattere la soggettività nella classificazione del danno, i ricercatori hanno sviluppato quadri per considerare fattori come il gruppo target, l'esplicitezza dell'abuso e le intenzioni del parlante.

Nel nostro studio, abbiamo definito il linguaggio dannoso con criteri specifici. Per esempio, se un membro di un gruppo esterno usa un insulto in modo derogatorio o se qualcuno promuove il linguaggio d'odio contro una minoranza, verrebbe classificato come dannoso. D'altra parte, se un membro del gruppo preso di mira usa un insulto in modo da riappropriarsene, è meno probabile che venga considerato dannoso.

Uso del Linguaggio Gender-Queer

Il linguaggio all'interno delle comunità LGBTQ+ spesso evolve per riflettere le identità e le esperienze dei suoi membri. Per esempio, gli insulti che potrebbero essere dannosi se usati da non membri possono fungere da forma di empowerment quando utilizzati da individui all'interno di quelle comunità. Questo fenomeno è noto come riappropriazione linguistica.

Tuttavia, la maggior parte dei modelli linguistici non è stata addestrata per riconoscere le complessità di questo tipo di uso linguistico. Senza la capacità di differenziare tra linguaggio dannoso e riappropriato, questi modelli rischiano di disinformare e diseducare gli utenti. Quando le voci emarginate vengono zittite, questo può avere conseguenze ampie, allontanando ulteriormente questi gruppi da ambienti di supporto.

Conclusione

Questo studio enfatizza l'urgente bisogno di equità e inclusività nei sistemi di moderazione dei contenuti. Rivelando i pregiudizi presenti nei modelli linguistici, sottolineiamo l'importanza di considerare le voci delle persone emarginate nei tentativi di affinare questi sistemi.

Per migliorare le prestazioni dei modelli linguistici legati all'identificazione del linguaggio dannoso, è cruciale incorporare le prospettive di coloro che utilizzano regolarmente parole riappropriate. Coinvolgere i membri della comunità nel processo di addestramento di questi modelli potrebbe portare a sviluppi che promuovono comprensione e accettazione.

Mentre il linguaggio, l'identità e la comunità continuano a evolversi, anche i sistemi progettati per interpretare e gestire la nostra comunicazione devono farlo. Creare ambienti online inclusivi che rispettino e riconoscano le diverse espressioni degli individui gender-queer porterà infine a spazi online più sani e di supporto per tutti.

Sviluppando modelli e strumenti migliori che siano sensibili al contesto dell'uso del linguaggio, possiamo aprire la strada a un mondo digitale più equo e giusto, dove tutte le voci sono ascoltate e rispettate.

Fonte originale

Titolo: Harmful Speech Detection by Language Models Exhibits Gender-Queer Dialect Bias

Estratto: Content moderation on social media platforms shapes the dynamics of online discourse, influencing whose voices are amplified and whose are suppressed. Recent studies have raised concerns about the fairness of content moderation practices, particularly for aggressively flagging posts from transgender and non-binary individuals as toxic. In this study, we investigate the presence of bias in harmful speech classification of gender-queer dialect online, focusing specifically on the treatment of reclaimed slurs. We introduce a novel dataset, QueerReclaimLex, based on 109 curated templates exemplifying non-derogatory uses of LGBTQ+ slurs. Dataset instances are scored by gender-queer annotators for potential harm depending on additional context about speaker identity. We systematically evaluate the performance of five off-the-shelf language models in assessing the harm of these texts and explore the effectiveness of chain-of-thought prompting to teach large language models (LLMs) to leverage author identity context. We reveal a tendency for these models to inaccurately flag texts authored by gender-queer individuals as harmful. Strikingly, across all LLMs the performance is poorest for texts that show signs of being written by individuals targeted by the featured slur (F1

Autori: Rebecca Dorn, Lee Kezar, Fred Morstatter, Kristina Lerman

Ultimo aggiornamento: 2024-06-21 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2406.00020

Fonte PDF: https://arxiv.org/pdf/2406.00020

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili