Nuovo strumento misura il pregiudizio contro le persone LGBTQ+ nei modelli di linguaggio
Quest'articolo esplora uno strumento di riferimento per valutare i bias nei modelli di linguaggio.
― 5 leggere min
Questo articolo parla di un nuovo strumento pensato per controllare se i grandi modelli di linguaggio (LLM) mostrano pregiudizi dannosi nei confronti delle persone LGBTQ+. Lo strumento è stato creato grazie ai feedback della Comunità LGBTQ+. La ricerca mostra che molti modelli di linguaggio popolari esprimono spesso opinioni negative su questa comunità. L'articolo descrive anche come questi pregiudizi possono essere ridotti regolando i modelli con dati provenienti da voci queer.
Contesto
Negli ultimi anni, si è posta attenzione all’equità nel modo in cui i computer elaborano il linguaggio. Molti studi hanno esaminato il Pregiudizio legato a tratti visibili come razza e genere. Tuttavia, i pregiudizi che colpiscono la comunità LGBTQ+ non hanno ricevuto la stessa attenzione. Spesso, le problematiche affrontate dalle persone LGBTQ+ vengono trascurate perché non si adattano facilmente a categorie nette. Inoltre, molti studi non riescono a collegare i pregiudizi che identificano al danno reale che causano.
La necessità di un Benchmark
La mancanza di strumenti adeguati per misurare il pregiudizio contro le persone LGBTQ+ nei modelli di linguaggio ha reso difficile capire l'estensione del problema. Il nuovo benchmark mira a identificare gli Stereotipi che sono particolarmente dannosi per vari gruppi all'interno della comunità LGBTQ+. È costruito direttamente dalle esperienze e preoccupazioni delle persone LGBTQ+, garantendo che sia rilevante e ancorato a questioni reali.
Indagine sulla comunità LGBTQ+
Per sviluppare questo benchmark, è stata condotta un'indagine con membri della comunità LGBTQ+. Ai partecipanti è stato chiesto quali tipi di pregiudizi e stereotipi incontrano e che gli causano danno. L'indagine è stata aperta a adulti di lingua inglese che si identificano come LGBTQ+. I partecipanti sono stati reclutati attraverso varie piattaforme, come liste email universitarie e canali social.
Creazione di un template per il benchmark
Il benchmark consiste in coppie di frasi pensate per rivelare pregiudizi. Ogni frase include uno stereotipo ed è confrontata con una frase corrispondente che usa un'identità non LGBTQ+. Questo aiuta a misurare come i modelli di linguaggio rispondono a dichiarazioni pregiudizievoli sulle persone LGBTQ+ rispetto a dichiarazioni simili su persone eterosessuali.
Composizione del benchmark
Il benchmark include migliaia di coppie di frasi, consentendo un'analisi dettagliata dei pregiudizi legati a diverse identità LGBTQ+. Ad esempio, copre le percezioni su uomini gay, lesbiche, persone transgender e non binarie. L'obiettivo è creare un'analisi ampia ma mirata su come i modelli di linguaggio gestiscono varie forme di pregiudizio.
Valutazione dei modelli
Il benchmark è stato applicato a diversi modelli di linguaggio popolari, tra cui BERT, RoBERTa e GPT-2. Tutti i modelli testati hanno mostrato gradi diversi di pregiudizio anti-LGBTQ+. Il punteggio medio tra i modelli ha rivelato che sono più propensi ad associarsi a stereotipi negativi con persone LGBTQ+ rispetto a individui eterosessuali. Per esempio, alcuni modelli erano particolarmente inclini a esprimere opinioni dannose su persone transgender.
Affinamento dei modelli di linguaggio
Per ridurre il pregiudizio in questi modelli di linguaggio, sono stati affinati usando due set di dati specifici: uno contenente articoli di notizie su questioni LGBTQ+ e un altro composto da tweet scritti da persone LGBTQ+. La regolazione di questi modelli ha portato a una diminuzione notevole del pregiudizio anti-LGBTQ+. In generale, l'affinamento sui tweet è stato più efficace rispetto agli articoli di notizie, suggerendo che il contributo diretto della comunità può essere uno strumento potente per migliorare le risposte dei modelli di linguaggio.
Risultati dello studio
I risultati hanno indicato che mentre tutti i modelli mostravano un certo livello di pregiudizio, alcuni gruppi all'interno della comunità LGBTQ+ affrontavano stereotipi più duri. Ad esempio, i pregiudizi contro persone non binarie e asessuali sono stati ridotti meno efficacemente attraverso l'affinamento del modello rispetto ai pregiudizi contro uomini gay e lesbiche. Queste scoperte evidenziano che, sebbene si possano fare progressi, sono necessari ulteriori sforzi per affrontare i pregiudizi in modo più sfumato.
Importanza del coinvolgimento della comunità
Questo studio sottolinea la necessità del coinvolgimento continuo della comunità LGBTQ+ nello sviluppo dei modelli di linguaggio. Il contributo delle persone queer è essenziale per creare strumenti che riflettano accuratamente le esperienze e le preoccupazioni dei gruppi emarginati. Questo coinvolgimento non solo assicura che i benchmark siano rilevanti, ma costruisce anche un ambiente di ricerca di supporto.
Limitazioni e aree di miglioramento
Sebbene il benchmark rappresenti un utile passo avanti, non è privo di difetti. Ad esempio, il campione dell'indagine non rappresenta perfettamente la diversità all'interno della comunità LGBTQ+. Alcuni gruppi demografici, come i giovani LGBTQ+ e i gruppi minoritari, sono sotto-rappresentati. Inoltre, le frasi utilizzate nel benchmark potrebbero non coprire ogni stereotipo dannoso.
Direzioni future
In futuro, i ricercatori possono perfezionare il benchmark includendo una gamma più ampia di identità ed esperienze. Gli studi futuri dovrebbero mirare a rappresentare più efficacemente le voci sotto-rappresentate. Inoltre, aggiornamenti continui del benchmark assicureranno che evolva insieme ai cambiamenti nel linguaggio e nella comprensione sociale delle identità LGBTQ+.
Conclusione
Il benchmark creato per misurare il pregiudizio anti-LGBTQ+ è uno strumento importante per capire e affrontare stereotipi dannosi nei modelli di linguaggio. Utilizzando il feedback della comunità, offre una riflessione più accurata delle problematiche affrontate dalle persone LGBTQ+. Con il continuo sviluppo della tecnologia, sono necessarie promozioni costanti per garantire che i modelli di linguaggio siano equi, inclusivi e benefici per tutti. L'impegno ad ascoltare e integrare le voci della comunità LGBTQ+ giocherà un ruolo cruciale in questo sforzo.
Titolo: WinoQueer: A Community-in-the-Loop Benchmark for Anti-LGBTQ+ Bias in Large Language Models
Estratto: We present WinoQueer: a benchmark specifically designed to measure whether large language models (LLMs) encode biases that are harmful to the LGBTQ+ community. The benchmark is community-sourced, via application of a novel method that generates a bias benchmark from a community survey. We apply our benchmark to several popular LLMs and find that off-the-shelf models generally do exhibit considerable anti-queer bias. Finally, we show that LLM bias against a marginalized community can be somewhat mitigated by finetuning on data written about or by members of that community, and that social media text written by community members is more effective than news text written about the community by non-members. Our method for community-in-the-loop benchmark development provides a blueprint for future researchers to develop community-driven, harms-grounded LLM benchmarks for other marginalized communities. Note: This version corrects a bug found in evaluation code after publication. General findings have not changed, but tables 5 and 6 and figure 1 have been corrected.
Autori: Virginia K. Felkner, Ho-Chun Herbert Chang, Eugene Jang, Jonathan May
Ultimo aggiornamento: 2024-10-17 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2306.15087
Fonte PDF: https://arxiv.org/pdf/2306.15087
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/katyfelkner/winoqueer
- https://www.kirbyconrod.com
- https://fivethirtyeight.com/features/there-are-922-unisex-names-in-america-is-yours-one-of-them/
- https://freedomforallamericans.org/legislative-tracker/anti-transgender-legislation/
- https://mediacloud.org