Esaminare il bias di genere nei modelli linguistici e negli esseri umani
Uno studio rivela somiglianze nei pregiudizi di genere tra modelli linguistici e decisioni umane.
― 6 leggere min
Negli ultimi anni, i ricercatori hanno scoperto che i modelli linguistici spesso mostrano pregiudizi simili a quelli delle persone. Questo è particolarmente vero quando si parla di pregiudizi di genere che influenzano come i pronomi si riferiscono alle persone nelle frasi. L'obiettivo di questa ricerca è capire come questi pregiudizi nei modelli si confrontano con quelli negli esseri umani, in particolare nel contesto della risoluzione di coreferenza, dove un pronome deve riferirsi correttamente a un sostantivo in una frase.
Il Pregiudizio di genere nell'uso del linguaggio può derivare dalle norme sociali, portando sia gli esseri umani che i modelli linguistici a fare giudizi rapidi basati su queste norme. Gli umani, leggendo, possono essere influenzati da stereotipi, il che può portare a interpretazioni distorte delle frasi. Allo stesso modo, i modelli addestrati su grandi dataset possono assorbire questi pregiudizi e farvi affidamento per fare previsioni.
La domanda centrale a cui risponde questa ricerca è se i pregiudizi visti nei modelli linguistici riflettano il comportamento umano. Per esplorare questo, i ricercatori si sono rivolti alla teoria del doppio processo, un concetto della psicologia che descrive due sistemi di pensiero. Il primo sistema è veloce, automatico, e spesso porta a pregiudizi senza molta riflessione. Il secondo sistema è più lento, più riflessivo e può correggere i giudizi iniziali se c’è tempo per riflettere.
Per indagare queste idee, i ricercatori hanno condotto due esperimenti con partecipanti umani. Nel primo esperimento, hanno utilizzato compiti di lettura autogestita. I partecipanti leggevano frasi dove dovevano decidere rapidamente quale pronome si riferisse a quale sostantivo, un processo che imita la lettura naturale. Questo metodo permette ai ricercatori di capire le risposte rapide e automatiche che le persone danno.
Nel secondo esperimento, i partecipanti hanno risposto a domande dopo aver letto delle frasi. Questo compito richiedeva più riflessione consapevole e forniva spunti sul processo decisionale più lento e deliberato. I ricercatori hanno esaminato come le restrizioni di tempo influenzassero le risposte dei partecipanti, rivelando di più sull'influenza dei giudizi rapidi nei pregiudizi.
Da questi esperimenti, è emerso che gli esseri umani facevano decisioni leggermente più biased rispetto ai modelli nell'analizzare frasi del mondo reale. Tuttavia, con frasi sintetiche, che erano più controllate e meno variate, i modelli mostravano un pregiudizio maggiore. Questa disparità solleva domande su come diversi tipi di frasi influenzino il pregiudizio.
I ricercatori hanno categorizzato i pregiudizi in due aree principali. Da un lato ci sono gli artefatti di annotazione, che sono pregiudizi che esistono solo in specifici dataset di addestramento e non riflettono l'uso reale del linguaggio. Dall'altro lato ci sono i pregiudizi simili a quelli umani, che possono essere utili in alcuni contesti ma possono anche portare a risultati dannosi.
Per analizzare ulteriormente questi pregiudizi, i ricercatori hanno creato interfacce per annotazioni umane, consentendo loro di confrontare meglio le prestazioni di modelli e umani. In particolare, hanno esaminato come il pregiudizio di genere si manifesti nei compiti di risoluzione di coreferenza in inglese. Hanno scoperto che gli esseri umani tendono spesso verso interpretazioni stereotipate delle frasi, il che può portare a conclusioni distorte.
Lo studio si è concentrato su tre dataset progettati per identificare il pregiudizio di genere nella risoluzione di coreferenza. Questi includevano sia dati sintetici, composti da frasi con una struttura specifica, sia dati più naturali raccolti da fonti del mondo reale. I dati sintetici permettevano confronti controllati, mentre i dati naturali offrivano una riflessione più accurata su come le persone leggono e interpretano il linguaggio.
Utilizzando un metodo chiamato MAZE task, che richiede ai partecipanti di scegliere la parola successiva in una frase tra due opzioni, i ricercatori miravano a capire il tempo delle decisioni di lettura. Questo metodo di elaborazione incrementale offre spunti su quanto rapidamente ed efficacemente le persone possono risolvere i pronomi in base al contesto precedente.
Risultati Chiave dagli Esperimenti
Gli esperimenti hanno rivelato diversi risultati importanti riguardo il pregiudizio di genere sia negli esseri umani che nei modelli:
Pregiudizio Umano vs. Pregiudizio del Modello: Gli esseri umani mostrano una maggiore tendenza al pregiudizio di genere con frasi naturali rispetto a quelle sintetiche, indicando che la natura del contenuto può influenzare significativamente il pregiudizio. Per le frasi sintetiche, i modelli mostravano pregiudizi più forti.
Influenza delle Restrizioni Temporali: Man mano che i partecipanti avevano meno tempo per leggere le frasi, il loro pregiudizio di genere aumentava. Questo risultato sottolinea come il tempo di elaborazione limitato possa esacerbare i pregiudizi nel processo decisionale.
Tendenze nei Tempi di Risposta: La quantità di tempo impiegata dai partecipanti per prendere decisioni era correlata alla presenza di pregiudizio. Tempi di risposta più lunghi sono stati osservati quando dovevano distinguere i pronomi da distrattori, suggerendo che i giudizi rapidi possono portare a decisioni distorte.
Confronto degli Errori: Esaminando gli errori effettuati sia dagli esseri umani che dai modelli, si è notato che i modelli tendevano a sbagliare di più con professioni fortemente associate a un genere specifico. Al contrario, gli esseri umani hanno commesso errori in un'ampia gamma di professioni.
Differenze nelle Prestazioni: In generale, i modelli mostrano meno accuratezza su frasi del mondo reale, mentre gli esseri umani tendono a performare meglio, indicando che gli esseri umani possono fare affidamento su un ragionamento di buon senso più efficace in contesti naturali.
Conclusione
La ricerca contribuisce a comprendere come funzionano i pregiudizi sia nel processo decisionale umano che nei modelli linguistici. Le somiglianze trovate tra i due suggeriscono che i pregiudizi non sono solo insiti nei modelli linguistici, ma riflettono questioni sociali più ampie presenti nella cognizione umana.
Mentre i modelli linguistici sono addestrati su grandi dataset che possono contenere pregiudizi, gli individui che interpretano il linguaggio portano in gioco i propri pregiudizi. Comprendendo queste somiglianze, si possono adottare misure per ridurre i pregiudizi nei modelli linguistici, il che potrebbe portare a sistemi di elaborazione del linguaggio più equi e accurati.
La futura ricerca potrebbe ampliare questi risultati esaminando diverse lingue, esplorando dataset più diversificati e analizzando come i pregiudizi possano differire tra contesti culturali. Inoltre, valutare come incorporare funzionalità che mitigano questi pregiudizi nei modelli potrebbe migliorare l'equità nelle tecnologie di comprensione del linguaggio.
Implicazioni per il Futuro
L'esplorazione in corso del pregiudizio di genere nell'elaborazione del linguaggio è vitale, specialmente mentre i modelli diventano sempre più integrati in applicazioni quotidiane come chatbot, servizi di traduzione e generazione di contenuti. Riconoscere e affrontare i pregiudizi non solo migliorerà la funzionalità di questi sistemi, ma promuoverà anche un ambiente digitale più equo.
Comprendere i processi cognitivi che portano a pregiudizi, sia negli esseri umani che nelle macchine, può portare a un migliore design e addestramento dei modelli. Sottolinea l'importanza di considerare le implicazioni etiche nello sviluppo delle tecnologie di intelligenza artificiale.
Man mano che avanziamo verso sistemi più sofisticati, mantenere la consapevolezza di come i pregiudizi influenzino la comprensione del linguaggio sarà cruciale per garantire che l'intelligenza artificiale serva equamente ed efficacemente tutti gli utenti.
Titolo: Comparing Humans and Models on a Similar Scale: Towards Cognitive Gender Bias Evaluation in Coreference Resolution
Estratto: Spurious correlations were found to be an important factor explaining model performance in various NLP tasks (e.g., gender or racial artifacts), often considered to be ''shortcuts'' to the actual task. However, humans tend to similarly make quick (and sometimes wrong) predictions based on societal and cognitive presuppositions. In this work we address the question: can we quantify the extent to which model biases reflect human behaviour? Answering this question will help shed light on model performance and provide meaningful comparisons against humans. We approach this question through the lens of the dual-process theory for human decision-making. This theory differentiates between an automatic unconscious (and sometimes biased) ''fast system'' and a ''slow system'', which when triggered may revisit earlier automatic reactions. We make several observations from two crowdsourcing experiments of gender bias in coreference resolution, using self-paced reading to study the ''fast'' system, and question answering to study the ''slow'' system under a constrained time setting. On real-world data humans make $\sim$3\% more gender-biased decisions compared to models, while on synthetic data models are $\sim$12\% more biased.
Autori: Gili Lior, Gabriel Stanovsky
Ultimo aggiornamento: 2023-05-24 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2305.15389
Fonte PDF: https://arxiv.org/pdf/2305.15389
Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://www.unf.edu/lgbtqcenter/Pronouns.aspx
- https://www.bls.gov/cps/cpsaat11.htm
- https://leaderboard.allenai.org/
- https://github.com/addrummond/ibex
- https://about.citiprogram.org/course/human-subjects-research-social-behavioral-educational-sbe-refresher-1/
- https://github.com/julianmichael/qasrl-modeling
- https://arxiv.org/pdf/2111.07997.pdf
- https://aclanthology.org/2021.eacl-main.137.pdf
- https://brown.edu/Research/AI/files/pubs/wsdm18.pdf
- https://aclanthology.org/2022.cmcl-1.9/
- https://github.com/SLAB-NLP/Cog-GB-Eval
- https://github.com/yuvalkirstain/s2e-coref
- https://anvil.works/
- https://link.springer.com/chapter/10.1007/978-981-10-7563-6_53
- https://www.latex-project.org/help/documentation/encguide.pdf