Pregiudizio di genere nei suggerimenti di carriera da parte dell'IA
Uno studio rivela un pregiudizio di genere nei suggerimenti di carriera di chatGPT per i bambini.
― 7 leggere min
Indice
I modelli di linguaggio di grandi dimensioni (LLM) come chatGPT stanno diventando una parte importante della nostra vita quotidiana. Aiutano con cose come chatbot, assistenza alla scrittura, aiuto nello studio e supporto alla programmazione. Tuttavia, ci sono preoccupazioni riguardo ai pregiudizi nel linguaggio che usano. Alcuni studi precedenti hanno dimostrato che gli LLM possono mostrare pregiudizi basati sul Genere quando suggeriscono professioni o descrivono persone. Questo è particolarmente preoccupante perché questi pregiudizi potrebbero influenzare come i bambini vedono le opzioni per il loro futuro lavoro.
Il focus di questo documento è esaminare i pregiudizi di genere negli LLM, specialmente in relazione ai percorsi educativi nelle STEM (Scienza, Tecnologia, Ingegneria e Matematica). Questo studio esplora come gli LLM come chatGPT suggeriscono opzioni di Carriera in base al nome di un bambino, che può implicare il genere. Esaminiamo i Suggerimenti in diversi contesti culturali ed educativi, in particolare nei paesi anglofoni, in Danimarca, Spagna e India. In ultima analisi, vogliamo vedere se gli LLM rinforzano gli stereotipi di genere quando suggeriscono cosa possono diventare i bambini da grandi.
Contesto
Dall'uscita di chatGPT da parte di OpenAI nel novembre 2022, l'Intelligenza Artificiale (AI) è diventata un tema caldo. La gente esprime sentimenti contrastanti riguardo all'AI. Mentre alcuni la vedono positivamente, altri temono che possa sostituire i lavori umani o invadere la privacy. Curiosamente, solo una piccola percentuale di persone si preoccupa dei pregiudizi nell'AI, anche se questi pregiudizi possono avere effetti significativi sulla società.
Questo studio mira a far luce sui pregiudizi in uno strumento AI ampiamente utilizzato, chatGPT, che ha milioni di utenti in tutto il mondo. Gli LLM come chatGPT sono già utilizzati in varie applicazioni, inclusi strumenti educativi. Tuttavia, è cruciale assicurarsi che questi strumenti siano equi e non rinforzino stereotipi dannosi.
Il linguaggio che usiamo può plasmare i nostri pensieri e credenze. Se i bambini sentono continuamente un linguaggio stereotipato di genere, potrebbero iniziare ad accettare questi stereotipi come realtà. La ricerca ha dimostrato che i bambini possono percepire i pregiudizi di genere fin da piccoli. Ci sono stati anche casi in cui le ragazze, pur performando altrettanto bene in matematica, credono di essere meno capaci dei ragazzi in questa materia. Questo studio sottolinea l'importanza per gli LLM di fornire suggerimenti privi di pregiudizi ed equi.
Focus della Ricerca
La domanda principale di questo studio è: "ChatGPT rinforza gli stereotipi di genere sulle scelte educative nelle STEM, e a che livello?" Vogliamo indagare questo analizzando come chatGPT suggerisce percorsi professionali per ragazzi e ragazze.
Ci concentreremo su bambini di età compresa tra 10 e 16 anni, un periodo in cui iniziano a prendere decisioni educative importanti. Il contesto culturale è significativo, quindi daremo un'occhiata a quattro contesti diversi: paesi anglofoni, Danimarca, Spagna e India. Questa diversità ci permette di vedere come le differenze culturali influenzano i suggerimenti forniti da chatGPT.
Metodologia
Comprendere e misurare i pregiudizi negli LLM può essere complicato. Non esiste un processo unico per identificare e valutare questi pregiudizi, come hanno dimostrato studi precedenti. La maggior parte degli LLM disponibili sono closed-source, il che limita la trasparenza sui loro funzionamenti interni. Per questo studio, utilizziamo una metodologia basata su esperienze di utenti reali e domande aperte.
Abbiamo chiesto a chatGPT di fornire un elenco di dieci possibili future professioni per nomi diversi, rappresentando nomi tipici per ragazzi e ragazze. Il numero di suggerimenti STEM è stato conteggiato e abbiamo confrontato questi risultati tra culture e gruppi di età.
Pregiudizio negli LLM
Il pregiudizio può assumere molte forme negli LLM, e questo studio si concentra sul pregiudizio di genere. Ricerche precedenti evidenziano come gli LLM riflettano spesso i pregiudizi sociali presenti nei dati su cui sono addestrati. Alcuni termini e ruoli, ad esempio, sono spesso descritti usando pronomi di genere. Gli LLM possono associare più frequentemente "lui" con lavori tecnici e "lei" con professioni di cura.
Origini del Pregiudizio
Ci sono molte ragioni per cui il pregiudizio appare negli LLM. Può derivare dagli algoritmi utilizzati, dai pregiudizi umani introdotti attraverso l'annotazione dei dati e dal modo in cui i dati sono progettati e scelti. Anche i dati di addestramento stessi sono un fattore importante. Se i dati contengono pregiudizi storici, il modello è probabile che erediti e riproduca questi pregiudizi nei suoi output.
Ad esempio, una parte significativa dei dati di addestramento proviene da fonti come Wikipedia, dove la rappresentanza delle donne e di altri gruppi emarginati è scarsa. Se la maggior parte degli editori è maschile, il contenuto che producono è probabile che rifletta le loro prospettive, il che può portare a output pregiudizievoli negli LLM.
Design Sperimentale
Per il nostro studio, abbiamo progettato un esperimento incentrato sulla domanda: "Cosa posso diventare quando crescerò?" L'input includeva un nome e un'età, e abbiamo chiesto a chatGPT una lista di dieci opzioni di carriera. Abbiamo scelto nomi comunemente associati a ragazzi e ragazze per vedere se i suggerimenti variavano in base al genere.
L'esperimento coinvolgeva diversi gruppi di età. Ad esempio, sono stati selezionati bambini di circa 10 e 15 anni, momenti critici per prendere decisioni educative. Ci siamo anche assicurati di utilizzare nomi che fossero familiari e tipici per ciascun genere nel rispettivo contesto culturale.
Metodi Statistici
Per analizzare i dati raccolti, abbiamo utilizzato un metodo chiamato Analisi della Varianza (ANOVA). Questa tecnica statistica ci aiuta a capire se ci sono differenze significative tra i gruppi-nel nostro caso, tra il numero di suggerimenti STEM forniti a ragazzi e ragazze.
Abbiamo anche implementato uno studio pilota per assicurarci che la nostra metodologia fosse solida prima di condurre l'esperimento principale. Lo studio pilota ha indicato grandi differenze di genere nel numero di suggerimenti STEM, il che ha aiutato a decidere le nostre dimensioni campionarie e confermare l'approccio corretto.
Risultati
I risultati del nostro studio hanno mostrato differenze notevoli nel numero di suggerimenti STEM fatti per ragazzi rispetto alle ragazze. In tutte e quattro le lingue esaminate, i ragazzi hanno ricevuto costantemente più opzioni di carriera legate alle STEM rispetto alle ragazze. Ad esempio, in inglese, i ragazzi hanno ricevuto una mediana di 3 suggerimenti STEM, mentre le ragazze ne hanno ricevuti 2.
Le differenze di genere erano particolarmente pronunciate tra i bambini più grandi, con i suggerimenti per carriere STEM che aumentavano con l'età. Tuttavia, nella maggior parte dei casi, le ragazze ricevevano meno suggerimenti STEM rispetto ai ragazzi a entrambi i livelli di età.
Discussione
I risultati suggeriscono che chatGPT rinforza effettivamente gli stereotipi di genere quando suggerisce future carriere. Questo è in linea con la ricerca esistente che mostra che i pregiudizi sono prevalenti negli LLM. Lo studio evidenzia come un'esposizione precoce a tali pregiudizi possa plasmare le credenze dei bambini sulle loro abilità e percorsi di carriera.
È importante ricordare che i suggerimenti forniti da chatGPT possono avere reali implicazioni su come i bambini vedono il loro futuro. Se gli stereotipi di genere persistono negli output di tali modelli, potrebbero portare a conseguenze a lungo termine, rinforzando le lacune esistenti tra i generi nei campi STEM.
Nella nostra analisi, abbiamo anche osservato come alcune occupazioni sembrassero più fortemente associate a un genere rispetto all'altro. Ad esempio, i campi creativi fornivano spesso più suggerimenti per le ragazze, mentre i ruoli tecnici erano inclini verso i ragazzi.
Lo studio ha anche trovato variazioni tra le diverse lingue. Ad esempio, sebbene la tendenza generale mostrasse i ragazzi ricevere più suggerimenti STEM, questo non era vero in modo universale. Nel contesto del catalano, le ragazze hanno ricevuto più suggerimenti nella categoria Scienza rispetto ai ragazzi, mostrando un modello di suggerimento più equilibrato in quel caso specifico.
Conclusione
Questo studio mette in evidenza importanti risultati riguardo al pregiudizio di genere nei suggerimenti forniti da chatGPT per future carriere nelle STEM. Conferma che ci sono differenze sostanziali nel numero di suggerimenti STEM fatti ai ragazzi rispetto alle ragazze, con i ragazzi che ricevono più opzioni in generale.
Le implicazioni di questi risultati sono significative, soprattutto considerando come i pregiudizi precoci possano influenzare l'autopercezione e le scelte dei bambini. Man mano che gli LLM continuano a essere integrati in strumenti e risorse educative, diventa imperativo garantire che queste tecnologie promuovano l'uguaglianza e non rinforzino stereotipi dannosi.
La ricerca continua in questo ambito è essenziale per monitorare e affrontare i pregiudizi nei modelli di linguaggio. Essendo consapevoli di questi pregiudizi e combattendoli attivamente, possiamo sostenere un futuro più equo e inclusivo per tutti i bambini, indipendentemente dal genere, nell'educazione STEM e oltre.
Titolo: Evaluation of Large Language Models: STEM education and Gender Stereotypes
Estratto: Large Language Models (LLMs) have an increasing impact on our lives with use cases such as chatbots, study support, coding support, ideation, writing assistance, and more. Previous studies have revealed linguistic biases in pronouns used to describe professions or adjectives used to describe men vs women. These issues have to some degree been addressed in updated LLM versions, at least to pass existing tests. However, biases may still be present in the models, and repeated use of gender stereotypical language may reinforce the underlying assumptions and are therefore important to examine further. This paper investigates gender biases in LLMs in relation to educational choices through an open-ended, true to user-case experimental design and a quantitative analysis. We investigate the biases in the context of four different cultures, languages, and educational systems (English/US/UK, Danish/DK, Catalan/ES, and Hindi/IN) for ages ranging from 10 to 16 years, corresponding to important educational transition points in the different countries. We find that there are significant and large differences in the ratio of STEM to non-STEM suggested education paths provided by chatGPT when using typical girl vs boy names to prompt lists of suggested things to become. There are generally fewer STEM suggestions in the Danish, Spanish, and Indian context compared to the English. We also find subtle differences in the suggested professions, which we categorise and report.
Autori: Smilla Due, Sneha Das, Marianne Andersen, Berta Plandolit López, Sniff Andersen Nexø, Line Clemmensen
Ultimo aggiornamento: 2024-06-14 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2406.10133
Fonte PDF: https://arxiv.org/pdf/2406.10133
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.