Évaluer les biais dans les pratiques de recrutement de l'IA
Des recherches montrent qu'il y a des biais dans les outils d'IA utilisés pour le recrutement en fonction de la race et du genre.
― 8 min lire
Table des matières
- Les Études
- Étude 1 : Évaluation de CV
- Étude 2 : Génération de CV
- Recherches Précédentes sur les Biais
- Le Contexte Juridique
- Résultats Clés
- Résultats de l'Étude 1
- Résultats de l'Étude 2
- Implications des Biais dans l'Embauche
- Exploration des Sources de Biais
- Recommandations pour Travaux Futurs
- Conclusion
- Source originale
- Liens de référence
Les grands modèles de langage (LLMs) deviennent de plus en plus courants dans les lieux de travail, avec l'objectif de rendre les tâches plus rapides et plus équitables. Cependant, il y a des inquiétudes quant à la possibilité que ces modèles reflètent ou aggravent les Biais sociaux et les stéréotypes. Cet article examine comment les LLMs pourraient affecter les pratiques de Recrutement en vérifiant un modèle bien connu, le GPT-3.5 d'OpenAI, pour des biais basés sur la race et le genre.
Les Études
CV
Étude 1 : Évaluation deDans la première partie de la recherche, on voulait voir comment le GPT-3.5 notait différents CV. On a créé des CV qui étaient identiques sauf pour les noms, qui suggéraient différentes races et Genres. On a testé 32 noms (quatre noms pour chaque combinaison de race et de genre) et demandé à GPT de noter ces CV de trois manières différentes : note globale, volonté d’interview et volonté d’embaucher.
On a découvert que le modèle reflétait certains biais. Par exemple, les CV avec des noms qui suggéraient des femmes ou des personnes de couleur recevaient souvent des notes inférieures par rapport aux CV avec des noms suggérant des hommes blancs. C'est particulièrement préoccupant car GPT devrait idéalement traiter tous les CV de manière égale.
Étude 2 : Génération de CV
Dans la deuxième partie, on a voulu voir si GPT montrait des biais en créant des CV. On a demandé à GPT d'écrire des CV basés sur les mêmes noms utilisés dans la première étude. Chaque nom a reçu dix CV différents. On a ensuite regardé des aspects comme les années d'expérience, le niveau de poste et les signes qui pourraient suggérer que le candidat était un immigrant.
De cela, on a remarqué que les CV des femmes indiquaient souvent moins d'expérience de travail et un niveau de poste inférieur par rapport à ceux des hommes. Par exemple, les noms de femmes entraînaient souvent des rôles nécessitant moins d'expérience. En plus, les noms asiatiques et hispaniques étaient fréquemment accompagnés de marqueurs suggérant que la personne était un immigrant, comme des compétences en anglais non natives ou une éducation à l'étranger. En revanche, les CV pour les noms noirs et blancs ne montraient pas ces marqueurs.
Recherches Précédentes sur les Biais
Les audits de biais ont été utilisés pendant de nombreuses années pour enquêter sur des problèmes liés à l'identité, surtout dans les contextes d'embauche. Historiquement, les audits ont porté sur divers attributs comme la race, le genre, l'âge, et plus encore. Cette recherche a montré des motifs de discrimination constants dans les pratiques d'embauche au fil du temps.
Avec la croissance des systèmes automatisés, les chercheurs ont commencé à appliquer ces méthodes aux audits d'algorithmes. Cela signifie étudier comment les systèmes algorithmiques pourraient contribuer à des biais dans des domaines comme la curation de nouvelles, la tarification, et même les décisions d'embauche. Diverses études ont révélé que les algorithmes apprennent souvent des biais à partir des données sur lesquelles ils sont formés, ce qui peut entraîner un traitement injuste de certains groupes.
Le Contexte Juridique
L'utilisation d'outils automatisés dans le recrutement a également soulevé des questions juridiques. Dans de nombreux endroits, les employeurs sont interdits de prendre des décisions d'embauche basées sur la race, le genre ou d'autres catégories protégées. Il existe des lois dans certaines régions, comme la Loi Locale 144 de New York, qui obligent les employeurs à démontrer que leurs outils d'embauche automatisés ne présentent pas de biais.
Étant donné la dépendance croissante aux LLMs dans le recrutement, il est vital d'examiner si ces modèles perpétuent ou créent de nouveaux biais. Nos études répondent à deux questions importantes : ces modèles montrent-ils des biais de race et de genre lors de l'évaluation des CV ? Et révèlent-ils des biais latents lors de la génération de CV ?
Résultats Clés
Résultats de l'Étude 1
Dans notre première étude, on a constaté que les scores de GPT variaient en fonction des noms attachés aux CV. Les CV avec des noms typiques pour les femmes ou les personnes de couleur avaient souvent des scores plus bas. Par exemple, les noms blancs étaient systématiquement notés plus haut que les noms asiatiques, noirs ou hispaniques. Cela suggère que le modèle porte des biais existants dans ses évaluations.
De plus, les scores étaient influencés par la représentation féminine dans des professions spécifiques. Dans les domaines dominés par les hommes, les CV avec des noms de femmes avaient des scores encore plus bas. Cela signifie que le contexte de chaque emploi joue un rôle dans la manière dont les candidats sont évalués.
Résultats de l'Étude 2
Dans la deuxième étude axée sur la génération de CV, on a trouvé des preuves encore plus frappantes de biais. Les CV créés pour les femmes indiquaient souvent moins d'expérience de travail et étaient assignés à des postes moins élevés par rapport à ceux pour les hommes. Les CV pour les noms asiatiques et hispaniques mentionnaient fréquemment des langues et des expériences qui suggéraient que le candidat était un immigrant, même lorsque cela n'était pas suggéré.
Fait intéressant, on a vu que tous les CV générés par GPT avaient un diplôme de licence comme leur niveau d'éducation le plus élevé, avec des années de diplôme récentes. Ce schéma reflète probablement un biais en faveur des candidats plus jeunes. Aucune preuve n’a pointé vers un biais lié à la maternité, ce qui signifie qu’on n’a pas trouvé que les CV des femmes avaient plus de lacunes d'emploi liées au congé maternité.
Implications des Biais dans l'Embauche
Nos résultats des deux études suggèrent que GPT présente des biais basés sur le genre et la race dans les contextes d'embauche. Bien qu'on n'ait pas trouvé de grandes différences dans les scores selon tous les critères, les petites mais significatives différences révèlent une tendance préoccupante qui pourrait conduire à la discrimination contre les groupes marginalisés.
Les implications de ces résultats sont significatives. Les biais montrés par GPT soulignent les risques de dépendre des systèmes automatisés dans le recrutement. Au lieu de rendre les processus de sélection plus équitables, ces modèles peuvent perpétuer des biais sociaux existants.
Exploration des Sources de Biais
Les biais observés dans nos études peuvent provenir des données utilisées pour former les LLMs. Si les données de formation contiennent des biais historiques, il est probable que ces biais se reflètent dans les résultats du modèle. De nombreux algorithmes d'embauche se sont avérés être formés sur des données qui ne sont pas entièrement représentatives, souvent en favorisant les candidats masculins par rapport aux candidats féminins.
Dans notre cas, les LLMs, comme GPT, sont formés sur une variété de contenu web, qui pourrait ne pas refléter fidèlement les scénarios du monde réel. De nombreux exemples de CV en ligne peuvent être publiés par de jeunes chercheurs d'emploi, entraînant un biais en faveur des candidats plus jeunes dans les résultats générés.
Recommandations pour Travaux Futurs
Pour traiter les problèmes soulevés par ces résultats, plusieurs mesures peuvent être prises :
Études Plus Larges : Les recherches futures devraient inclure un éventail plus large de catégories d'identité et des analyses plus détaillées. L'étude actuelle a utilisé un ensemble limité de noms, qui peut ne pas englober tous les groupes de personnes.
Audits Réguliers : Il est crucial de réaliser des audits réguliers des LLMs alors qu'ils continuent d'être mis à jour. Ces audits devraient évaluer les biais en temps réel, permettant des ajustements quand nécessaire.
Transparence Accrue : Les employeurs utilisant des outils d'embauche automatisés devraient être tenus de fournir des données transparentes sur le fonctionnement de ces systèmes et les biais qu'ils pourraient transporter.
Développement de Politique : La législation ne devrait pas seulement se concentrer sur la race et le genre, mais aussi s'étendre pour prendre en compte d'autres facteurs comme l'âge, l'éducation et la nationalité afin d'assurer des pratiques équitables dans l'ensemble.
Conclusion
Alors que les LLMs deviennent de plus en plus intégrés dans les processus de recrutement, comprendre leurs biais potentiels est essentiel. Nos études révèlent que le GPT-3.5 reflète des biais existants basés sur la race et le genre, entraînant des implications significatives pour l'équité dans les pratiques d'embauche. À l'avenir, il est crucial de traiter ces biais pour créer des processus d'embauche plus équitables qui prennent véritablement en compte le mérite des candidats, sans préjugés sociaux.
Titre: The Silicon Ceiling: Auditing GPT's Race and Gender Biases in Hiring
Résumé: Large language models (LLMs) are increasingly being introduced in workplace settings, with the goals of improving efficiency and fairness. However, concerns have arisen regarding these models' potential to reflect or exacerbate social biases and stereotypes. This study explores the potential impact of LLMs on hiring practices. To do so, we conduct an AI audit of race and gender biases in one commonly-used LLM, OpenAI's GPT-3.5, taking inspiration from the history of traditional offline resume audits. We conduct two studies using names with varied race and gender connotations: resume assessment (Study 1) and resume generation (Study 2). In Study 1, we ask GPT to score resumes with 32 different names (4 names for each combination of the 2 gender and 4 racial groups) and two anonymous options across 10 occupations and 3 evaluation tasks (overall rating, willingness to interview, and hireability). We find that the model reflects some biases based on stereotypes. In Study 2, we prompt GPT to create resumes (10 for each name) for fictitious job candidates. When generating resumes, GPT reveals underlying biases; women's resumes had occupations with less experience, while Asian and Hispanic resumes had immigrant markers, such as non-native English and non-U.S. education and work experiences. Our findings contribute to a growing body of literature on LLM biases, particularly in workplace contexts.
Auteurs: Lena Armstrong, Abbey Liu, Stephen MacNeil, Danaë Metaxa
Dernière mise à jour: 2024-11-15 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2405.04412
Source PDF: https://arxiv.org/pdf/2405.04412
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.