AI採用慣行におけるバイアスの評価
調査によると、採用に使われるAIツールには人種や性別に基づくバイアスがあることがわかった。
― 1 分で読む
大規模言語モデル(LLM)は職場でますます一般的になってきていて、タスクをもっと早く、公平にすることを目指している。ただ、これらのモデルが社会的偏見やステレオタイプを反映したり、悪化させたりするんじゃないかって心配もある。この記事では、LLMが採用手法にどんな影響を与えるかを調べるために、よく知られているモデルであるOpenAIのGPT-3.5が人種や性別に基づく偏見を持っているかどうかを見ていくよ。
研究
研究1:履歴書の評価
最初の研究では、GPT-3.5がどれほど異なる履歴書を評価するかを確認したかった。名前だけが異なっていて、異なる人種や性別を示す履歴書を作成した。32の名前(各人種と性別の組み合わせに対して4つずつ)をテストして、GPTに履歴書を3つの異なる方法で評価してもらった:全体評価、面接の意欲、採用の意欲。
このモデルがいくつかの偏見を反映していることがわかった。例えば、女性や有色人種を示す名前の履歴書は、白人男性を示す名前の履歴書に比べてしばしば低い評価を受けていた。これは特に問題で、GPTは本来すべての履歴書を同じように扱うべきだから。
研究2:履歴書の生成
次の部分では、GPTが履歴書を作成する際に偏見を示すかどうかを調べた。最初の研究で使った名前をもとに履歴書を書いてもらった。それぞれの名前に対して、10通りの履歴書を作成した。経験年数や職位、候補者が移民である可能性を示すような情報を見てみた。
ここから、女性の履歴書は男性の履歴書に比べて経験年数が少なく、職位が低いことが多いことに気づいた。例えば、女性の名前はしばしば経験が少ない職種に結びついていた。また、アジア系やヒスパニック系の名前は、英語が母国語でないとか、海外の教育を受けているといった移民であることを示すマーカーがよく見られた。一方で、黒人や白人の名前の履歴書にはそういったマーカーは見られなかった。
偏見に関する以前の研究
偏見の監査は多くの年にわたってアイデンティティに関連する問題、特に採用の文脈で調査するために使われてきた。歴史的に見ると、監査は人種、性別、年齢などのさまざまな属性に焦点を当ててきた。この研究は、時の経過とともに採用手法における差別の一貫したパターンを示している。
自動化システムの成長とともに、研究者たちはこれらの方法をアルゴリズムの監査に適用し始めた。つまり、ニュースのキュレーション、価格設定、さらには採用の決定などでアルゴリズムシステムが偏見に寄与するかどうかを調べることだ。さまざまな研究で、アルゴリズムはしばしば訓練に使用されたデータから偏見を学習することが多く、特定のグループに対して不公平な扱いを引き起こす場合があることがわかっている。
法的背景
採用における自動化ツールの使用は法的な問題も引き起こしている。多くの地域では、雇用主が人種、性別、その他の保護されたカテゴリーに基づいて採用判断を行うことが禁止されている。ニューヨーク市のローカル法144のような地域には、雇用主に自動採用ツールが偏見を示さないことを証明することを要求する法律もある。
LLMに対する依存が高まる中で、これらのモデルが既存の偏見を助長したり、新しい偏見を生み出すかどうかを調査することが重要だ。私たちの研究は二つの重要な質問に答えている:これらのモデルは履歴書を評価する際に人種や性別の偏見を示すのか?そして、履歴書を生成する際に潜在的な偏見を示すのか?
主要な発見
研究1からの発見
最初の研究では、履歴書に添付された名前によってGPTのスコアが変わることがわかった。女性や有色人種に典型的な名前の履歴書はしばしば低い評価を受けた。例えば、白人の名前はアジア系、黒人、またはヒスパニック系の名前よりも一貫して高く評価された。これはモデルが既存の偏見を評価に持ち込むことを示唆している。
さらに、特定の職業における性別の表現によってスコアが影響を受けた。男性が支配する分野では、女性の名前の履歴書はさらに低いスコアを受けていた。これは、各職の文脈が候補者の評価において重要な役割を果たしていることを意味する。
研究2からの発見
履歴書の生成に焦点を当てた二つ目の研究では、さらに驚くべき偏見の証拠が見つかった。女性のために生成された履歴書は、男性のものに比べて経験年数が少ないことが多く、より低い職位に割り当てられていた。アジア系やヒスパニック系の名前の履歴書は、候補者が移民であることを示唆するような言語や経験を頻繁に mentionsしていた。
興味深いことに、GPTによって生成されたすべての履歴書には最上級の教育として学士号が割り当てられ、最近の卒業年になっていた。このパターンは若い応募者に対する偏見を反映している可能性が高い。母性に関する偏見の証拠は見られず、女性の履歴書が母親休暇に関連する雇用のギャップを持っているわけではなかった。
採用における偏見の影響
私たちの両方の研究の結果は、GPTが採用の文脈で性別や人種に基づく偏見を示すことを示唆している。すべてのプロンプトにわたるスコアに大きな違いは見られなかったが、小さくても重要な違いは、周縁化されたグループに対する差別を引き起こす懸念すべき傾向を明らかにしている。
これらの発見の影響は重要だ。GPTによって示された偏見は、採用における自動化システムへの依存のリスクを浮き彫りにしている。選考過程をもっと公平にするのではなく、これらのモデルは既存の社会的偏見を助長することがある。
偏見の発生源を探る
私たちの研究で観察された偏見は、LLMを訓練するために使用されたデータに起因している可能性がある。もし訓練データに歴史的な偏見が含まれているなら、それがモデルの出力に反映される可能性が高い。多くの採用アルゴリズムは、女性よりも男性の候補者を好むデータで訓練されていることがわかっている。
私たちのケースでは、GPTのようなLLMはさまざまなウェブコンテンツで訓練されているが、それが実際の状況を正確に反映しているわけではない。オンラインの多くの履歴書の例は若い求職者によって投稿されている可能性があり、その結果、生成される結果に若い候補者に対する偏見が生じている。
今後の研究への提言
これらの知見から生じる問題に対処するために、いくつかのステップを取ることができる:
広範な研究:今後の研究では、もっと広範なアイデンティティカテゴリーと詳細な分析を含めるべきだ。現在の研究は限られた名前セットを使用しており、すべての人のグループを網羅していないかもしれない。
定期的な監査:LLMが更新され続ける中で、定期的な監査を実施することが重要だ。これらの監査は、リアルタイムで偏見を評価し、必要に応じて調整を行うことができる。
透明性の強化:自動化採用ツールを使用する雇用主には、これらのシステムがどのように機能しているか、どのような偏見がある可能性があるかについて透明なデータを提供することが求められるべきだ。
ポリシー開発:法律は人種や性別だけでなく、年齢、教育、国籍などの他の要素も考慮するべきで、公平な実践を確保する必要がある。
結論
LLMが採用プロセスにますます組み込まれる中で、それらの潜在的な偏見を理解することは不可欠だ。私たちの研究は、GPT-3.5が人種や性別に基づく既存の偏見を反映していることを明らかにしており、採用手法の公平性に重大な影響を与えている。今後は、これらの偏見に対応して、本当に候補者の実力を考慮し、社会的偏見から自由なより公平な採用プロセスを構築することが重要だ。
タイトル: The Silicon Ceiling: Auditing GPT's Race and Gender Biases in Hiring
概要: Large language models (LLMs) are increasingly being introduced in workplace settings, with the goals of improving efficiency and fairness. However, concerns have arisen regarding these models' potential to reflect or exacerbate social biases and stereotypes. This study explores the potential impact of LLMs on hiring practices. To do so, we conduct an AI audit of race and gender biases in one commonly-used LLM, OpenAI's GPT-3.5, taking inspiration from the history of traditional offline resume audits. We conduct two studies using names with varied race and gender connotations: resume assessment (Study 1) and resume generation (Study 2). In Study 1, we ask GPT to score resumes with 32 different names (4 names for each combination of the 2 gender and 4 racial groups) and two anonymous options across 10 occupations and 3 evaluation tasks (overall rating, willingness to interview, and hireability). We find that the model reflects some biases based on stereotypes. In Study 2, we prompt GPT to create resumes (10 for each name) for fictitious job candidates. When generating resumes, GPT reveals underlying biases; women's resumes had occupations with less experience, while Asian and Hispanic resumes had immigrant markers, such as non-native English and non-U.S. education and work experiences. Our findings contribute to a growing body of literature on LLM biases, particularly in workplace contexts.
著者: Lena Armstrong, Abbey Liu, Stephen MacNeil, Danaë Metaxa
最終更新: 2024-11-15 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2405.04412
ソースPDF: https://arxiv.org/pdf/2405.04412
ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。