ジェンダーフェアな言語がテキスト分類に与える影響
ジェンダーフェアな言葉がテキスト分類タスクにおける言語モデルにどう影響するか分析してる。
Andreas Waldis, Joel Birrer, Anne Lauscher, Iryna Gurevych
― 1 分で読む
目次
性別に配慮した言語がドイツ語で一般的になってきていて、すべての性別を考慮したり、中立的な形を使ったりして包摂性を促進してる。しかし、この言語がテキスト分類にどう影響するかを理解するためのリソースはあまりない。言語モデル(LM)は人間の言語を理解し生成するために設計されたコンピュータプログラムだけど、これらの新しい言語形式を扱うように訓練されていないかもしれない。
この問題に対処するために、私たちはさまざまな分類タスクのために再構成したドイツ語テキストを含む新しいデータセットを作成した。このデータセットは、意見を検出したり、毒性のある言語を特定したりするなど、7つの異なるタスクをカバーしている。私たちはこのデータセットで16種類の言語モデルを評価した結果、性別に配慮した言語が予測を大きく変えることがあることがわかった。時には予測ラベルをひっくり返したり、予測の確実性を下げたり、モデルがテキストの異なる部分に焦点を合わせる方法を変えたりすることがある。
面白いことに、性別に配慮した言語が予測に与える影響は強いが、元のテキストと再構成されたバージョンを比較した場合、モデルのランキングはほとんど同じままだった。これは、性別に配慮した言語を適用しても、既存の言語モデルの評価方法が依然として有効であることを示唆している。
性別に配慮した言語とは?
性別に配慮した言語とは、すべての性別を含んだり、中立的な用語を使用したりして、性別バイアスを避ける言語を指す。ドイツ語やフランス語のように男性形と女性形がある言語では、男性形と女性形の両方を使ったり、特別な記号を使ったり、中立的な用語を使ったりすることを意味する。例えば、「Konsumenten(消費者)」ではなく「Konsumentinnen und Konsumenten(女性と男性の消費者)」や「Konsument*innen(アスタリスクを使ってすべての性別を含める)」と言ったりする。
このような言語の変更は、より大きな包摂性に向けた社会的変化を反映している。こうした変化は、性別差別に対処し平等を促進することを目的としたEU議会のような公式のガイドラインにも認識されている。
研究の必要性
言語モデルはしばしば古いデータで訓練されるため、性別バイアスを含むバイアスを反映することがある。最近、性別に配慮した言語がこれらのモデルに与える影響が研究され始めている。既存の研究のほとんどは翻訳などのタスクに焦点を当てているが、性別に配慮した言語が分類タスクに与える影響を具体的に検証したリソースは不足している。
これは重要で、私たちは言語モデルが性別に配慮した言語を扱えるかどうか、望ましくない結果を生じずに確認する必要がある。このギャップを埋めるために、ドイツ語テキストの高品質の再構成データセットを導入し、性別に配慮した言語が分類タスクにどう影響するかを分析できるようにした。
データセットについて
私たちは、7つの分類タスクをカバーする3,600の再構成されたドイツ語テキストのインスタンスを含むデータセットを作成した。私たちのデータセットは、感情分析や毒性検出などのテーマを扱った確立されたドイツ語の分類データセットに基づいている。
各タスクに対して、性別特有の言語を含む例をサンプリングし、さまざまな性別に配慮した戦略を使って再構成した。これは、アマチュアとプロフェッショナルを使って再構成の質を確保することを含む。
いくつかの主要な研究質問に焦点を当てて探求を進めた:
- アマチュアは高品質の性別に配慮した再構成を生み出せるのか?
- 性別に配慮した言語が分類タスクに与える影響は?
- 言語モデルは性別に配慮した言語をどう処理するのか?
- 分類タスクにおいて性別に配慮した言語とやりとりする際にどんな実際的な影響が生じるのか?
研究結果
再構成の質
研究を通じて、アマチュアはしばしば十分な性別に配慮した再構成を作るのに苦労していることがわかった。彼らは最大31%のケースで間違いを犯し、性別に配慮した言語の使用がまだ広く標準化されていないことを示している。対照的に、プロのアノテーターは高品質の再構成を生産するのがずっと得意だった。
分類パフォーマンスへの影響
性別に配慮した言語が分類タスクに与える影響を見たところ、パフォーマンスにバリエーションがあった。例えば、性別に配慮した言語を使うことで、タスクのパフォーマンスが最大4ポイント変わることがあり、ラベルが最大10.9%の頻度でひっくり返ることもあった。
興味深いことに、異なる戦略はさまざまな影響を持っていた。文に小さな調整を加えた戦略はパフォーマンスを改善する傾向があった一方、性別を中立化することに焦点を当てた戦略はしばしばパフォーマンスを下げてしまった。
言語モデルの性別に配慮した言語の処理
私たちの分析では、性別に配慮した言語が言語モデルの下層でテキストを処理する方法に影響を与えることがわかった。注意パターンに変化が見られ、モデルが性別に配慮した言語に出会ったとき、テキストの部分に焦点を当てる方法が変わることがわかった。また、性別に配慮した再構成で予測の確実性が低下することがわかり、これがこの種の言語を処理する際にモデルが予測に対してあまり自信を持っていないことを示唆している。
現存の評価の一貫性
予測の変化にもかかわらず、元のインスタンスと再構成されたインスタンスを評価したとき、モデルのランキングは一貫していた。これは、元のデータセットに基づいた評価が性別に配慮した言語を導入しても真実であり続け、その有効性を維持することを意味する。
性別に配慮した言語の戦略
性別に配慮した言語を適用するためのいくつかの戦略を特定した:
- バイナリー性別の包含:女性形と男性形の両方を明示的に言及する(例:「Ärztinnen und Ärzte」(医者))。
- 全性別の包含:特別な文字を使用してすべての性別を含む(例:「Ärzt*innen」)。
- 性別の中立化:特定の性別の用語を完全に避ける(例:「ärztliche Fachperson」(医療専門家))。
- ネオシステム:新しい代名詞と形を使って第四の性を作るシステム(例:「de Arzte」(der Arztの代わりに))。
各戦略は、言語が性別にどのように対応できるかを示しつつ、意図する意味を伝える方法を示している。
データセットの構成と方法論
私たちのデータセットを作成するために、Detox、GermEval-2021、およびX-Stanceという3つの既存のドイツ語分類データセットからインスタンスをサンプリングした。これらのデータセットがタスクのミックスを提供しつつ、再構成に必要な労力を最小化することを目指した。
各データセットから、性別特有の用語を含む200のテストインスタンスを選定した。それから、アマチュアとプロフェッショナルが、私たちの確立した戦略に従ってそのインスタンスを再構成する作業を行った。
アノテーターの経験
アマチュアのアノテーターは一般的にドイツ語のネイティブスピーカーで、言語学のバックグラウンドは持っていなかった。性別に配慮した言語に関する経験を1(全く経験なし)から5(プロフェッショナル)までのスケールで評価した。その平均は約3で、中程度の経験を示していた。
対照的に、プロのアノテーターはしっかりした言語学のバックグラウンドがあり、性別に配慮した言語を定期的に使用していた。彼らの再構成はアマチュアの仕事を検証する役割を果たし、高い品質を確保した。
研究の結果
パフォーマンス分析
私たちは、7つのタスクにわたる言語モデルのパフォーマンスを慎重に分析し、元のテキストと再構成されたバージョンを比較した。全体として、ドイツ語に特化したモデルが、特にドイツ語の言語と文化に関連するタスクを扱う際に、英語に特化したモデルよりも一貫して優れていることを発見した。
性別に配慮した言語の効果
性別に配慮した言語が全体のパフォーマンスに大きく影響することも確認した。たとえば、毒性に関連するタスクは、性別に配慮した再構成に基づく顕著な変化を示し、言葉の小さな変更でもモデルの予測に substantial な違いをもたらすことがあることを示唆している。
結論
ドイツ語のテキスト分類における性別に配慮した言語の包括的な調査は、重要な洞察を明らかにした。私たちは、言語モデルがこれらの新しい形の言語を扱う方法を理解するための価値あるデータセットを導入した。私たちの発見は、テキストへの小さな変更が予測を大きく変える可能性があることを示した。
この研究を続ける中で、他の言語にも包括的な言語形式を含めるようにデータセットを拡張する可能性を見出している。この努力は、性別に配慮した言語が異なる言語的文脈において分類タスクにどう影響するかの理解を深めることができる。
言語処理の未来は、社会が進化するにつれてこれらの変化に敏感である必要がある。これらの問題に正面から取り組むことで、言語使用者の多様性を反映した、より包摂的で効果的な言語モデルを作成できる。
タイトル: The Lou Dataset -- Exploring the Impact of Gender-Fair Language in German Text Classification
概要: Gender-fair language, an evolving German linguistic variation, fosters inclusion by addressing all genders or using neutral forms. Nevertheless, there is a significant lack of resources to assess the impact of this linguistic shift on classification using language models (LMs), which are probably not trained on such variations. To address this gap, we present Lou, the first dataset featuring high-quality reformulations for German text classification covering seven tasks, like stance detection and toxicity classification. Evaluating 16 mono- and multi-lingual LMs on Lou shows that gender-fair language substantially impacts predictions by flipping labels, reducing certainty, and altering attention patterns. However, existing evaluations remain valid, as LM rankings of original and reformulated instances do not significantly differ. While we offer initial insights on the effect on German text classification, the findings likely apply to other languages, as consistent patterns were observed in multi-lingual and English LMs.
著者: Andreas Waldis, Joel Birrer, Anne Lauscher, Iryna Gurevych
最終更新: 2024-09-26 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2409.17929
ソースPDF: https://arxiv.org/pdf/2409.17929
ライセンス: https://creativecommons.org/licenses/by-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://tudatalib.ulb.tu-darmstadt.de/handle/tudatalib/4350
- https://github.com/hdaSprachtechnologie/detox
- https://t.co/wlZ5tmt3HJ
- https://t.co/cs5KoavBp8
- https://github.com/UKPLab/lou-gender-fair-reformulations
- https://diversifix.org/
- https://www.europarl.europa.eu/cmsdata/151780/GNL_Guidelines_EN.pdf
- https://web.archive.org/web/20240923052010/
- https://sdgs.un.org/goals/goal5
- https://web.archive.org/web/20240901180348/
- https://www.eva.mpg.de/lingua/pdf/Glossing-Rules.pdf
- https://huggingface.co/VAGOsolutions
- https://geschlechtsneutral.net/
- https://geschlechtsneutral.net
- https://huggingface.co/deepset/gbert-base
- https://huggingface.co/deepset/gbert-large
- https://huggingface.co/deepset/gelectra-base
- https://huggingface.co/deepset/gelectra-large
- https://huggingface.co/bert-base-multilingual-cased
- https://huggingface.co/FacebookAI/xlm-roberta-base
- https://huggingface.co/microsoft/mdeberta-v3-base
- https://huggingface.co/bert-base-uncased
- https://huggingface.co/roberta-base
- https://huggingface.co/microsoft/deberta-v3-base
- https://huggingface.co/TechxGenus/Meta-Llama-3-70B-Instruct-AWQ
- https://huggingface.co/TechxGenus/Meta-Llama-3-8B-Instruct-AWQ
- https://huggingface.co/mayflowergmbh/Llama-3-SauerkrautLM-8b-Instruct-AWQ
- https://huggingface.co/tresiwalde/Llama-3-SauerkrautLM-70b-Instruct-AWQ
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://www.ukp.tu-darmstadt.de/
- https://www.hslu.ch/
- https://huggingface.co/datasets/tresiwalde/lou