すべての人のために言語を形作る:ジェンダー公平の挑戦
執筆や翻訳におけるジェンダーに配慮した言葉遣いでインクルーシブさを促進する。
Simona Frenda, Andrea Piergentili, Beatrice Savoldi, Marco Madeddu, Martina Rosola, Silvia Casola, Chiara Ferrando, Viviana Patti, Matteo Negri, Luisa Bentivogli
― 1 分で読む
目次
ジェンダーフェアな言語って、性別に関係なくみんなが含まれてるって感じるためのものだよ。どちらか一方に偏らない言葉を使うってこと。特にイタリア語みたいに、言葉が特定の性別の形を持ってる言語では、これがちょっと難しくなる。「なんでこれが重要なの?」って思うかもしれないけど、言葉は私たちの考えや認識、世界を形作るものだから。フェアな言語を使うことで、みんなが代表されて大事にされてると感じるんだ。
ジェンダーフェア世代チャレンジ
ジェンダーフェアな言語の使用を促進するために、バイアスのある表現を特定して変換することに焦点を当てたチャレンジがあるよ。これには三つの重要なタスクがあるんだ:
- 性別表現の特定: 最初のタスクは、文章の中に隠れている性別特有のフレーズを見つけること。
- フェアネスのための書き換え: 二つ目のタスクは、それらのフレーズを性別に中立な代替表現に創造的に書き換えること。
- フェアな翻訳: 最後のタスクは、英語からイタリア語への翻訳が必要な時に性別の中立性を保つこと。
それぞれのタスクを詳しく見てみよう。
タスク 1: 性別表現の特定
最初のタスクでは、参加者はイタリア語の文中で性別特有のフレーズを特定しなきゃならない。例えば、混合性別のグループを「i cittadini」(市民)と言うのは、あんまりインクルーシブじゃないよね。混合グループに対して男性名詞を使う代わりに、みんなを認めるフレーズが欲しいんだ。
だから、チャレンジは、明示的でも微妙でも一つの性別だけを強調するフレーズを見つけるためにシステムをトレーニングすること。これには以下のような形式を見る必要がある:
- 過度な男性/女性表現: 多くの人を表すのに一つの性別の用語を使う例、「市民」と言いながら男性形だけ使用すること。
- 一般用語: みんなを指すのに男性の用語を使うこと、たとえば「候補者」は性別に関係なくどの候補者でも意味する。
- 不一致な性別: 指している人と一致しない性別の用語を使うこと、例えば女性を「professore」(男性用語)と呼ぶこと。
タスク 2: フェアネスのための書き換え
最初のタスクで性別表現を見つけたら、二つ目のタスクで少しクリエイティブになる時間だよ。ここでは、参加者がそのフレーズをジェンダーフェアな言語に書き換えるんだ。主な戦略は二つある:
-
保守的な隠蔽: このアプローチは性別を全く触れないようにする。たとえば、「i professori」(教授たち)ではなく「il corpo docente」(教員団体)と言うかもしれない。
-
革新的な隠蔽: この戦略は遊び心のある新しい性別中立の用語を導入する。例えば、教授を「lǝ professorǝ」と呼ぶ代わりに、明確に男性または女性の用語を使わない。
性別表現をフェアな言語に変えることで、このタスクはコミュニケーションをもっとインクルーシブにすることを目指してる。
タスク 3: フェアな翻訳
最後のタスクはバイリンガルなアプローチを取る。英語からイタリア語への翻訳がどれだけフェアに保たれているかを見るんだ。例えば、「私はそんなに知識のある医者を知って嬉しい」と言う文があるとする。その場合、理想的な翻訳は「Sono felice di conoscere un personale medico così preparato」となり、性別を強調しない。
このタスクは、システムが性別のある翻訳と性別中立の翻訳を適切に扱う能力を試すんだ。時には性別が明確で使うべき場合もあれば、完全に避けるべき時もあるから、デリケートなバランスが求められるよ。
チャレンジのためのデータセット
このチャレンジを実現するために、いくつかのデータセットがまとめられた。各データセットはモデルが学べる例を提供してるんだ。
-
GFL-itコーパス: このコレクションには公式文書からのイタリア語テキストが含まれている。アノテーターが性別表現を含む部分にマークをして、モデルが何を探すべきか学びやすくしている。
-
GeNTE: このバイリンガルテストセットは性別中立の翻訳を手助けする。英語の文が性別のあるイタリア語翻訳と性別中立の翻訳と並んで含まれている。モデルがこれらの形式を正しくナビゲートできるかを見ることが目標。
-
Neo-GATE: GeNTE同様に、このセットは革新的な性別中立の用語に焦点を当てている。性別を明かさない英語の文を含み、クリエイティブなイタリア語の翻訳を可能にする。
これらのデータセットは、システムをトレーニングし、性別フェアな言語の理解を向上させるために重要なんだ。
モデルの評価
参加者がタスクに取り組む中で、その結果は特定の基準に対して評価される。タスク1では、モデルが性別表現を特定する能力に基づいてスコアが付けられる。これはF1スコアという手法で行われ、正確さを測るんだ。アノテーションとの正しい一致が多いほど、良い評価を受ける。
タスク2では、再構築された文が性別中立かどうかを判断する分類器に焦点が移る。正しいラベルのパーセンテージがパフォーマンスを評価するのに助けとなる。
タスク3では、再び翻訳に重点が置かれる。モデルは性別のある用語を使うべきか、中立の言語に留まるべきかを判断する必要がある。これが会話をフェアでインクルーシブに保つ手助けとなるんだ。
チャレンジの限界
ジェンダーフェアな言語を促進するために設計されているとはいえ、このチャレンジには欠点もあるよ。データセットは公式文書や特定の制度的文脈など特定の領域だけをカバーしている。このため、今後の研究はより広い範囲のソースや視点があれば役立つだろう。
さらに、今のところのメトリクスや評価のアプローチは始まりに過ぎないかもしれない。モデルを徹底的に評価するためにもっと洗練された方法を探る必要がある。性別中立の用語の種類が一つだけ使用されているという事実もあるし、性別中立のアイデアを表現するには可能性がたくさんある。
倫理的考慮
このチャレンジは重要な倫理的疑問を提起する。ジェンダーバイアスのある言語を減らすことを目指すことで、見落とされがちな人々の声を上げることを狙っている。でも、この取り組みのチームは、アノテーターのグループに不均衡があるなど、自分たちの欠点を認識している。
また、アクセシビリティに関する有効な懸念もある。革新的な性別中立のマーカーを使った用語を読むのが難しい人もいるかもしれない。しかし、柔軟性の余地はある。個々の人がどの用語が最適か選ぶことができるようにすることで、より使いやすい体験を提供できる。
シュワ・シンプルパラダイム
性別中立言語のツールの一つ、シュワ・シンプルパラダイムがある。この方法は従来の性別用語をプレースホルダーに置き換えて、柔軟性を提供するんだ。使い方はこう:
- 男性用語「professore」を「professorǝ」に置き換えることで、性別に関係なくみんなを含められる。
- このパラダイムは様々な状況をカバーするために多様な形を持ち、異なる文脈に合わせた選択肢を提供する。
このパラダイムは、従来の言語規範に挑戦してインクルーシビティを刺激する楽しい方法だよ。
結論
ジェンダーフェアな言語を推進することは、単なるトレンドの話じゃなくて、インクルージョンと代表のための重要なムーブメントなんだ。全ての性別にフェアな言語を特定し、書き換え、翻訳することで、みんなが認められ、大事にされる世界を形作る手助けをしているんだ。
要するに、このチャレンジは言語の障壁を打破して、より公平なコミュニケーションスペースを作ることを目指している。課題は残るけど、進展は正しい方向への一歩だから、言葉がこんなに大きな違いを生むなんて、誰が思っただろうね?
タイトル: GFG -- Gender-Fair Generation: A CALAMITA Challenge
概要: Gender-fair language aims at promoting gender equality by using terms and expressions that include all identities and avoid reinforcing gender stereotypes. Implementing gender-fair strategies is particularly challenging in heavily gender-marked languages, such as Italian. To address this, the Gender-Fair Generation challenge intends to help shift toward gender-fair language in written communication. The challenge, designed to assess and monitor the recognition and generation of gender-fair language in both mono- and cross-lingual scenarios, includes three tasks: (1) the detection of gendered expressions in Italian sentences, (2) the reformulation of gendered expressions into gender-fair alternatives, and (3) the generation of gender-fair language in automatic translation from English to Italian. The challenge relies on three different annotated datasets: the GFL-it corpus, which contains Italian texts extracted from administrative documents provided by the University of Brescia; GeNTE, a bilingual test set for gender-neutral rewriting and translation built upon a subset of the Europarl dataset; and Neo-GATE, a bilingual test set designed to assess the use of non-binary neomorphemes in Italian for both fair formulation and translation tasks. Finally, each task is evaluated with specific metrics: average of F1-score obtained by means of BERTScore computed on each entry of the datasets for task 1, an accuracy measured with a gender-neutral classifier, and a coverage-weighted accuracy for tasks 2 and 3.
著者: Simona Frenda, Andrea Piergentili, Beatrice Savoldi, Marco Madeddu, Martina Rosola, Silvia Casola, Chiara Ferrando, Viviana Patti, Matteo Negri, Luisa Bentivogli
最終更新: 2024-12-30 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2412.19168
ソースPDF: https://arxiv.org/pdf/2412.19168
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://pygments.org/
- https://pypi.python.org/pypi/Pygments
- https://github.com/simonasnow/GFL-it-Dataset
- https://huggingface.co/datasets/FBK-MT/GeNTE
- https://huggingface.co/datasets/FBK-MT/Neo-GATE
- https://huggingface.co/meta-llama/Meta-Llama-3-8B
- https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct
- https://huggingface.co/spaces/evaluate-metric/bertscore
- https://creativecommons.org/licenses/by-sa/4.0/deed.it
- https://github.com/borisveytsman/acmart
- https://www.ctan.org/tex-archive/macros/latex/contrib/els-cas-templates
- https://github.com/yamadharma/ceurart
- https://www.overleaf.com/project/5e76702c4acae70001d3bc87
- https://www.overleaf.com/latex/templates/template-for-submissions-to-ceur-workshop-proceedings-ceur-ws-dot-org/pkfscdkgkhcq