機械翻訳における代名詞の包括性の必要性
機械翻訳システムにおける代名詞の重要性を考える。
― 1 分で読む
目次
言語が進化するにつれて、人々はより多様な代名詞を使うようになってきた、特にノンバイナリーやジェンダーニュートラルなものが増えてる。この変化は、機械翻訳システムがこれらの代名詞をどう扱うかについての懸念を呼んでいる。多くの人が明確なコミュニケーションのために機械翻訳に頼っているけど、代名詞の翻訳の仕方によっては、個人のアイデンティティが誤解されることもある。この記事では、機械翻訳における代名詞の使い方や、それがマイノリティグループに与える影響、そしてより包括的なシステムの必要性についてレビューするよ。
機械翻訳って何?
機械翻訳は、テキストを自動的に一つの言語から別の言語に変換する技術だ。Google翻訳やDeepLみたいな人気のサービスがあって、多くの人が日常的に使ってる。ただし、特に代名詞のように、コンテクストや指される人のアイデンティティによって意味が変わる言葉を翻訳する際には、いくつかの課題がある。
代名詞の重要性
代名詞は、人の名前を繰り返さずに人を特定するのに役立つから、言語では重要だ。性別を示すことができるから、どこで誰かのアイデンティティを反映するのにも必要だよ。多くの言語には「彼」や「彼女」といった性別に基づく代名詞があるけど、他の言語では「彼ら」みたいなジェンダーニュートラルな用語を使ったりもする。社会が男性と女性以外のアイデンティティの幅広さを認識するにつれて、「xe」や「ey」のような新しい代名詞も登場している。
翻訳における代名詞のチャレンジ
ほとんどの機械翻訳システムは、伝統的な代名詞を前提に作られてる。新しい形の代名詞に出会うと、しばしば苦労することがある。その結果、機械が性別を誤って割り当てたり、意図した意味を捉えられなかったりすることがある。例えば、「彼ら」を「彼」や「彼女」と訳すと、誤った性別認識を生み出して、嫌な思いをさせることになる。
マイノリティグループへの影響
ノンバイナリーやネオプロナウンズを使う人たちにとって、不正確な翻訳は、自分が見えない存在であるかのような感覚や誤解を強めることがある。これらのシステムが間違えると、すでに性別アイデンティティによって困難を抱えている人たちに対する差別が生じたりすることがある。
機械翻訳システムの分析
人気の翻訳ツールが代名詞にどう対応しているかを理解するために、いくつかの研究がそのパフォーマンスを分析してきた。これらの分析は、翻訳の際に性別のある代名詞とジェンダーニュートラルな代名詞がどう扱われるかに焦点を当てている。誤った代名詞の使用から生じる文法構造や意味のエラーを強調してる。
代名詞の使用パターン
これらのシステムが異なるタイプの代名詞をどう翻訳するかを調べると、いくつかのパターンが見えてくる。性別のある代名詞は、一般的にジェンダーニュートラルなものよりも正確に扱われることが多い。場合によっては、翻訳システムが意図された代名詞を無視したり誤解したりして、重大なコミュニケーションの失敗を招くことがある。
公共の意見調査
もっと詳しい情報を得るために、LGBTQIA+の人たちに対して調査が行われている。これらの調査は、代名詞を翻訳でどう扱うべきかに関する意見がさまざまだということを示している。ある人たちは、自分の代名詞が一般的な使い方に合わせて直接翻訳されることを好む一方で、他の人たちは代名詞を省くか、元の言語から直接コピーしてほしいと考えている。
改善のための提案
指摘された課題を考慮して、機械翻訳システムを改善するためのいくつかの提案ができるよ:
代名詞を動的なものとして認識する:システムは代名詞を固定されたカテゴリーではなく、進化する言語の一部として扱うように更新されるべき。これはより多様な代名詞を受け入れ、個々の好みを尊重することを意味する。
パーソナライズオプションの提供:ユーザーは、自己の代名詞が翻訳でどのように扱われるかを調整する機会を持つべき。好みを選べることで、システムはより包括的で正確になる。
誤った性別割り当てを避ける:直接翻訳が不可能な場合、システムは誤った性別割り当てのリスクを最小限に抑える解決策を目指すべき。これは、ジェンダーニュートラルな言語を使ったり、翻訳で複数の代名詞オプションを許可したりすることが考えられる。
結論
機械翻訳における代名詞の扱いは、性別アイデンティティに関する社会全体の変化を反映する重要な問題だ。より多くの人が多様なアイデンティティを持って前に出てくるにつれて、翻訳システムはそのニーズに適応する必要がある。包括性と正確性を優先することで、技術は個人により良いサービスを提供し、より尊重されたコミュニケーション環境を育むことができる。
代名詞の基本を理解する
代名詞は文章内で名詞の代わりをし、言語を簡略化するのに役立つ。英語の一般的な代名詞は以下の通り:
- 彼:男性を指す時に使う。
- 彼女:女性を指す時に使う。
- 彼ら:男性または女性として厳密に特定しない個人を指す時、またはグループの複数形として使う。
- Xe、Ey、その他:これらは自分のアイデンティティを表現するために使われるネオプロナウンズ。
代名詞が個人の自己感覚や他者からの認識に大きな影響を与えることを認識するのは大切だ。
言語の進化
言語は常に変わっていて、特に性別についての話し方にその変化が顕著だ。人々のアイデンティティの多様性をよりよく捉えるために、新しい用語や代名詞が導入されている。この変化は、性別の多様性に対する意識の高まりと包括性の推進によって導かれている。
言語における技術の役割
技術は私たちのコミュニケーションの仕方において重要な役割を果たしている。機械翻訳は、その一つとして、世界中の人々をつなぐ力を持っている。しかし、その言語のニュアンス、特に性別アイデンティティのような繊細な分野を考慮しなければ、偏見や誤解を広めることにもなりうる。
機械翻訳における代名詞の一般的な問題
文法エラー:機械翻訳システムが代名詞に出会うと、文法的に正しくない出力を生むことがあって、それが混乱を招いたり意味不明な結果を生んだりすることがある。
意味の喪失:機械システムは代名詞の背後にある意図された意味を保持できないことがあって、それがメッセージの文脈やトーンを変えてしまったりする。
誤った性別認識:代名詞を誤って翻訳すると、特にノンバイナリーやジェンダークィアの人たちにとって有害な誤った性別認識を引き起こすことがある。
限られた代名詞セット:多くのシステムは狭い範囲の代名詞しか認識せず、さまざまな個人にとって重要な他の代名詞を無視してしまうことがある。
包括的な言語技術の必要性
社会が進むにつれて、多様なアイデンティティを尊重し、理解するツールの必要性がますます切迫してきている。包括的な言語技術は、すべての個人が正確に認識され、表現されることを確保し、より公平なコミュニケーション環境を作る手助けができる。
翻訳システムにおける代名詞オプションの拡張
進化する代名詞の状況に対応するために、機械翻訳システムは以下の点で利益を得ることができる:
- 定期的な更新:言語が進化するにつれて、翻訳モデルは新しい代名詞を反映するために定期的に更新されるべき。
- コミュニティの意見:マイノリティコミュニティと関わることで、翻訳システムにとっての良いプラクティスを導き出す手助けができる。
ユーザーフィードバックの重要性
包括的な翻訳技術を開発する際には、ユーザーフィードバックが重要だ。バイナリーの枠外にいる個人の経験や好みを聞くことで、システムが実際のニーズを満たしているかを確認できる。
包括の文化を築く
機械翻訳技術を開発する組織は、包括の文化を創造することを優先すべき。これには以下の点が含まれる:
- 多様なグループとの協力:さまざまな背景を持つ組織や個人と協力することで、コミュニティのニーズに関する重要な視点を得ることができる。
- 意識を高める:代名詞や性別アイデンティティの重要性について開発者やユーザーを教育することで、より理解のある環境が育まれる。
機械翻訳の質を向上させる
機械翻訳の質を向上させることは、文法エラーを直すことだけではなく、文脈、アイデンティティ、言語のダイナミクスを十分に理解することが求められる。これには以下の優先事項が含まれる:
- 多様なデータセットでのトレーニング:機械翻訳システムは、最新の代名詞形も含め、さまざまな言語使用を反映したデータでトレーニングされるべき。
ケーススタディと例
実際の例は、翻訳エラーが個人の生活に与える影響を示している。これらのケーススタディは、ユーザーの経験に基づいてシステムを改善する必要性を強く訴えるものだ:
- ソーシャルメディアの投稿でのミスジェンダリング:誤って翻訳されたユーザーの代名詞が、そのコミュニティ内で著しいストレスや誤解を生んだ。
- 異文化コミュニケーション:国際的な場面では、ミス翻訳の代名詞が文化的な誤解を引き起こし、個人および職業関係に影響を与えることがある。
機械翻訳の将来の方向性
今後、機械翻訳は社会の変化に合わせて進化し続けなければならない。主な方向性には以下の点が含まれる:
言語モデルの拡張:より多様な代名詞を含むモデルを開発することで、さまざまなアイデンティティが公平に表現されるようにする。
個人の好みの統合:ユーザーは、翻訳アプリ内の個人プロフィールで自分の代名詞の好みを指定できるオプションを持つべき。
継続学習:機械翻訳システムは、ユーザーとのインタラクションやフィードバックに基づいて適応する継続学習技術を採用するべき。
結論
機械翻訳システムにおける代名詞の扱いは、単なる言語的な課題を超えており、私たちの社会が性別アイデンティティをどう理解しているかの進化を反映している。必要な変更や改善を行うことで、機械翻訳は包括性を促進する強力なツールとなり、さまざまなコミュニティ間のコミュニケーションギャップを埋める手助けができる。すべての個人がそのアイデンティティで認識され、尊重されることが重要で、それがより意味のある正確なコミュニケーションにつながるんだ。
タイトル: What about em? How Commercial Machine Translation Fails to Handle (Neo-)Pronouns
概要: As 3rd-person pronoun usage shifts to include novel forms, e.g., neopronouns, we need more research on identity-inclusive NLP. Exclusion is particularly harmful in one of the most popular NLP applications, machine translation (MT). Wrong pronoun translations can discriminate against marginalized groups, e.g., non-binary individuals (Dev et al., 2021). In this ``reality check'', we study how three commercial MT systems translate 3rd-person pronouns. Concretely, we compare the translations of gendered vs. gender-neutral pronouns from English to five other languages (Danish, Farsi, French, German, Italian), and vice versa, from Danish to English. Our error analysis shows that the presence of a gender-neutral pronoun often leads to grammatical and semantic translation errors. Similarly, gender neutrality is often not preserved. By surveying the opinions of affected native speakers from diverse languages, we provide recommendations to address the issue in future MT research.
著者: Anne Lauscher, Debora Nozza, Archie Crowley, Ehm Miltersen, Dirk Hovy
最終更新: 2023-05-25 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2305.16051
ソースPDF: https://arxiv.org/pdf/2305.16051
ライセンス: https://creativecommons.org/licenses/by-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。