言語モデルとジェンダークィア表現
オンラインで言語モデルがジェンダークィア言語をどう扱うかを調査中。
― 1 分で読む
多くの人が自分を表現したり、他の人とつながるためにSNSを使ってるよね。でも、ジェンダークイアやトランスジェンダー、ノンバイナリーの人たちは、受け入れられたり理解されたりするのに苦労することがあるんだ。これらのグループは自分を表現するために特定の言葉やフレーズを使うことが多いけど、他の人には傷つくものだと見られることもあるんだよ。SNSプラットフォームがコンテンツを監視したり管理したりする方法が、彼らがオンラインで自分を表現するのを安全だと感じるかどうかに影響するんだ。
最近の研究では、SNSプラットフォームがトランスやノンバイナリーのユーザーの投稿を不当にも危険なものとしてフラグを立てたり削除したりすることがあることが分かったんだ。この研究は、危険な発言を特定するために使われる言語モデルが、ジェンダークイアの人たちが使う言葉をどう扱っているかを調べることを目的にしてるんだ。特に、LGBTQ+コミュニティのメンバーがスラングや攻撃的な言葉を使うとき、それが非有害な方法で使われているかどうかを正確に認識できるかを理解したいんだ。
オンラインスペースの重要性
オンラインプラットフォームは、自分のアイデンティティを探求し、サポートを見つけるための重要なスペースを提供しているんだ。日常生活で差別に直面することが多いジェンダークイアの人たちにとって、これらのオンラインコミュニティはメンタルヘルスや幸福感にとって重要なんだ。コンテンツのモデレーションがうまく機能していると、安全な環境を作り出し、ユーザーをハラスメントから守ることができる。でも、モデレーションシステムに問題があると、マイノリティコミュニティに対する排除や差別が増えちゃうんだ。
コンテンツモデレーションは、伝統的に訓練された機械モデルに頼って有害な発言を特定してきたけど、最近はより大きな言語モデル(LLM)がその目的のために使われているよ。これならメッセージのコンテキストをよりよく考慮できるから。でも、証拠によると、これらの自動システムはやっぱりマイノリティの人たちを不利にしているみたいで、彼らのコンテンツを誤って有害としてフラグを立てることがあるんだ。
言語モデルの役割
言語モデルは人間の言語を分析したり解釈したりするために設計されたシステムだよ。それは、テキストが有害かどうかを特定するのに役立つんだけど、これらのモデルはジェンダークイアの人たちが使う独自の表現や方言を認識するのに苦労しているみたい。これらの人たちが侮辱的な言葉を再定義する方法が、自動システムによって誤解されることが多くて、間違った分類につながることがあるんだ。
この論文は、これらの言語モデルがジェンダークイアの人たちが使う言葉をどう扱っているか、特に再請求されたスラングに焦点を当てるよ。再請求されたスラングは、かつて特定のグループを貶めるために使われていた言葉だけど、今はそのグループのメンバーが自信を持って使うための表現なんだ。例えば、「クィア」や「フェムボーイ」なんかは、LGBTQ+コミュニティの中でプライドを持って使われる言葉だけど、元々は侮辱的な意味があるんだよ。
データセット作成
この問題を研究するために、再請求されたスラングが非侮辱的な方法で使われている事例からなる新しいデータセットを作ったんだ。100件以上の例を集めて、言語モデルがこれらの事例をどれだけうまく分類できるかを調べたよ。それぞれの例は、有害と見なされるかどうかに基づいてスコアが付けられ、言葉を使っている人のコンテキストやアイデンティティが考慮されたんだ。
その後、5つの異なる言語モデルを評価して、追加のコンテキストが与えられたときに有害な発言をどれだけ正確に特定できるかを見たんだ。目標は、スピーカーに関する追加情報がモデルが言葉の意図を理解するのに役立つかどうかを確認することだったよ。
発見
私たちの分析で、言語モデルはジェンダークイアのユーザーが書いたテキストを有害として誤ってラベル付けしがちだってことがわかったんだ。実際、テストしたすべてのモデルで、これらの人たちのテキストを正しく特定するパフォーマンスは非常に低かったんだ。これは、モデルが非有害な発言を毒性のあるものとしてシステマティックにフラグを立てていることを示しているんだ。
たとえモデルが著者がターゲットグループのメンバーであるというコンテキストを持っていても、パフォーマンスは大きく改善されなかったんだ。これは、言語モデルがLGBTQ+スペースに存在するアイデンティティやコミュニティの微妙な表現に適応できない危険な傾向を示しているよ。
コンテキストの重要性
言語を理解するには、特定の言葉を認識するだけじゃ足りないんだ。コンテキストが言語の解釈に重要な役割を果たすよ。ジェンダークイアの人が自分自身や経験を説明するためにスラングを使うとき、それはたいてい有害でない方法で行われるんだ。でも、言語モデルはこれらの言葉の微妙さや意図を考慮しないことが多いんだ。
多くのSNSプラットフォームは現在、有害なコンテンツをフィルタリングするためにキーワードベースのシステムを使っていて、これが誤った分類につながることがあるんだ。例えば、モデルがツイートの中にスラングを見つけると、自動的にそれを有害としてラベリングするかもしれないけど、それが使われたコンテキストは考慮されないんだ。このキーワードへの依存は、人間の言語の複雑さや特定のコミュニティ内での特定の用語の豊かな意味を見落としてしまうんだよ。
コンテンツモデレーションのバイアス
自動コンテンツモデレーションシステムは、マイノリティの人々に対してバイアスを示していることがわかってるんだ。研究によると、トランスの人たちが投稿したコンテンツは、他のデモグラフィックに比べて高い確率で毒性としてフラグを立てられるんだ。これによって、LGBTQ+の人たちはサポートを受けるために用意されたオンラインスペースから黙らされるか、排除されることになってしまうんだ。
さらに、有害な発言が誤って特定されると、個々の表現や参加へのリスクが高まるんだ。ユーザーは、自分の考えや経験を共有することに対して、誤解されて投稿が削除されることを恐れて、躊躇するかもしれない。これは、ジェンダークイアの人たちの間で孤立感や排除感を強めることにつながるんだよ。
有害な発言の分析
発言が有害かどうかを決定するのは主観的なんだ。発言がどう受け取られるかには、スピーカーのアイデンティティ、発言のコンテキスト、受け取るオーディエンスなど、さまざまな要因が影響するんだ。この有害かどうかの判定の主観性を克服するために、研究者たちは、ターゲットグループ、攻撃の明確さ、スピーカーの意図などを考慮するフレームワークを開発しているよ。
私たちの研究では、有害な発言を特定するために特定の基準を定義したんだ。例えば、アウトグループのメンバーが侮辱的な方法でスラングを使ったり、誰かがマイノリティに対するヘイトスピーチを助長したりした場合、それは有害として分類されることになる。一方で、ターゲットグループのメンバーが再請求的にスラングを使う場合、それは有害と見なされる可能性は低いんだよ。
ジェンダークイアの言語使用
LGBTQ+コミュニティ内の言語は、メンバーのアイデンティティや経験を反映するように進化していくことが多いんだ。例えば、非メンバーが使った場合には有害なスラングが、コミュニティ内の個々の人たちにとってはエンパワーメントの形として機能することがあるんだ。これを言語的再請求と呼ぶよ。
だけど、ほとんどの言語モデルはこの種の言語使用の複雑さを認識するように訓練されていないんだ。有害な発言と再請求された発言を区別する能力がなければ、これらのモデルはユーザーを誤教育し、誤解を招くリスクがあるんだ。マイノリティの声が黙らされると、これらのグループがサポートされる環境からさらに遠ざかることになるよ。
結論
この研究は、コンテンツモデレーションシステムにおける公平性と包括性の必要性を強調しているんだ。言語モデルに存在するバイアスを明らかにすることで、これらのシステムを改善するための努力において、マイノリティの人たちの声を考慮することの重要性を浮き彫りにしているよ。
有害な発言を特定する際の言語モデルのパフォーマンスを向上させるためには、再請求された言葉を日常的に使う人たちの視点を取り入れることが重要なんだ。モデルを訓練する過程にコミュニティのメンバーと関わることで、理解と受容を促進する進展が期待できるかもしれないよ。
言語、アイデンティティ、コミュニティがこれからも進化し続ける中で、それを解釈し管理するために設計されたシステムも進化していくべきなんだ。ジェンダークイアの人たちの多様な表現を尊重し、認める包括的なオンライン環境を構築することが、最終的には誰にとっても健康的でサポーティブなオンラインスペースにつながるんだ。
言語使用のコンテキストに敏感なより良いモデルやツールを開発することで、すべての声が聞かれ、尊重されるより公平で公正なデジタル世界への道を切り開くことができるんだよ。
タイトル: Harmful Speech Detection by Language Models Exhibits Gender-Queer Dialect Bias
概要: Content moderation on social media platforms shapes the dynamics of online discourse, influencing whose voices are amplified and whose are suppressed. Recent studies have raised concerns about the fairness of content moderation practices, particularly for aggressively flagging posts from transgender and non-binary individuals as toxic. In this study, we investigate the presence of bias in harmful speech classification of gender-queer dialect online, focusing specifically on the treatment of reclaimed slurs. We introduce a novel dataset, QueerReclaimLex, based on 109 curated templates exemplifying non-derogatory uses of LGBTQ+ slurs. Dataset instances are scored by gender-queer annotators for potential harm depending on additional context about speaker identity. We systematically evaluate the performance of five off-the-shelf language models in assessing the harm of these texts and explore the effectiveness of chain-of-thought prompting to teach large language models (LLMs) to leverage author identity context. We reveal a tendency for these models to inaccurately flag texts authored by gender-queer individuals as harmful. Strikingly, across all LLMs the performance is poorest for texts that show signs of being written by individuals targeted by the featured slur (F1
著者: Rebecca Dorn, Lee Kezar, Fred Morstatter, Kristina Lerman
最終更新: 2024-06-21 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2406.00020
ソースPDF: https://arxiv.org/pdf/2406.00020
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://github.com/unitaryai/detoxify
- https://www.queerinai.com
- https://perspectiveapi.com/case-studies/
- https://platform.openai.com/docs/models/gpt-3-5
- https://openai.com/blog/chatgpt
- https://huggingface.co/meta-llama/Llama-2-13b-hf
- https://huggingface.co/GroNLP/hateBERT
- https://huggingface.co/mistralai/Mistral-7B-v0.1
- https://huggingface.co/meta-llama/LLaMA-2-13b-hf
- https://github.com/rebedorn/QueerReclaimLex
- https://www.acm.org/publications/taps/whitelist-of-latex-packages
- https://dl.acm.org/ccs.cfm
- https://www.law.cornell.edu/wex/harassment