# コンピューターサイエンス # 計算と言語 # コンピュータと社会 # ヒューマンコンピュータインタラクション

コンテンツモデレーションとアイデンティティスピーチの抑圧

アイデンティティグループに関連するスピーチに対する自動モデレーションの影響を調べる。

2025-06-15T07:22:06+00:00 ― 1 分で読む

コンテンツモデレーションの重要性
スピーチ抑圧の定義
既存の研究と方法論
監査からのインサイト
データセットとアイデンティティの分類
スピーチ抑圧の結果
APIの違いを詳しく見てみよう
回帰分析の結果
発見に関するディスカッション
結論
オリジナルソース
参照リンク

最近、オンラインで不要なコンテンツや有害な素材をフィルタリングするための自動コンテンツモデレーションが一般的なツールになってきたよ。この方法は、暴力的だったり、ヘイトが含まれていたり、その他不適切なコンテンツを特定して取り除くことで機能してる。生成AIシステムがテキストを生成するようになったことで、これらのモデレーションツールがAIシステムが生成したコンテンツにも適用されるようになったんだ。これが、誰がそのストーリーを共有できるのか、誰がこれらの技術によって黙らされる可能性があるのか、重要な疑問を投げかけてる。

この記事では、これらのコンテンツモデレーションツールが特定のアイデンティティグループに関連するスピーチを誤ってフラグ付けしたり、抑圧したりする可能性を詳しく見ていくよ。アイデンティティに関連するスピーチに対するこれらのシステムの扱いと、それらが不公平にマイノリティグループをターゲットにする傾向について焦点を当ててる。また、コンテンツモデレーションに使用されるさまざまなAPI（アプリケーションプログラミングインターフェイス）が、アイデンティティ関連のスピーチを抑圧する点でどのようにパフォーマンスを発揮するかも探るよ。

コンテンツモデレーションの重要性

コンテンツモデレーションは、有害なコンテンツをフィルタリングして安全なオンライン環境を維持することを目指してる。ウェブサイトやソーシャルメディアプラットフォームは、自動システムを使ってポリシーに違反するコンテンツを特定してフラグを付けてる。このシステムは、コメントや画像、動画など、さまざまなコンテンツを評価できるんだ。ただし、このプロセスは完璧ではなく、特にマイノリティのアイデンティティに対してバイアスが生じることがある。要するに、これらのシステムの動作によって、あるグループの声が他よりも抑圧されることがあるってわけ。

AI技術が進化するにつれて、これらのモデレーションシステムは、生成AIのテキスト入出力をチェックするためにますます利用されてる。これは、脚本や記事を書くような創造的な分野に特に関連があって、制作されたストーリーが多様な視点を反映するか、バイアスに影響されるリスクがある。

スピーチ抑圧の定義

スピーチ抑圧は、テキストを不適切や違反するコンテンツとして誤ってマークすることを指すよ。フィルタリングされるべきでないコンテンツが時々フラグ付けされて、特定のアイデンティティグループのスピーチの機会が失われることがある。私たちは、フラグ付けされるべきでないスピーチがどのように抑圧されているかを特定することに焦点を当ててる。

スピーチ抑圧を評価するために、アイデンティティ関連のスピーチが誤ってフラグ付けされる頻度と、他のタイプのスピーチがフラグ付けされる頻度を比較するよ。基本的には、特定のアイデンティティグループ、特にマイノリティのバックグラウンドを持つ人たちが、自分の声を聞いてもらうのにどれだけ苦労しているのかを理解したいんだ。

既存の研究と方法論

これまでのコンテンツモデレーションに関する研究は、ツイートやコメントなどのユーザー生成コンテンツで構成されたデータセットに依存することが多かったよ。これらのデータセットは、研究者がモデレーションシステムのパフォーマンスを評価するのに役立つんだけど、主に短い投稿をカバーしていて、生成AIがよく作る長いナラティブが不足してる。

私たちの研究では、複数のコンテンツモデレーションシステムを分析して、アイデンティティ関連のスピーチがどのくらい抑圧されているかを特定したよ。私たちは、テレビ番組や映画のあらすじなど、創造的なコンテンツの長い形式に焦点を当てた新しいデータセットを作成して、この文脈でのスピーチ抑圧を評価したんだ。

私たちの分析には、有害または不適切なコンテンツを評価するさまざまなコンテンツモデレーションサービスが含まれてた。体系的なアプローチを通じて、これらのシステムが異なるアイデンティティグループに関連するスピーチにどのように対処するかを定量化しようとしたんだ。

監査からのインサイト

私たちの監査では、五つの人気のコンテンツモデレーションAPIをテストしたよ。私たちは、これらのシステムが九つのアイデンティティカテゴリに関連するスピーチをどれだけうまくモデレートできるかを理解したかった。その結果、懸念すべきトレンドが明らかになった。特定のアイデンティティグループに関連するスピーチは、非アイデンティティ関連のスピーチよりも抑圧される可能性が高いんだ。

主な発見：

扱いの違い：テストしたAPIの中で、アイデンティティ関連のスピーチは他のタイプのスピーチよりも抑圧されることが多かった。唯一の例外は、クリスチャンとストレートのアイデンティティグループで、これらは抑圧が少なかった。
アイデンティティグループの影響：監査は、アイデンティティ関連のスピーチ抑圧がさまざまなマイノリティグループにとって顕著であることを明らかにした。対照的に、非マイノリティグループはスピーチがフラグ付けされる問題が少ないことが多かった。
APIのパフォーマンス：異なるモデレーションAPIは、生成AIコンテンツの処理能力においてさまざまな効果を示した。いくつかのシステムは、従来のデータでより良いパフォーマンスを発揮し、他のシステムは生成AIデータセットにおいて特定のアイデンティティグループの抑圧が少なかった。

データセットとアイデンティティの分類

私たちの分析を行うために、モデレーションのためにフラグ付けされる可能性のあるテキストのインスタンスを含むいくつかのデータセットを使用したよ。私たちは、アイデンティティグループに基づいてこれらのテキストを分類し、抑圧率を追跡および測定できるようにしたんだ。

データセットには、従来のソース（ツイートやコメント）に加え、テレビ番組や映画のあらすじのような長い形式のコンテンツも含まれてた。それぞれのテキストに関連するアイデンティティ属性でタグ付けをすることで、コンテンツモデレーションシステムが異なる声とどのように相互作用するかについての洞察を得たんだ。

新しいデータセットの作成

創造的なコンテンツを理解することを目的とした新しいデータセットも導入したよ。これらのデータセットには映画やテレビ番組のプロットが含まれ、アイデンティティに関連するモデレーションラベルでタグ付けされてた。この追加の次元により、これらのシステムが長くて複雑なスピーチをどのように管理するかを評価できたんだ。

データセットにどのアイデンティティグループが含まれているかを特定するために、自動化された方法と手動チェックの組み合わせを使用したよ。明示的なアイデンティティグループの参照と、より広いカテゴリを特定して、異なるアイデンティティに関連するコンテンツがどのように扱われるかの正確な表現を得たんだ。

スピーチ抑圧の結果

私たちのコンテンツモデレーションAPIからの結果を分析したところ、アイデンティティ関連のスピーチ抑圧の明確な証拠が見つかったよ。各APIは、私たちが調べた九つのアイデンティティグループの中で、抑圧の程度が異なった。

一般的なスピーチ抑圧の傾向：ほとんどのアイデンティティグループは、APIによってスピーチがレビューされるときに、何らかのレベルの抑圧に直面した。ただし、影響のレベルはAPIによって異なり、いくつかのグループは他のグループよりも著しく高い抑圧率を経験してた。
従来のデータと生成AIデータの比較：アイデンティティ関連のスピーチの扱いは、従来の短いデータと生成AIコンテンツを比較する際にしばしば異なった。一部のAPIは生成的なコンテキストで抑圧が少なく、他のAPIはそのようなコンテンツを正確にモデレートする際に大きな課題を示した。
マイノリティグループ：私たちの評価は、全体としてマイノリティのアイデンティティグループが、支配的グループに比べてスピーチが抑圧される可能性が高いことを示してた。

APIの違いを詳しく見てみよう

私たちは、五つのコンテンツモデレーションAPIそれぞれがスピーチ抑圧に関してどのように機能するかを調べたよ。各APIには独自の特性があり、コンテンツを特定してフラグ付けする際に影響を与えることがある。

OpenAI：このAPIは、アイデンティティ関連のスピーチの取り扱いにおいて強みと弱みの両方を示した。いくつかのコンテキストではうまく機能してたけど、多くのアイデンティティ関連のテキストを誤ってフラグ付けしてた。
Google：GoogleのモデレーションAPIは混在した結果を示した。いくつかのケースでは不適切なコンテンツをフラグ付けするのが効果的だったけど、特定のアイデンティティ関連のスピーチには苦労して、非クリスチャングループに対するバイアスを示してた。
JigsawのPerspective API：このツールは、毒性を検出するために設計されたもので、驚くべきことに、従来のデータセットをレビューするときにマイノリティグループからのスピーチをより多く誤ってフラグ付けしてた。
Llama GuardとAnthropic：これらのAPIはコンテンツモデレーションに対して異なるアプローチを提供し、アイデンティティ関連の抑圧を管理する効率性にばらつきが見られた。テキストの性質を考慮すると、抑圧のパターンが異なってた。

回帰分析の結果

結果をさらに掘り下げるために、回帰モデルを使ってどれくらい正確にコンテンツモデレーションシステムが異なるタイプのスピーチをフラグ付けしたりスコアを付けたりしたかを予測したよ。

アイデンティティタグ：私たちのモデルは、マイノリティのアイデンティティグループのコンテンツが支配的グループのコンテンツよりも誤ってマークされる可能性が高いことを示した。
生成AIコンテンツ：特に、創造的なコンテキストで生成されたテキストはエラー率のプロファイルが異なった。生成AIテキストはしばしばフラグ付けが少なかったが、この違いの理由についてはさらなる探求が必要だよ。
テキストの長さの影響：テキストの長さも役割を果たし、長いコンテンツは時々抑圧が少なかった。ただし、これは観察された異なる抑圧率の唯一の理由ではなかった。

発見に関するディスカッション

私たちの監査は、生成AIの文脈におけるアイデンティティ関連のスピーチがどのようにモデレートされているかに関して重要な問題を浮き彫りにしてる。これらの発見の影響は、自動コンテンツモデレーションがもたらす潜在的な危険を理解する上で重要だよ。

クリエイティブな表現のリスク：生成AIがストーリーテリングや創造的なライティングにますます使われる中で、コンテンツモデレーションシステムが示すバイアスは、誰のストーリーが語られるか制限する可能性がある。特定のアイデンティティが常にフラグ付けされるなら、その物語は創造的な領域で黙らされるかもしれない。
より良い監視の必要性：コンテンツモデレーションシステムの継続的な監視は、多様なスピーチをどのように扱うかを改善するために必要だよ。これらのシステムを定期的に監査することで、アイデンティティ関連のコンテンツに関するパフォーマンスの改善や悪化を追跡できる。
ユーザー体験への影響：私たちの分析からの結果は、これらのモデレーションシステムを導入しているプラットフォームでのユーザー体験に関する懸念を引き起こすよ。マイノリティアイデンティティのユーザーは、自分のスピーチが常にフラグ付けされたり抑圧されたりすることで、あまり居心地がよく感じないかもしれない。
将来の研究の方向性：コンテンツモデレーションシステムにバイアスの根本的な理由を探るために、より包括的な研究が必要だよ。特にアイデンティティに関連する部分については、これらのシステムをより公正で平等にするための改善が期待される。

結論

この分析の結果は、自動コンテンツモデレーションの文脈におけるアイデンティティ関連のスピーチが直面する課題を明らかにしてる。生成AI技術がますます広まる中で、これらのシステムが異なるアイデンティティグループのスピーチを正確かつ公平にモデレートできることが重要だよ。

スピーチ抑圧のダイナミクスを理解することは、すべての声が聞かれることができるより包括的なデジタルスペースを作るために重要だよ。継続的な研究とより良いモデレーションガイドラインの開発を通じて、コンテンツモデレーションが多様なアイデンティティの表現を抑え込むのではなく、支持する未来に向けて取り組んでいこう。

オリジナルソース

タイトル: Identity-related Speech Suppression in Generative AI Content Moderation

概要: Automated content moderation has long been used to help identify and filter undesired user-generated content online. Generative AI systems now use such filters to keep undesired generated content from being created by or shown to users. From classrooms to Hollywood, as generative AI is increasingly used for creative or expressive text generation, whose stories will these technologies allow to be told, and whose will they suppress? In this paper, we define and introduce measures of speech suppression, focusing on speech related to different identity groups incorrectly filtered by a range of content moderation APIs. Using both short-form, user-generated datasets traditional in content moderation and longer generative AI-focused data, including two datasets we introduce in this work, we create a benchmark for measurement of speech suppression for nine identity groups. Across one traditional and four generative AI-focused automated content moderation services tested, we find that identity-related speech is more likely to be incorrectly suppressed than other speech except in the cases of a few non-marginalized groups. Additionally, we find differences between APIs in their abilities to correctly moderate generative AI content.

著者: Oghenefejiro Isaacs Anigboro, Charlie M. Crawford, Danaë Metaxa, Sorelle A. Friedler

最終更新: 2024-09-09 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2409.13725

ソースPDF: https://arxiv.org/pdf/2409.13725

ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

コンテンツモデレーションとアイデンティティスピーチの抑圧

アイデンティティグループに関連するスピーチに対する自動モデレーションの影響を調べる。

#コンテンツモデレーションの重要性

#スピーチ抑圧の定義

#既存の研究と方法論

#監査からのインサイト

#主な発見：

#データセットとアイデンティティの分類

#新しいデータセットの作成

#スピーチ抑圧の結果

#APIの違いを詳しく見てみよう

#回帰分析の結果

#発見に関するディスカッション

#結論

参照リンク

参照トピック