プレゼンテーションがヘイトスピーチに対する認識に与える影響
異なるレイアウトがヘイトスピーチに対する見方にどんな影響を与えるかを調べる。
― 1 分で読む
この記事では、機械学習モデルに関する情報の提示方法が、人々が「ミソジニー」や「人種差別」を含むかもしれない文に対してどう感じるかを変えられるかどうかを考察しているよ。最近のディスカッションでは、機械学習の情報の見せ方が人々の評価に影響を与えるかどうかについて様々な意見があった。
研究とその目的
私たちは、参加者が攻撃的かもしれない文を見て評価する研究を実施した。これらの文は、機械学習がヘイトスピーチをどう特定するかを説明する3つの異なるレイアウトで示された。目的は、これらのレイアウトが参加者の文の評価を変えるかどうかを調べることだった。
この質問を探るために、参加者が文に「人種差別」や「ミソジニー」とラベル付けされたことに同意するか反対するかを評価するアンケートアプローチを用いた。結果を分析するために特定の方法を使って、レイアウトが影響を与えたかどうかを見てみた。
オンラインコミュニティの規範
オンラインのグループは、メンバーのやり取りを規制するルールを定めている。これらのルールは人々の意見が変わるにつれて進化するから、違反と見なされるものの明確な定義を持つのが難しい。以前の研究では、メンバーからのフィードバックに基づいて、これらのグループが何が悪い行為かを学ぶ手助けをする機械学習のフレームワークを提案した。このフレームワークは、高度なモデルを使ってWikipediaのような場面での行動を理解し分類する。
解釈の重要性
私たちの以前の議論では、ヘイトスピーチに関する規範の違反を見つけるだけでなく、こうしたシステムがオンライングループの多様な見解を説明することが重要だと述べた。これにより、人々は文中のどの言葉がモデルによる分類に繋がるかを理解できる。より明確にするために、どの言葉が文をヘイトフルと識別するのに寄与するかを可視化する特定のアルゴリズムを使った。
私たちはこの情報を提示するために3つのレイアウトを設計した:一つは文中の具体的な言葉に焦点を当て、もう一つはデータセット内の言葉の全体的な関連性をまとめたもの、そして三つ目は両方のアプローチを組み合わせたもの。それぞれのレイアウトは、モデルがどういう結論に至ったかについてユーザーに異なる視点を与えることを目的としていた。
研究デザイン
私たちのユーザー研究では、様々な背景を持つ参加者を集めてこれらのレイアウトを評価してもらった。各参加者は、まず解釈情報なしで、次にそれを伴って文を評価するアンケートを受けた。これにより、解釈データを提供することが彼らの見解に変化をもたらすかどうかを見ることができた。
研究は意味のある結果を収集できるように慎重に構成された。参加者を3つのグループに分け、それぞれのグループが異なるレイアウトを評価した。参加者は、ヘイトスピーチの2つのクラスを均等に表す20文を評価した。私たちは、性別や民族性などの様々な要因に基づいて彼らの評価を分析するために、確固たる統計的方法を使用した。
主な発見
回答を分析した結果、解釈可能なレイアウトが参加者のミソジニーや人種差別に対する見方を大きく変えなかったことがわかった。つまり、情報の提示方法が評価に影響を与えなかったということ。ただし、特定の文や個人の視点の違いは評価に影響を与えた。
参加者の慣れと先入観
参加者はヘイトスピーチが何かを明確に理解していて、モデルからの期待される結果に沿った評価をすることが多かった。多くのコメントは、解釈データがヘイトスピーチに関する先入観を確認するものであって、変えるものではないことを示していた。
テーマに対する慣れが、より直感的な反応を引き起こした。参加者は、文中の言葉が十分に明確で、レイアウトからの詳細な説明を必要とせずに迅速に判断できると感じることが多かった。
レイアウトからの影響はなし
異なる解釈可能性のレイアウト間で結果を比較したところ、どれも他よりも大きな影響を持たなかった。性別や民族性も評価に影響を与えなかった。これは、参加者が情報の提示方法よりも、ヘイトスピーチに対する自分の理解や認識に頼っていたことを示している。
定性的な洞察
参加者は、自分の経験に基づいた貴重なコメントを提供してくれた。多くは解釈可能性のレイアウトの効果について懸念を示した。モデルが強調した関連性が、焦点を絞ったものではなく、正確に見えなかったという意見もあった。これは、モデルが明瞭さを提供しようとしている一方で、人間の理解に響かないことがあるかもしれないことを示唆している。
将来の研究への影響
この研究で解釈可能性のレイアウトが影響を与えなかったことは、将来の研究が他の種類の違反を探る必要があることを示唆している。異なる文脈では、解釈可能性のレイアウトが異なる結果につながることもあるかもしれない。たとえば、オンラインミーティングのような他の分野では、参加者がルールに関する先入観を持たないため、解釈情報がより効果的かもしれない。
結論として、解釈可能性は機械学習において重要なツールであり続けるが、ヘイトスピーチに対する認識を変える効果は限られている。将来の研究では、これらのアプローチを引き続き洗練させ、より広い応用を探って、それらが最も効果的に活用できる場所を特定するべきだ。
タイトル: Can Interpretability Layouts Influence Human Perception of Offensive Sentences?
概要: This paper conducts a user study to assess whether three machine learning (ML) interpretability layouts can influence participants' views when evaluating sentences containing hate speech, focusing on the "Misogyny" and "Racism" classes. Given the existence of divergent conclusions in the literature, we provide empirical evidence on using ML interpretability in online communities through statistical and qualitative analyses of questionnaire responses. The Generalized Additive Model estimates participants' ratings, incorporating within-subject and between-subject designs. While our statistical analysis indicates that none of the interpretability layouts significantly influences participants' views, our qualitative analysis demonstrates the advantages of ML interpretability: 1) triggering participants to provide corrective feedback in case of discrepancies between their views and the model, and 2) providing insights to evaluate a model's behavior beyond traditional performance metrics.
著者: Thiago Freitas dos Santos, Nardine Osman, Marco Schorlemmer
最終更新: 2024-03-01 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2403.05581
ソースPDF: https://arxiv.org/pdf/2403.05581
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。