Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語

オンラインのセクシズムに対処するための革新的な検出方法

研究は、オンラインのセクシズムを効果的に特定して分類するシステムの改善に焦点を当てている。

― 1 分で読む


オンラインでのセクシズムにオンラインでのセクシズムに立ち向かうデルを進めている。研究がオンラインのセクシズムを検出するモ
目次

セクシズムとミソジニーは、SNSで深刻な問題になってる。これが増えると、オンラインのスペースが敵対的になるだけじゃなくて、ネガティブなステレオタイプを助長して、個人やコミュニティに harm を与える。こうした害のある行動に対抗するために、研究者たちはオンラインでのセクシズムの検出と分類に取り組んでる。最近のコンテストは、こうした検出システムを改善して、わかりやすくすることに焦点を当ててた。目標は、セクシズムのコンテンツを明確に特定して、特定のカテゴリーに分類すること。

背景

オンラインでのセクシズムの増加は、その行動を監視したり対処したりする際に大きな課題をもたらしてる。さまざまな研究がセクシズムを検出することに焦点を当ててきたけど、多くの既存のシステムは理解しにくいんだ。最近のタスクは、こうした検出モデルの明確さを高めることを目指してる。このタスクの参加者は、セクシズムのメッセージをフラグし、重大度や特定に基づいて異なる種類に分類するシステムを作る必要があった。

研究アプローチ

正確なデータを集めるのが難しいから、研究者たちは既存のデータを使ってモデルを効果的に訓練する方法を探してる。以前の研究では、関連カテゴリーのデータを使ってモデルをさらに訓練することで、特定のタイプのコンテンツを識別するパフォーマンスが向上することが示されてる。俺たちのアプローチは、こうした発見に影響を受けてる。

ヘイトスピーチとセクシズム検出に関連する複数のデータセットを使ったんだ。いくつかはメッセージをヘイトスピーチとしてラベル付けし、他はセクシズムの異なる分類に焦点を当ててた。俺たちの目標は、データを準備し、モデルを訓練し、パフォーマンスを向上させるための最良のテクニックを特定すること。具体的には、追加訓練と同時に複数のタスクから学ぶというふたつの主な戦略を使った。

データ収集と準備

セクシズムの検出は、Reddit や Gab などのSNSプラットフォームからのメッセージを含む大規模なデータセットに基づいてる。このデータセットを使って、俺たちのモデルを訓練して評価した。データは、訓練用とテスト用の二つの部分に分けた。ヘイトスピーチとセクシズムに焦点を当てた他のデータセットもいくつか使用した。

訓練の前に、データを整理してクリーンにする必要があった。このプロセスでは、メッセージからユーザー名やURLを削除して、個人情報が分析に使われないようにした。また、ハッシュタグを標準化し、エモjisを言葉に変換して、テキスト処理を楽にした。

さらなる訓練

俺たちの研究では、どの訓練方法が最も効果的かを検証した。特にふたつの方法を調べた:

  1. ドメイン適応事前訓練 (DAPT):この方法は、セクシズムに関連するデータを使って、モデルをさらに訓練した。

  2. タスク適応事前訓練 (TAPT):この方法は、特定のタスクに関連するデータにのみ焦点を当てた。

これらの方法をテストして、どちらがテキスト内のセクシズムを検出する能力を改善できるかを調べた。

マルチタスク学習

さらに、俺たちの研究の重要な部分は、マルチタスク学習 (MTL) を活用することだった。このアプローチでは、モデルが複数のタスクを同時に学べるので、一つのことにだけ集中する必要がない。関連する異なるタスクで訓練することで、モデルの内容に対する理解を深め、全体的なパフォーマンスを向上させることを期待してた。

MTLでは、タスクを一緒に処理する共有モデルを使ったけど、各タスクのために別々の部分を保持してた。こうすることで、モデルはさまざまな領域の知識を組み合わせながら異なる問題を解決できた。この方法で俺たちのモデルを訓練するのがどれだけ有用かを調べた、特にセクシズムとヘイトスピーチの検出に関連するタスクに焦点を当てた。

実験結果

テストの過程で、ドメイン固有のデータを使った追加訓練が、一般的にパフォーマンスを向上させることがわかった。マルチタスク学習は特定のタスク、特に一般的なヘイトスピーチ検出を含むタスクに対して特に有益だった。セクシズムの特定の形態に焦点を当てたタスクでは、標準的な訓練方法の方が効果的だった。

結論

この研究から、オンラインでのセクシズム検出プロセスに関する有望な洞察が得られた。さらなる訓練とマルチタスク学習戦略を使うことで、モデルのパフォーマンスを向上させることができた。異なるタスクは異なる訓練技術から恩恵を受けることがわかって、研究の具体的な目標に基づいて正しいアプローチを選ぶことの重要性を強調してる。

これからは、オンラインスペースでセクシズムを効果的に検出し分類できるモデルを作ることが重要だってのが明らかだ。オンライン環境が成長し続ける中、全てのユーザーにとってより安全で尊重されるものにするための努力も続けていかないといけない。

オリジナルソース

タイトル: LCT-1 at SemEval-2023 Task 10: Pre-training and Multi-task Learning for Sexism Detection and Classification

概要: Misogyny and sexism are growing problems in social media. Advances have been made in online sexism detection but the systems are often uninterpretable. SemEval-2023 Task 10 on Explainable Detection of Online Sexism aims at increasing explainability of the sexism detection, and our team participated in all the proposed subtasks. Our system is based on further domain-adaptive pre-training (Gururangan et al., 2020). Building on the Transformer-based models with the domain adaptation, we compare fine-tuning with multi-task learning and show that each subtask requires a different system configuration. In our experiments, multi-task learning performs on par with standard fine-tuning for sexism detection and noticeably better for coarse-grained sexism classification, while fine-tuning is preferable for fine-grained classification.

著者: Konstantin Chernyshev, Ekaterina Garanina, Duygu Bayram, Qiankun Zheng, Lukas Edman

最終更新: 2023-06-08 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2306.05075

ソースPDF: https://arxiv.org/pdf/2306.05075

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事