MeToo投稿からの重要な洞察を抽出する
生存者の物語の中で重要な要素を特定して、より良いサポートを提供する方法。
― 1 分で読む
性的嫌がらせのサバイバーたちは、ソーシャルメディアで自分の経験を話すことが多いよね。彼らは自分の感情や気持ちを共有したり、アドバイスを求めたりしてる。Redditみたいなプラットフォームの投稿は、長くて複雑なことが多いんだ。こういう投稿は大体、3つの主要な部分で構成されてる:(i)性的嫌がらせの出来事の説明、(ii)その出来事がサバイバーに与えた影響、(iii)彼らが求めているアドバイス。
こういった詳しい投稿をMeToo投稿って呼ぶんだけど、全部がそう名付けられているわけじゃないし、Redditの特定のグループで見つかるわけでもない。助けたいと思っているカウンセラーや友達にとって、長い投稿からサバイバーのニーズを理解するのは難しいし、時間がかかることもあるよね。
この問題に対処するために、長い投稿から重要な情報を抽出する方法を開発したんだ。私たちの目標は、何が起きたのか、サバイバーにどう影響したのか、そしてどんなアドバイスを求めているのかを説明する文を特定すること。
私たちの方法をMeToo投稿の特定のコレクションでテストしたところ、モデルの成功率は約82%だったよ。また、Redditから集めた9000文近くのデータセットも集めた。書かれた言語を分析するためのツールを使って、さまざまな感情やトーンを表現する文がどのように異なるかを研究できた。
アメリカでは、多くの人が人生の中で何らかの性的嫌がらせや暴力を経験したと報告しているよね。MeToo運動は、活動家がこの用語を作り出し、サバイバーたちに経験を共有するよう促すところから始まった。この運動の目的は、性的嫌がらせに関する透明性を促進し、サバイバーに彼らが一人ではないことを思い出させること。
既存の研究は主に、個人的なストーリーを特定したり、描写された嫌がらせのタイプを認識するなど、これらの投稿を分類することを見ているんだ。サバイバーを助けるために重要な投稿を特定することは大事だけど、ある投稿が重要だと知っているだけじゃ不十分なんだ。助ける側は、状況を把握し、出来事がサバイバーにどんな影響を与えたのか、どんなアドバイスを求めているのかを理解する必要がある。
Redditは長い投稿を許可しているから、助けたい人にとって、すべてを詳細に読むのは大変だよね。私たちのアプローチは、こうした長い文章から自動的に関連する文を抽出することで、その負担を軽減することを目指しているんだ。
文のカテゴリー
私たちは、抽出した文を3つのタイプに分類してる:
- 性的嫌がらせの出来事を説明する文。
- その出来事がサバイバーに与えた影響を説明する文。
- 求めているアドバイスを表現する文。
簡単な例を挙げると、サバイバーが「職場で同僚に肩を触られて、不快に感じた」と言うかもしれない。この文は嫌がらせを説明してる。別の例では、「この状況にどう対処すればいいか不安で、どうしたらいいか分からない」と言うことで、感情的な影響を示してる。最後に、「どうすればいい?」ってアドバイスを求める文もあるね。
抽出モデルをテストしたとき、私たちはサンプル投稿からこれらのカテゴリーに文を効率的に特定して分けられることがわかった。
研究質問
私たちは研究の中で主に2つの質問に焦点を当てたよ。
- MeToo投稿から自動的にこの3つの文のカテゴリーを抽出するにはどうすればいいのか?これができれば、支援を考えている人たちがサバイバーの状況を理解するのが楽になる。
- これらの文にどんな言語パターンがあり、サバイバーの感情についてどんな心理的洞察が得られるか?
これらの質問に答えることで、サバイバーをサポートしたい人のための実用的なツールを開発することを目指しているんだ。
貢献と新規性
この研究にはいくつかの重要な貢献があるんだ。
データセットの作成:私たちは、特定した3つのカテゴリーにタグ付けされた約9000文のデータセットを構築した。これは、注意深く考慮し、思慮深いアプローチが必要な簡単な作業じゃなかった。
自然言語モデル:私たちは、長いMeToo投稿から文を抽出できるモデルも作った。このモデルは、高度な言語処理技術を使って、印象的な結果を出している。
言語分析:特定の言語分析ツールを使って、3つのカテゴリー間で文のトーンや感情表現がどのように異なるかを探った。このことが、MeToo投稿に描かれた経験に関連するより深い心理的洞察を明らかにするのに役立つんだ。
全体として、私たちの研究は、長い投稿から文を抽出することに焦点を当てたこの分野の初めての研究の一つだと思ってる。それによって、既存の議論や研究に貢献できる。
重要な発見
私たちの文抽出方法は、テスト中に82%のパフォーマンスを記録した。これは、助けたい人たちが出来事や感情的な影響、アドバイスの要求を理解するための関連文を成功裏に特定できることを示している。
収集したデータセットの言語を分析したとき、いくつかの興味深い観察結果が得られたよ。
- サバイバーの感情的な影響を説明する文は、出来事やアドバイスを求める文に比べて、よりネガティブな傾向があった。
- アドバイスを求める文は、全体的によりポジティブなトーンを持っていた。
- 感情的な影響のカテゴリーの中で、不安の感情が際立っていて、次に悲しみやポジティブな感情が続いていた。
私たちは、更なる検証のために小さな定性的な研究も行った。調査した20の投稿のうち、17件では抽出された文が出来事、感情的影響、求められるアドバイスについて明確な洞察を提供していた。ほとんどの場合、抽出された情報に基づいて有用な反応を形成できたんだ。
データセットとモデル開発
文抽出モデルを開発するにあたり、私たちはこのタスクを分類の一種として扱った。つまり、各文を1つ以上のカテゴリーに属するようラベル付けすることを目指したんだ。
まず、Redditから9000以上のMeToo投稿を集めて、関連するコンテンツをフィルタリングした。私たちは、サバイバーの個人的な経験を含む投稿だけを選んで、一般的な意見やニュース記事は含めなかった。
これらのフィルタリングされた投稿から、3つのカテゴリーのために大量の候補文を生成したよ。この過程では、MeTooの議論でよく出現する特定のキーワードを探すことが含まれていた。私たちの目標は、モデルが学習するための豊かなデータセットを作ること。
アクティブラーニングアプローチ
私たちは、データセットを洗練させ、モデルを改善するためにアクティブラーニング戦略を使用した。この方法にはいくつかのステップがあるよ:
- 初期データセット:候補文からなる初期ラベル付けされたデータセットを作った。
- モデルのトレーニング:初期データセットでモデルをトレーニングし、新しい未ラベルの文に対して予測を行った。
- 手動ラベリング:モデルが予測した選択された文を手動でレビューしてラベリングし、バイアスを最小限に抑えた。
- 反復的改善:このプロセスを何度も繰り返して、データセットを改善し、モデルを洗練させた。
このプロセスの終わりには、モデルが長いMeToo投稿から重要な文を成功裏に抽出できる包括的なデータセットができあがった。
定性的分析
最終モデルを構築した後、ランダムに選んだ20の長い投稿に適用した。投稿を文に分割し、私たちのモデルを使って関連する文を抽出し、抽出されたテキストが出来事、影響、アドバイスを理解するのに役立つか確認した。
20件中17件のケースでは、抽出された文は一貫性があり、貴重な洞察を提供していた。これは、支援を提供したい個人や団体が私たちの方法を使ってさらに簡単に支援できることを示してる。
心理言語学的洞察
言語分析ツールを使って、データセットの文を詳しく調べた。私たちは、否定的な感情や肯定的な感情を伝達しているか、文がどれだけ感情的かを見てみた。
サマリー分析
分析の中で、3つの文のカテゴリー全てに似た傾向が見られた。論理的思考や自信のスコアが低い傾向があった。これは、サバイバーが経験を共有する際に、力強さや自信を感じていない可能性を示唆している。
しかし、真実性のスコアは高く、サバイバーは遠慮せずに自分の経験をオープンに共有していることが分かった。
アフェクト分析
抽出された文の感情的な側面も分析した。効果について焦点を当てた文は、出来事やアドバイスを求める文に比べて、よりネガティブなトーンを持つことが多かった。
興味深いことに、アドバイスを求める文の中には自己非難が表現されているものもあり、サバイバーが自分の行動を疑問視しているかもしれないことを示している。にもかかわらず、アドバイスを求める文にはポジティブなトーンもあった。
関連研究
多くの研究がMeToo投稿を調査しているけど、文レベルでの情報抽出に焦点を当てたものは少ないんだ。ほとんどの研究は、投稿を広いカテゴリに分類したり、Twitterのようなプラットフォームでの短いメッセージを分析したりしている。
私たちの仕事は、Redditのようなプラットフォームで共有された長い物語を解釈することを目指していて、既存の文献での特定のギャップを埋めるものとして際立っている。洞察に満ちた詳細を抽出することで、各サバイバーの経験のニュアンスをよりよく理解できるんだ。
結論
要するに、私たちの研究は長いMeToo投稿から情報を効率的に抽出する重要性を強調している。特化したアプローチを使うことで、私たちは助ける人々が投稿全体を読むことなく、サバイバーのニーズを理解できる重要な文を特定できるモデルを作った。
この方法は、サポートプロセスを迅速化する可能性があり、助ける側が効果的に応答するのを楽にするんだ。私たちの心理言語学的分析から得られた発見も、サバイバーの感情的な経験についての貴重な洞察を提供していて、思いやりのある支援を提供したい人に役立つ。
制限事項と今後の研究
私たちの研究は重要な洞察を提供する一方で、いくつかの制限があり、今後の研究の方向性を示唆しているよ:
一貫性の問題:抽出された文の中には一貫性が欠けているものもあるかもしれない。今後の改善は、追加の文脈を含める抽出プロセスを強化することに焦点を当てるべきだ。
データセットの範囲:私たちのモデルは特定のサブレディットからの文のみに基づいてトレーニングされた。今後は、より広範囲なMeToo関連の議論を含むアプリケーションを拡大したい。
自動応答:今後のバージョンでは、抽出された文のカテゴリーに基づいて自動応答を生成する能力も探求できるかもしれない。これにより、サバイバーへの即時支援が促進される可能性がある。
広範なアプローチ:最後に、私たちの発見が様々な文脈での性的嫌がらせの事例を特定し、応答するための新しいアプローチに役立つことを望んでいる。
倫理的考慮
私たちの研究の性質は重要な倫理的な問題を提起する。公開された投稿からデータを収集したが、関与したサバイバーから直接の同意を得ることはできなかった。彼らの中には、こんな個人的なストーリーを共有した後に連絡を取られることに抵抗を感じる人もいるかもしれない。
私たちは、匿名性を確保し、例から特定の情報を排除するだけでなく、文をラベル付けする際の素材の感受性も考慮した。すべての作業は、同じような経験を持つ可能性のあるボランティアや作業者を苦しめないように著者たちによって行われた。
こうした敏感な物語の誤解の可能性を認識し、私たちはラベリングプロセスの絶対的な正確性を主張することには慎重である。私たちの目指しているのは、サバイバーを支援するために責任を持ってこの研究を活用することで、データ収集や解釈において倫理基準を維持することなんだ。
タイトル: Extracting Incidents, Effects, and Requested Advice from MeToo Posts
概要: Survivors of sexual harassment frequently share their experiences on social media, revealing their feelings and emotions and seeking advice. We observed that on Reddit, survivors regularly share long posts that describe a combination of (i) a sexual harassment incident, (ii) its effect on the survivor, including their feelings and emotions, and (iii) the advice being sought. We term such posts MeToo posts, even though they may not be so tagged and may appear in diverse subreddits. A prospective helper (such as a counselor or even a casual reader) must understand a survivor's needs from such posts. But long posts can be time-consuming to read and respond to. Accordingly, we address the problem of extracting key information from a long MeToo post. We develop a natural language-based model to identify sentences from a post that describe any of the above three categories. On ten-fold cross-validation of a dataset, our model achieves a macro F1 score of 0.82. In addition, we contribute MeThree, a dataset comprising 8,947 labeled sentences extracted from Reddit posts. We apply the LIWC-22 toolkit on MeThree to understand how different language patterns in sentences of the three categories can reveal differences in emotional tone, authenticity, and other aspects.
著者: Vaibhav Garg, Jiaqing Yuan, Rujie Xi, Munindar P. Singh
最終更新: 2023-03-19 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2303.10573
ソースPDF: https://arxiv.org/pdf/2303.10573
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://www.nsvrc.org/statistics
- https://www.reddit.com/r/meToo/
- https://www.reddit.com/r/SexualHarassment/
- https://www.reddit.com/r/sexualassault/
- https://www.eeoc.gov/sexual-harassment
- https://psaw.readthedocs.io/en/latest/
- https://docs.scipy.org/doc/scipy/reference/generated/scipy.optimize.curve_fit.html
- https://www.nltk.org/api/nltk.tokenize.html
- https://pypi.org/project/PyDictionary/
- https://pytorch.org/
- https://nlp.stanford.edu/projects/glove/
- https://www.safecity.in/