TalkUpデータセットを通じてエンパワーメント言語を理解する
研究は、言語がさまざまな社会的文脈で個人をどう力づけるかを探ってる。
― 1 分で読む
エンパワーメントの言葉は、教育や仕事、医療など多くの生活の分野で重要な役割を果たしてるんだ。言葉を処理する技術が一般的になってきてるけど、言語が人をエンパワーする方法にはあまり注目されてない。だから、エンパワーメントは微妙で定義しにくいことが多くて、研究が難しくなってる。この研究は、言語と心理学の研究をもとに、どんな言葉がエンパワーメントを生むのかを特定することを目指してる。私たちは、エンパワーメントを強調したRedditの投稿からユニークなデータセットを作成して、エンパワーメントの理由や、これらの投稿を作成した人々と読んだ人々の関係を明らかにしたんだ。
初期の発見では、「TalkUp」と名づけたこのデータセットが、エンパワーメントと非エンパワーメントの言葉を識別するための言語モデルの訓練に役立つことが示唆されてる。TalkUpは、言語を取り巻く文脈や社会的関係がその意味にどのように影響するかを研究するためのさらなる扉を開いてくれる。
この概念を説明するために、2種類の会話を考えてみて。1つ目は明らかにエンパワーメントを与えるもので、2つ目はもっと混乱を招くもので、役立つアドバイスとも、無視するような発言とも取れるかもしれない。文脈、つまり投稿者と読者の関係がメッセージの影響を大きく変えることがあるんだ。
エンパワーメント、つまり誰かに自信を持たせて自分の選択をさせることは、多くの社会的状況での目標なんだ。教師は生徒をエンパワーしたいし、ソーシャルワーカーはクライアントを支援するし、政治家はフォロワーを動機付けようとする。心理学や言語学の研究によれば、エンパワーメントは人の自信や自己価値を高めることがある。
言語技術がよりインタラクティブな状況で応用されるようになるにつれて、言語がどのように個人をエンパワーしたり、逆に非エンパワーメントになるかを理解することが重要になってくる。メンタルヘルスサポートのためのチャットボットから教育ツール、マネージャーからのフィードバックまで、使われる言葉は結果を大きく変える可能性がある。
これまでの研究は主に有害な言葉を特定することに焦点を当ててきたけど、どんなテキストが役立つのかについてはあまり注目されてこなかった。一部の研究では、見下しや隠れたネガティビティといったアイデアを調査していて、私たちの研究はこれらの研究を基にして、そうしたタスクを強化するためのデータセットを作成してる。
エンパワーメントを考えると、社会的な文脈が大きな役割を果たすことが明らかだ。ある人が会話をエンパワーメントと感じるかどうかは、しばしば人々のアイデンティティや背景を含む社会的なダイナミクスに依存してる。
エンパワーメントは伝統的な言語ツールでは簡単に認識されないから、私たちはそれを検出する方法をもっと学ぶ必要がある。私たちの研究は、3つの重要な研究質問を提起してる:
- エンパワーメントの言語をどのように定義し、検出できるか?
- 言語に存在するエンパワーメントの種類は?
- 社会的文脈が言語にどのように影響するか?
私たちの貢献は3つある:
- 既存の研究に基づいて、言語の中のエンパワーメントを検出するタスクを提案する。
- エンパワーメントのためにラベル付けされたRedditの投稿データセット「TalkUp」を作成し、投稿者と読者の関係を詳述する。
- このデータを分析して、エンパワーメントまたは非エンパワーメントの言葉を特定するモデルを訓練できる方法を示し、行動に関する質問に答える。
最終的な目標は、将来の研究者がエンパワーメントの言葉を検出・生成できるモデルを開発するのを助けることで、言語使用の文脈や影響についての幅広い研究を促進することだ。
エンパワーメントを定義する際、私たちは臨床心理学におけるその意味に焦点を当てててる。これは通常、セラピストと患者の対話を含む。こうした焦点が、言語がどのように個人を高めるかを明確にする手助けをしてる。
エンパワーメントはしばしば暗示的で、明確に述べられてないことが多いけど、文中のトーンや励まし、または検証から推測することができる。社会的文脈は、メッセージがエンパワーメントとして見なされるかどうかに大きく影響する。誰が話しているか、誰が聞いているかが重要なんだ。
TalkUpデータセット
ここからは、TalkUpデータセットの構築方法について話すね。
アノテーションスキーム
私たちはデータセットを作成するためのアノテーショントaskを開発した。このタスクは、ダイナミクスとしての文脈の重要性や、アノテーターの社会的役割に関する応答の不一致、投稿のあいまいさを学ぶことで洗練された。最終的なタスクは、主に3つの部分から成り立ってる:
エンパワーメントの評価:投稿をエンパワーメント、ニュートラル、非エンパワーメントのスケールで評価する。投稿が読者の権利や選択を支持するとエンパワーメントとみなされ、逆に否定する場合は非エンパワーメントとされる。
エンパワーメントの理由の特定:投稿がエンパワーメントとみなされる理由を15個リストアップし、それぞれの投稿に関連するものを選定した。
スタンスの決定:投稿者とコメント者がトピックについて同意または不同意だったかを調査し、言語の解釈に影響を与える可能性があるかを見た。
データソース
TalkUpは、大量の2500万コメントからのReddit投稿で構成され、コメント者と投稿者の性別も注釈として付けられてる。性別を社会的変数として重視することで、言語のエンパワーメントのダイナミクスをよりよく理解しようとした。
私たちは、関連する議論や投稿が非常に短すぎたり長すぎたりしないようにデータをフィルタリングした。
初期の実験では、モデルが潜在的なエンパワーメントの投稿を特定するのに役立つことがわかり、アノテーション用に多様な範囲を選ぶことができた。
データ収集のために、Amazon Mechanical Turkを通じてチームワークを集め、熟練したワーカーが投稿の注釈を行った。アノテーターには特定の資格を求めて、質を維持し、公平な報酬を支払った。
データ統計
私たちはデータセットの包括的な概要を収集し、異なるサブレディットにおけるエンパワーメントラベルの分布や女性による投稿の割合を記録した。
2000件の注釈付き投稿のうち、962件がエンパワーメントとしてラベル付けされ、129件が非エンパワーメント、267件があいまいだった。エンパワーメントされた投稿の大部分は明確な理由がなく、テキスト内でエンパワーメントを特定することの複雑さを示してる。
アノテーター間の合意は、タスクの微妙な性質を考慮すると、許容できる一貫性を示してる。計算社会科学における類似の合意スコアは、このタスクが複雑である一方で、言語解釈に関する現在の研究と一致していることを示してる。
データ分析
エンパワーメントの言葉に関する私たちの発見の初歩的な分析を提示する。
エンパワーメントの言葉の特徴
特定の言語特徴を調べることで、エンパワーメントは単にポジティブな言葉だけでなく、トーンにも関わってることがわかった。エンパワーメントの言葉はしばしば直接的で個人的で、単数の代名詞「私」や「あなた」を使うことが多いのに対して、逆にあまりエンパワーメントにならない言葉は、複数の代名詞「私たち」や「彼ら」を使うことが多い。
性別とエンパワーメントの言葉
性別間でエンパワーメントの言葉を比較したとき、女性は男性よりもポジティブなトーンと感情的な言語を使う傾向があった。例えば、女性は感嘆符を多く使い、男性はより強い言葉を使うことが多かった。
興味深いことに、女性は全体的により多くのエンパワーメントのコンテンツを生み出してたけど、男性に比べて非エンパワーメントの投稿の割合がわずかに高かった。これは、女性がエンパワーメントの言語に関わる際に、その文脈によって大きく変わる可能性があることを示してる。
エンパワーメントの理由
私たちは、投稿がエンパワーメントと見なされる理由が多様であることを観察し、最も一般的な理由は感情を表現するように促すことや、読者の自己像を支えることだった。異なるサブレディットは、ユーザーをエンパワーする方法に独自のパターンを示しており、文脈が使用される言語において重要な役割を果たすことを示唆している。
投稿者とコメント者の一致
私たちの分析で重要だったのは、投稿者とコメント者の間の一致が投稿のエンパワーメントにどのように影響するかだった。ほとんどのエンパワーメントされた投稿は参加者間の合意がある場合に発生し、非エンパワーメントの投稿はしばしば不同意を反映していた。
エンパワーする言葉のモデル化
エンパワーメントの言葉をどれだけうまくモデルが捉えられるかを分析するために、ファインチューニングされたRoBERTaモデルとゼロショットGPT-3モデルの2種類を評価した。ファインチューニングされたモデルはゼロショットアプローチよりも良いパフォーマンスを示し、TalkUpのようなよく構成されたデータセットの重要性を浮き彫りにした。
エンパワーメントの言葉におけるあいまいさ
私たちのデータセットには、あいまいなラベルが付けられたサンプルが多数含まれており、様々な解釈が可能な言語が示されている。このあいまいさは、コミュニケーションの複雑さや文脈が解釈に大きく影響することを示す深い洞察を提供している。
今後の方向性
検出と分類に主に集中しているけれど、私たちの研究はよりエンパワーメントされた言語を生成する可能性も開いている。将来の研究では、私たちのデータセットを利用して、エンパワーメントを意識したテキストを生成するシステムの可能性を探ることができる。
2ターンのインタラクションと3つの社会的変数を研究することで、エンパワーメントの多次元性についてさらに探求することを奨励している。複数ターンの対話における言語の理解や、人種、年齢、その他のアイデンティティがどのように影響するかを考慮することで、言語が社会的ダイナミクスに与える影響についてより深い洞察が得られるかもしれない。
結論
この研究は、NLPにおけるエンパワーメントの言葉をより良く理解する必要性を強調し、言語が持ち得る社会的文脈や心理的効果を強調している。TalkUpデータセットを導入し、初期分析を行うことで、さまざまな状況で言語が持つエンパワーメントや非エンパワーメントへの影響を理解する重要なステップを踏んでいる。この分野でのさらなる探求は、日常生活における言語技術の影響を高めるために重要で、特に教育やセラピーなどにおいて重要だ。
倫理と制限
私たちの研究では、データの収集や注釈付けにおいて倫理基準を優先し、公平な報酬と敏感なコンテンツに対する慎重なチェックを行った。しかし、アノテーターの人口統計における潜在的なバイアスや、ノンバイナリーのアイデンティティの限られた表現など、私たちの研究には制限があることを認識している。将来の研究は、より包括的な探求と、Reddit以外のより多様な領域でのエンパワーメントを探求することを目指すべきだ。
この研究を通じて、実世界のアプリケーションにおけるエンパワーメントの言葉の取り入れを進め、さまざまな社会的文脈でよりポジティブな相互作用を促進する道を切り開きたいと思ってる。
タイトル: TalkUp: Paving the Way for Understanding Empowering Language
概要: Empowering language is important in many real-world contexts, from education to workplace dynamics to healthcare. Though language technologies are growing more prevalent in these contexts, empowerment has seldom been studied in NLP, and moreover, it is inherently challenging to operationalize because of its implicit nature. This work builds from linguistic and social psychology literature to explore what characterizes empowering language. We then crowdsource a novel dataset of Reddit posts labeled for empowerment, reasons why these posts are empowering to readers, and the social relationships between posters and readers. Our preliminary analyses show that this dataset, which we call TalkUp, can be used to train language models that capture empowering and disempowering language. More broadly, TalkUp provides an avenue to explore implication, presuppositions, and how social context influences the meaning of language.
著者: Lucille Njoo, Chan Young Park, Octavia Stappart, Marvin Thielk, Yi Chu, Yulia Tsvetkov
最終更新: 2023-10-23 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2305.14326
ソースPDF: https://arxiv.org/pdf/2305.14326
ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。