Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語# 機械学習

言語に隠されたメッセージを理解する

コード言語とその社会における影響を探る。

― 1 分で読む


コードされた言語の解読コードされた言語の解読政治や社会のスピーチに隠された意味を探る
目次

ドッグホイッスルは、特定のグループにメッセージを送るために使われる隠れた意味を持つコミュニケーションの一種だよ。一般の人には気づかれないようにするためのもので、多くの人には無害に見えるかもしれないけど、人種や階級、政治に関する問題では有害なメッセージを運ぶこともある。歴史的には、アメリカの政治でよく使われてたけど、最近はソーシャルメディアにも広がってる。これにより、ユーザーはヘイトスピーチを捕まえるためのシステムに引っかかりにくい意見を表明できるわけ。

ドッグホイッスルの歴史的背景

「ドッグホイッスル」という言葉は、特に公然とした人種差別が厳しく叩かれていた時代に、特に公民権運動の後に政治的スピーチの中から生まれた。政治家たちは、反発を受けずに人種的バイアスを表現するために、暗号的な言語を使い始めたんだ。これによって、見た目には非人種差別的に見えるのに、差別的な考えをコミュニケーションできるようになった。ドッグホイッスルの使い方は時と共に進化して、特にオンラインでは現在の社会的な状況やプラットフォームに合わせて適応されてるよ。

大規模言語モデル(LLM)の役割

大規模言語モデル(LLM)は、人間の言語を理解し生成できるAIシステムだ。この文脈では、言語パターンを分析してドッグホイッスルを特定し説明するのに役立つ。大規模なテキストを処理できて、符号化された言語を見つける特定のタスクで訓練されることができるから、特に便利なんだ。

意味の曖昧さの解消の重要性

意味の曖昧さの解消は、文脈に基づいて単語の異なる意味を区別するのに役立つタスクだ。例えば、「ソイ」という言葉は、ある状況では食品を指すかもしれないけど、別の場面では侮辱的に使われることもある。多くのドッグホイッスルはこのように機能する-最初は無邪気に見えるけど、特定の文脈では有害な意味を持つ。LLMにこれらの意味を解消することを教えるのは、ドッグホイッスルを効果的に特定するために重要なんだ。

サイレントシグナルデータセット

ドッグホイッスルの使用をより理解し分析するために、サイレントシグナルと呼ばれるデータセットが作成された。このデータセットには、アメリカ合衆国議会の記録のような正式な場面から、Redditのコメントのような非公式な場面まで、たくさんのドッグホイッスルの例が含まれているんだ。このデータセットは、ドッグホイッスルが異なる文脈でどのように使用されるかを研究するための包括的なリソースを提供することを目指しているよ。

ドッグホイッスルを特定する際の課題

ドッグホイッスルを特定する主な難しさの一つは、その微妙さと、多くの用語が一般に受け入れられている意味を持つことだ。例えば、「ソイ」という言葉自体は何も危険信号を発信してるわけではないけど、特定の文脈では特定のグループを侮辱するために使われることもある。伝統的なヘイトスピーチ検出システムは、微妙なニュアンスを捉えるのが難しいことが多いんだ、なぜならそれらはあからさまに攻撃的な言葉を捕まえるために設計されてるから。

社会科学と政治研究における応用

ドッグホイッスルを理解することは、社会科学や政治研究など、さまざまな分野にとって重要だ。ドッグホイッスルの使われ方を分析することで、研究者たちは差別のダイナミクスや、特定のグループがどのように言語を使って世論を操るかをより良く理解できる。こうした知識は、より良いコンテンツモデレーションシステムを作成するのに役立ち、有害な発言が適切に特定され対処されるようにする。

サイレントシグナルデータセットの構築

サイレントシグナルデータセットは、主にRedditやアメリカ議会の記録といった公共のデータソースから作成された。さまざまな例を集めることで、データセットはドッグホイッスルの進化と普及を研究するための豊富なリソースを提供する。このコレクションには、各エントリーの重要な文脈情報も含まれていて、これによりこれらのフレーズがどのように言説の中で機能するかをより深く分析できるようになってるんだ。

データ収集プロセス

データセットを作成するために、何千ものコメントやトランスクリプトがソーシャルメディアや政府のアーカイブから収集された。研究チームは、ドッグホイッスルとして知られる特定の用語を探してたんだ。各インスタンスは、用語が使われた文脈などの追加の詳細で慎重に注釈が付けられて、研究者が正確に意味を解釈できるようにしている。

LLMでの実験

データセットが編纂された後、さまざまなLLMがテストされて、ドッグホイッスルを特定し説明する効果を測定した。モデルに文を分析させて、ドッグホイッスルが含まれているかどうかを特定するように依頼したんだ。モデルは、遭遇したフレーズを正しく特定し定義する能力に基づいて評価された。

モデルのパフォーマンス

異なるモデルをテストした結果、成功の度合いにばらつきがあった。GPT-4のような一部のモデルは、ドッグホイッスルを特定するのが得意だったけど、他のモデルは苦戦してた。この研究は、LLMが特定のタスクに役立つことができる一方で、まだ完全には信頼できなくて、ニュアンスのある符号化された言語を検出する精度を改善するためにさらなる開発が必要だってことを浮き彫りにしたよ。

ドッグホイッスルの進化を理解する

言語は絶えず進化しているから、ドッグホイッスルの意味も変わることがある。新しいフレーズが同じ差別的な目的を果たすために登場するかもしれないし、古い用語は効力を失ったり再定義されたりするかもしれない。この適応性は、ドッグホイッスルを研究するのがダイナミックなプロセスであることを意味してて、研究者は新しい符号化されたスピーチを効果的に特定し分析するために、言語使用の現在のトレンドに常に更新されている必要があるんだ。

ドッグホイッスルにおける意図の役割

この研究のもう一つの重要な側面は、意図の概念だ。用語が使われるとき、それは有害な意味を持つことがあるけど、話し手の意図は様々である可能性がある。一部の人は、深い意味を意識せずに特定のフレーズを使うかもしれないし、他の人は差別を伝えるためにドッグホイッスルを意図的に選ぶかもしれない。意図的な使用と非意図的な使用を区別することは、これらのフレーズの影響や含意を正確に分析するために重要なんだ。

データセットの活用

サイレントシグナルデータセットは、ドッグホイッスルとその含意に関する今後の研究にとって価値のあるツールだ。研究者はこれを使って、言語の変化を追跡したり、政治や社会的な出来事がスピーチに与える影響を分析したり、現在のヘイトスピーチ検出システムの効果を研究したりできるんだ。

研究の意義

ドッグホイッスルを分類し理解しようとする取り組みは、ヘイトスピーチや差別に対処するための重要な一歩を表している。このような先進技術、LLMを活用し、包括的なデータセットを構築することで、研究者たちは見過ごされがちな微妙で有害な言語を識別するのが上手くなるんだ。この研究は、言語モデレーションシステムを改善し、公共の言説に情報を提供するのに役立つ可能性があるよ。

ドッグホイッスル研究の未来

社会がヘイト、差別、政治的操作の問題に取り組み続ける中で、ドッグホイッスルの研究は重要であり続ける。今後の研究では、符号化された言語を検出する方法を広げたり、新しいフレーズを含むようにデータセットを洗練させたり、言語使用の社会文化的含意を探求したりできるんだ。

結論

ドッグホイッスルについての調査は、言語における明確さと意図の重要性を強調している。サイレントシグナルデータセットは、これらの隠れたメッセージを研究するための強力な基盤を提供しているけど、進化するコミュニケーションの性質に追いつくためには継続的な努力が必要だよ。現代の技術と厳密な分析手法を活用することで、我々は言語の中に隠された意味とそれが社会に与える影響をより深く理解するために働きかけられるんだ。

オリジナルソース

タイトル: Silent Signals, Loud Impact: LLMs for Word-Sense Disambiguation of Coded Dog Whistles

概要: A dog whistle is a form of coded communication that carries a secondary meaning to specific audiences and is often weaponized for racial and socioeconomic discrimination. Dog whistling historically originated from United States politics, but in recent years has taken root in social media as a means of evading hate speech detection systems and maintaining plausible deniability. In this paper, we present an approach for word-sense disambiguation of dog whistles from standard speech using Large Language Models (LLMs), and leverage this technique to create a dataset of 16,550 high-confidence coded examples of dog whistles used in formal and informal communication. Silent Signals is the largest dataset of disambiguated dog whistle usage, created for applications in hate speech detection, neology, and political science. The dataset can be found at https://huggingface.co/datasets/SALT-NLP/silent_signals.

著者: Julia Kruk, Michela Marchini, Rijul Magu, Caleb Ziems, David Muchlinski, Diyi Yang

最終更新: 2024-06-18 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2406.06840

ソースPDF: https://arxiv.org/pdf/2406.06840

ライセンス: https://creativecommons.org/licenses/by-sa/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事