ニュース記事のプロパガンダを見分ける
この記事では、人間と機械学習の方法を使ってプロパガンダを見分ける方法を考察しています。
― 0 分で読む
プロパガンダは、人々の信念や行動に影響を与えることを目的としたコミュニケーションの一形態だよ。特定の言語スタイルを使っていて、それが認識・分析できる場合が多い。この記事では、プロパガンダのスタイル的特徴をどうやって見分けるかを、偽情報を広めることで知られるニュース記事を中心に紹介するよ。
データセット
ウクライナに関連する現在進行中の紛争の間にプロパガンダを促進することが知られているさまざまなソースからデータセットが作成された。このデータセットには、専門家によって特定されたウェブサイトからの多言語のニュース記事が含まれてる。内容は多様で、さまざまなトピックを扱い、異なる言語を使用しているよ。
公平な比較を行うために、フランスの主流新聞の記事もデータセットに含められた。このミックスによって、プロパガンダと通常のニュースの違いをよりよく理解できるようになったんだ。
人間による注釈
人々が記事に注釈を付ける実験が行われた。彼らは、内容が操作的か誇張されているかなど、特定の基準に基づいて記事にラベルを付ける必要があった。合計で11種類の異なるラベルがこの作業のために作成された。注釈者には、「フェイクニュース」、「誇張」、「不誠実なタイトル」などの記事に特定の要素が含まれているかどうかを判断してもらった。このプロセスには、各記事のこれらの特徴の存在を判断するための人間の判断が必要だったんだ。
結果は、人々がプロパガンダ記事と通常のニュースの違いを識別するのが得意だということを示していた。似たようなトピックを扱っている場合でも、どの記事がどのカテゴリーに属しているかを認識できたみたいだ。
人間の注釈の分析
記事に注釈を付けた後、研究者たちは結果を調べて、注釈者の一貫性を確認した。彼らは、注釈者が記事にラベルを付ける際にどのくらい一致していたかを測定した。結果は、注釈者の間で中程度から高いレベルの一致があったことを示し、彼らが二つのタイプのメディアを信頼に基づいて区別できたことを示していたよ。
特定のラベルは、あるタイプの記事で他のタイプよりも頻繁に使用されていた。たとえば、「誇張」のような操作に関連するラベルは、プロパガンダ記事で通常のニュースよりもはるかに一般的だった。
テキストの特徴の検討
注釈プロセスの後、次のステップは記事に使用される言語を分析することだった。曖昧さ、主観性、詳細など、テキストの特定の特徴が調べられ、プロパガンダ記事を際立たせる要因が理解された。たとえば、プロパガンダ記事は通常の記事よりも曖昧な表現を頻繁に使用する傾向があったよ。
研究者たちは、これらの特徴に関連するスコアを計算するために特別なツールを使用した。この分析では、曖昧さスコアが高いほど、プロパガンダラベルとの相関があることが示されたんだ。
分類のための機械学習
プロパガンダの検出をさらに強化するために、機械学習モデルが訓練された。このモデルは、前述のテキストの特徴に基づいて、記事をプロパガンダと通常のニュースに分類するように設計されていた。文の構造に焦点を当てたモデルや、全体のテキスト特徴を考慮したモデルなど、さまざまなタイプのモデルが使用されたよ。
モデルは、大量の記事セットで訓練された。未知のデータでプロパガンダをどれだけ効果的に識別できるかテストされた。その結果、モデルはこの特定のトピックに関して良好に機能し、プロパガンダと通常の記事を高い精度で区別できたんだ。
プロパガンダの重要な特徴
機械学習モデルは、プロパガンダ記事に共通する特定のマーカーを特定した。テキストの異なる部分の寄与を分析することで、プロパガンダを示すことが多い特定の単語やフレーズを突き止めることができたよ。たとえば、誇張や主観的な言葉で満たされた記事は、プロパガンダとして分類される可能性が高かった。
さらに、句読点の使用は二つのタイプの記事で大きく異なることがわかった。プロパガンダ記事は、通常のニュース記事に比べてカンマや引用符が少なく、ピリオドが多かった。この構文の違いは、プロパガンダがどのように構成されているかについてのさらなる洞察を提供したんだ。
機械学習における潜在的なバイアス
機械学習モデルはプロパガンダの検出において高いパフォーマンスを示したが、結果に影響を与えるデータセットのバイアスについての懸念もある。特定のトピックに基づいて訓練されたモデルは、異なる主題ではうまく機能しないかもしれない。データセットの質が異なるため、モデルが他の領域にうまく一般化できるかどうかが課題となる。
結論と今後の方向性
研究は、人間の注釈や機械学習モデルを通じてプロパガンダを特定する効果的な方法を示した。記事の言語やスタイルを分析することで、プロパガンダの独特の特徴が明らかになった。研究結果は、プロパガンダ的な言語には誇張や曖昧さが含まれることが多いことを示唆しているよ。
今後の取り組みは、モデルの説明可能性を向上させ、他の文脈でプロパガンダを検出する能力を強化することに焦点を当てるべきだ。また、異なる言語や文化的背景でプロパガンダがどのように認識されるかを分析するための継続的な研究も必要だね。
この研究は、健全な公共の議論を維持するために欠かせないプロパガンダ検出の複雑な世界へのさらなる調査の基盤を提供するものだよ。
タイトル: Exposing propaganda: an analysis of stylistic cues comparing human annotations and machine classification
概要: This paper investigates the language of propaganda and its stylistic features. It presents the PPN dataset, standing for Propagandist Pseudo-News, a multisource, multilingual, multimodal dataset composed of news articles extracted from websites identified as propaganda sources by expert agencies. A limited sample from this set was randomly mixed with papers from the regular French press, and their URL masked, to conduct an annotation-experiment by humans, using 11 distinct labels. The results show that human annotators were able to reliably discriminate between the two types of press across each of the labels. We propose different NLP techniques to identify the cues used by the annotators, and to compare them with machine classification. They include the analyzer VAGO to measure discourse vagueness and subjectivity, a TF-IDF to serve as a baseline, and four different classifiers: two RoBERTa-based models, CATS using syntax, and one XGBoost combining syntactic and semantic features.
著者: Géraud Faye, Benjamin Icard, Morgane Casanova, Julien Chanson, François Maine, François Bancilhon, Guillaume Gadek, Guillaume Gravier, Paul Égré
最終更新: 2024-02-26 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2402.03780
ソースPDF: https://arxiv.org/pdf/2402.03780
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://www.overleaf.com/project/6565fc04b0557d651874facd
- https://www.pewresearch.org/journalism/fact-sheet/news-platform-fact-sheet/
- https://github.com/hybrinfox/ppn
- https://www.sgdsn.gouv.fr/publications/maj-19062023-rrn-une-campagne-numerique-de-manipulation-de-linformation-complexe-et
- https://graphism.fr/wp-content/uploads/2017/03/charter-of-munich-english.pdf
- https://github.com/adrianchifu/FreSaDa
- https://huggingface.co/hybrinfox/ukraine-operation_propaganda-detection-EN
- https://huggingface.co/hybrinfox/ukraine-operation_propaganda-detection-FR
- https://universaldependencies.org/u/dep/all.html
- https://www.aclweb.org/portal/content/acl-code-ethics