ポーランドのソーシャルメディアでの政治メッセージの監視
ポーランドの2020年大統領選挙キャンペーン中のソーシャルメディアでの選挙活動の分析。
― 1 分で読む
政治家が選挙キャンペーンの広告のためにソーシャルメディアを広く使ってるよね。これのおかげでプロモーションメッセージが増えて、選挙当局がその広がりや量を追跡するのが難しくなってるんだ。特にポーランドでは、政治的発言のルールがポーランド選挙法に定められてるから、この問題は特に重要なんだ。私たちの仕事は、このギャップを埋めるために、ポーランド語の政治メッセージ、いわゆる選挙活動を検出する新しいデータセットを提供することを目指してるんだ。
選挙活動モニタリングの重要性
最近、ソーシャルメディアは政治メッセージの共有方法に大きな影響を与えてる。これによって、候補者へのポジティブな支持と、対立候補へのネガティブなキャンペーンが混在するようになったよ。悪影響としては、トロール行為やヘイトスピーチ、誤解を招く情報の共有があるんだ。ポーランドを含む多くの欧州の国には、こういった問題に対処する法律があるよ。たとえば、ポーランドの国民選挙委員会は公正な選挙を確保し、選挙における発言を監視する責任があるんだ。
でも、こういったメッセージを効果的に追跡するためのツールは足りてないんだ。私たちのデータセットは、現行法に沿った形でTwitter上の特定の政治メッセージを特定することができるんだ。これによって、候補者を支持するメッセージがいくつあるかとか、選挙ルールに違反してるメッセージがいくつあるかを把握できるし、ポーランドの政治に興味があるジャーナリストや研究者にも役立つ資源を提供できるよ。
既存のリソース
スペインやフランスのような国々からの政治的コンテンツを分析するためのリソースはあるけど、ポーランドには同じようなデータセットがないんだ。だから、政治的発言の法的定義に従った、しっかりと注釈が付けられたデータの需要があるわけ。私たちの目標は、2020年のポーランド大統領選挙中の政治的メッセージを捉えたデータセットを提供することで、このニーズを満たすことなんだ。
データ収集プロセス
2020年の大統領選挙キャンペーン中にTwitterからデータを集めたよ。このキャンペーンは2020年の2月5日から7月12日まで行われたんだ。収集には、選挙に関連する特定のハッシュタグを使って、約1000万ツイートが含まれてた。重複やポーランド語以外のツイートをフィルタリングした後、約490万ツイートが残ったんだ。さらに、100文字未満のツイートや候補者を直接言及している投稿を除外した結果、主な分析用に15,790ツイートが残ったよ。
ツイートの注釈
政治的活動を特定するために、ツイートを「活動あり」と「活動なし」の2つの主要なグループに分類したんだ。慎重な分析に基づいて、注釈のために4つのカテゴリーを定義したよ:
- 誘導 – このツイートは特に候補者に投票することを促してる。
- 励まし – 候補者についての意見を共有するが、直接投票を求めるものではないツイート。
- 投票率 – 人々に投票を促したり、投票を控えさせることを目的としたツイート。
- 通常 – 上記のカテゴリーに当てはまらないツイート。
私たちのプロセスには、5人のネイティブのポーランド語話者がいて、ツイートにラベルを付けたんだ。各ツイートは2人の注釈者によってレビューされ、意見の相違は3人目で解決されたよ。最終的には、6,112ツイートにラベルを付けて、注釈者間の良好な一致を示すスコアを得たんだ。
モデルのトレーニング
データセットを使って、HerBERTというポーランド語モデルに基づいた分類器をトレーニングしたんだ。このモデルは、ツイート内の選挙活動の種類を特定して分類することを目指してる。私たちのモデルは68%のF1スコアを達成して、このタスクにおいてまずまずのパフォーマンスを示したよ。
ポーランド大統領選挙の分析
私たちのデータセットは、ソーシャルメディア上の選挙活動の分析ができるんだ。2020年の大統領選挙キャンペーンの最後の数週間のツイートを調べたんだ。多くのツイートが活動的な内容を含んでいたことがわかったよ。特に、法律で選挙活動を止めるべき「選挙前の静けさ」と呼ばれる期間中でも、多くのツイートが候補者を推薦してた。これって、既存の規制がオンラインの政治的発言を効果的に抑制できてないかもしれないことを示唆してるね。分析したツイートの約3分の1が活動に関連してたし、選挙に向けての最後の数週間でこの傾向が増えていることがわかったよ。
感情分析
選挙活動の種類を特定するだけじゃなくて、ツイートの感情も分析したんだ。通常と分類されたツイートはニュートラルな感情を持っていることが多かったけど、特に励ましに分類された活動的なツイートはしばしばネガティブだったんだ。これって、ネガティブな感情がソーシャルメディアで政治メッセージが共有される上で重要な役割を果たしてることを示してるよ。
結果は、メディアが関わっていても、そのメッセージがソーシャルメディアコンテンツのより偏った性質に比べてニュートラル傾向があることを強調してる。これにより、ソーシャルメディアが選挙時により極端でネガティブなナラティブのプラットフォームになることが多いっていう考えが強化されてるね。
結論と今後の方向性
私たちのデータセットとモデルは、選挙活動に関連するソーシャルメディア投稿を分類・分析するための重要なツールを提供してる。これは、政治キャンペーンの動態を理解しようとする研究者やジャーナリスト、選挙当局など、多様なオーディエンスに役立つよ。
今後もこの研究分野の発展を続けていくつもり。将来的には、データセットの拡張やモデルの改良に重点を置いて、公正な選挙プロセスを支援し、ソーシャルメディア上の誤解を招く政治的プロパガンダを減少させることを目指してるよ。これらの取り組みは、政治キャンペーンが有権者にとって透明で信頼できるものとして保たれるのに役立つと思うんだ。
タイトル: Electoral Agitation Data Set: The Use Case of the Polish Election
概要: The popularity of social media makes politicians use it for political advertisement. Therefore, social media is full of electoral agitation (electioneering), especially during the election campaigns. The election administration cannot track the spread and quantity of messages that count as agitation under the election code. It addresses a crucial problem, while also uncovering a niche that has not been effectively targeted so far. Hence, we present the first publicly open data set for detecting electoral agitation in the Polish language. It contains 6,112 human-annotated tweets tagged with four legally conditioned categories. We achieved a 0.66 inter-annotator agreement (Cohen's kappa score). An additional annotator resolved the mismatches between the first two improving the consistency and complexity of the annotation process. The newly created data set was used to fine-tune a Polish Language Model called HerBERT (achieving a 68% F1 score). We also present a number of potential use cases for such data sets and models, enriching the paper with an analysis of the Polish 2020 Presidential Election on Twitter.
著者: Mateusz Baran, Mateusz Wójcik, Piotr Kolebski, Michał Bernaczyk, Krzysztof Rajda, Łukasz Augustyniak, Tomasz Kajdanowicz
最終更新: 2023-07-13 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2307.07007
ソースPDF: https://arxiv.org/pdf/2307.07007
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。