Twitterでの政治的な所属の予測
Twitterの活動を使って政治的な党派の所属を特定する方法を調べてる。
― 1 分で読む
目次
ソーシャルメディアは政治的なアイデアや情報を議論するための重要なプラットフォームだよね。多くの研究が異なる政党のユーザーがオンラインでどんな行動をするかを理解することに焦点を当ててる。こうした研究の大きな部分は、Twitterでの活動を見ただけで人の政党を特定することに関係してるんだ。これはいくつかの方法でできるし、その方法の精度が重要なんだ。なぜなら、研究者が結果を解釈する際に影響を与えるからね。
この記事では、Twitterユーザーの政党を予測するためのさまざまな方法、それらの効果、リソースの必要性について話すよ。それに、これらのタスクに使用できる情報の種類と、政党の所属を予測するための比較も行うよ。
政党の所属を予測する重要性
Twitterユーザーの政治的傾向を知ることで、研究者は誤情報の拡散や政治的対立みたいな社会的ダイナミクスを理解する手助けができるんだ。たとえば、異なるイデオロギーを持つ人たちがどうやってフェイクニュースを共有したり拡散したりするかを理解することはすごく重要だよね。いくつかの国では、社会的メディアの影響もあって政治的偏見や分断が増加してるって研究者たちが言ってる。
有効な結果を出すためには、ユーザーの政治的な好みを正確に特定する必要がある。でも、Twitterの活動だけを見て個人の政党を予測するための方法はひとつではないんだ。この記事では、現在の方法を明確にし、より効率的な方法を提案することを目指してるよ。
現在の方法の概要
政党の所属を特定するための現在の方法は、主にいくつかの情報のタイプに頼ってるよ:
- コンテンツ:これはツイートのテキストやユーザーが共有するメディアを含むよ。
- 関係:この情報は、誰が誰をフォローしているかを見るんだ。
- インタラクション:これはユーザーがコンテンツにどう関与するか、たとえばツイートをリツイートしたり「いいね」したりすることに焦点をあててる。
多くの過去の方法は、こうした異なる情報のタイプを組み合わせて予測を改善してるけど、方法のミックスがそのパフォーマンスを評価するのを難しくすることがあるんだ。読者が実用的なアプリケーションのために最適なデータタイプを選べるように、ガイドするよ。
データ収集
さまざまな予測方法のパフォーマンスを評価するために、2020年の選挙前後にアメリカの政治について話している約14,000人のTwitterユーザーを含むデータセットが収集されたんだ。このデータセットにはユーザーに関するさまざまな情報が含まれていて、異なる方法の効果を総合的に比較できるようになってる。
データセットには、ツイートの内容、フォローしている人、他のユーザーのコンテンツとのエンゲージメントなど、ユーザーの政治的傾向を推測できるさまざまなシグナルが含まれているよ。
収集されたデータの種類
- 政治家データ:アメリカの選出された公務員や候補者約995アカウントのツイートが集められた。
- 一般市民データ:政治的なキーワードを含むツイートが3億5000万件以上集められて、その中から政治的傾向をプロフィールに示した約14,000ユーザーが選ばれた。
- カナダの政治データ:カナダの選挙に関連するデータも似たように集められたけれど、利用可能なデータポイントは少なかった。
それぞれのデータセットはユニークな目的を持っていて、研究者が政治的所属予測のアプローチを改善するのに役立つよ。
政治予測の課題
研究者たちが直面している問題の一つは、異なる予測モデルのパフォーマンスを評価するための信頼できる基準が不足していることなんだ。多くのモデルは収集するデータの量や質が異なっていて、それがパフォーマンスに影響を与えてる。たとえば、ある方法は政治リーダーのデータでテストされたり、他の方法は一般市民に焦点をあてたりしてるから、成功率を比較するのが難しくなるんだ。
さらに、いくつかのモデルはデータ収集方法に大きく依存していて、それが時間や労力を要するんだ。その結果、データ収集にかかるコストが広く異なることがあるよ。
アプローチの比較
良い政党予測の方法を見つけるために、研究者たちは既存の技術を評価し、新しいより効率的な方法を提案してるよ。
異なる方法の精度
研究によると、異なるモデルの精度はかなり異なることがあるんだ。従来の方法では、精度が66%から97%の間と広範囲にわたって報告されていて、パフォーマンスの幅が示されている。公平な比較をするためには、すべての方法を同じユーザーデータセットでテストする必要があるよ。
テストされた新しい方法には、次のようなものがある:
- ラベル伝播:この方法は、ネットワーク内の接続されたユーザー間でラベル情報を広めるんだ。
- グラフニューラルネットワーク:これらは複雑なモデルを使用してユーザー間の関係を分析する技術なんだ。
- テキストベースの方法:これは言語モデルを使ってツイートの内容を分析する基づいてる。
これらの方法の目的は、ユーザーの政党所属を予測する最も効果的な方法を見つけること、そしてコスト効率が良いことなんだ。
コストとカバレッジ
政党予測のための方法を選ぶとき、重要な考慮事項が二つあるよ:
- コスト:分析を行うために必要な計算能力と時間。ある方法は非常にリソースを使うことがあって、大規模な研究には向かないことがあるよ。
- カバレッジ:特定の方法を使ってどれだけのユーザーを効果的に予測できるか。うまくいく方法でも、適用できるユーザー数が少ないとあまり役に立たないよね。
研究によると、リツイートに対するラベル伝播のような方法が、高い精度を達成し、より多くのユーザーをカバーしつつ、少ないデータで済むことができるってわかったよ。
異なるアプローチの詳細な分析
データを収集した後、研究者たちはさまざまなアプローチを比較する詳細な分析を行ったんだ。彼らは精度、速度、カバレッジ、コストなどの要因に焦点を当てたよ。
実験は、ユーザーの活動やつながりを見て、異なる方法が政党所属を予測する際にどれだけうまく機能するかをテストすることを目的としてた。
実験結果
- リツイート活動と組み合わせて使用したラベル伝播は、精度と効率の面で強いパフォーマンスを示したんだ。
- グラフニューラルネットワークを使用した方法もよく機能したけど、いくつかはより多くのリソースを必要としたよ。
- テキストベースの方法は期待できるけど、相当な時間と計算能力を要することがあった。
全体的に見て、ユーザーの政治的所属を予測するための効果的な方法がたくさんあって、研究者はアクセスできるデータの種類やリソースに基づいて選ぶことができるべきだね。
政治家と一般市民
調査の重要な側面は、政治家で訓練された方法が一般市民の政党所属を効果的に予測できるかどうかだったんだ。政治家は既知の所属を持っているから、より簡単なトレーニングセットになるんだ。
結果は、政治家からのデータを使用して一般ユーザーの所属を予測するのが一般的にうまくいくことを示したけど、公のインタラクションのより複雑な性質のために精度が少し下がることがあったよ。
アメリカとカナダの政治の比較
研究はまた、アメリカとカナダの政治構造の違いについても調査してる。カナダは多党制だから、アメリカのより二者択一的な政治に比べて予測タスクが難しいって課題があったんだ。
研究者たちは、アメリカで使用される方法をカナダの文脈に適用できると認めたけれど、通常はタスクの複雑さのために結果があまり正確ではなかったよ。
倫理的考慮
ソーシャルメディアデータを研究に使用することは倫理的な質問を引き起こすから、研究者は悪用の可能性について注意が必要なんだ。特に、政治的行動を操ったり誤情報を広めたりする文脈でね。
そうした懸念を解消するために、研究では公開されているデータのみを使用し、分析を通じてユーザーのプライバシーを確保するための措置を講じたんだ。
未来の方向性
ソーシャルメディアのポリシーが急速に変化していて、データアクセスが制限される可能性もあるから、今後の研究は柔軟で適応可能でなければならないよ。
研究者は、自分たちの方法を他のプラットフォームや文脈に拡張することを考えるべきで、現在の分析を引き続き洗練させ、テストする必要があるんだ。また、無党派や政治に関心がない個人など、定義された政治カテゴリにうまく入らないユーザーを効果的に扱える方法論の必要性もあるよ。
結論
ソーシャルメディアの行動に基づいて政治的政党の所属を予測するタスクは複雑だけど、今日の政治ダイナミクスを理解するためには不可欠なんだ。さまざまな方法が利用可能で、研究者は特定のデータやリソースニーズに最も適したアプローチを選択する機会があるよ。
ソーシャルメディアの状況が進化し続ける中、この分野での研究は政治的行動を理解し、誤情報や分極化の有害な影響を緩和するための効果的な戦略を開発するために重要になるだろうね。
付録:予測方法の概要
このセクションでは、研究でレビューされた異なる方法の簡単な概要を提供するよ:
- ラベル伝播:リツイートデータと特に優れた高速で効率的。
- グラフニューラルネットワーク:強力な予測能力があるけど、計算集約的。
- テキストベースのモデル:効果的だけど、トレーニングにもっと多くの時間とリソースが必要なことが多い。
これらの方法を理解することで、研究者は自分の研究で使用するアプローチについて情報に基づいた選択ができるようになり、より正確な結果やソーシャルメディアユーザーの政治的行動に関する深い洞察が得られるんだ。
タイトル: Party Prediction for Twitter
概要: A large number of studies on social media compare the behaviour of users from different political parties. As a basic step, they employ a predictive model for inferring their political affiliation. The accuracy of this model can change the conclusions of a downstream analysis significantly, yet the choice between different models seems to be made arbitrarily. In this paper, we provide a comprehensive survey and an empirical comparison of the current party prediction practices and propose several new approaches which are competitive with or outperform state-of-the-art methods, yet require less computational resources. Party prediction models rely on the content generated by the users (e.g., tweet texts), the relations they have (e.g., who they follow), or their activities and interactions (e.g., which tweets they like). We examine all of these and compare their signal strength for the party prediction task. This paper lets the practitioner select from a wide range of data types that all give strong performance. Finally, we conduct extensive experiments on different aspects of these methods, such as data collection speed and transfer capabilities, which can provide further insights for both applied and methodological research.
著者: Kellin Pelrine, Anne Imouza, Zachary Yang, Jacob-Junqi Tian, Sacha Lévy, Gabrielle Desrosiers-Brisebois, Aarash Feizi, Cécile Amadoro, André Blais, Jean-François Godbout, Reihaneh Rabbany
最終更新: 2023-08-25 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2308.13699
ソースPDF: https://arxiv.org/pdf/2308.13699
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://github.com/launchnlp/politics
- https://github.com/CyberDataLab/botbusters-spanish-general-elections
- https://zenodo.org/record/6547792
- https://developer.twitter.com/en/docs/twitter-api/tweets/likes/api-reference/get-users-id-liked
- https://developer.twitter.com/en/docs/twitter-api/v1/accounts-and-users/follow-search-get-users/api-reference/get-followers-ids
- https://developer.twitter.com/en/docs/twitter-api/v1/tweets/timelines/api-reference/get-statuses-user
- https://github.com/pablobarbera/twitter
- https://github.com/PatriciaXiao/TIMME
- https://github.com/xnuohz/CorrectAndSmooth-dgl
- https://github.com/dmlc/dgl/tree/master/examples/pytorch/han
- https://www.mathcha.io/editor/p3DvoC4YiMxhw5urok0xQCXNKEy0hW7jK0PCVPOEBV
- https://www.mathcha.io/editor#
- https://github.com/pablobarbera/echo
- https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/P6SZ2G
- https://www.preotiuc.ro/resources.html
- https://github.com/xymou/Align-Voting-Behavior-with-Public-Statements/tree/main/code/data
- https://github.com/anonymouspartyprediction/partypred/
- https://anonymous.4open.science/r/Party