ソーシャルコンピューティングにおけるデータアノテーターとしてのChatGPTの評価
この研究は、ChatGPTがソーシャルコンピューティングデータをラベリングする効果を評価してるよ。
― 1 分で読む
チャットGPTのリリースによって、大規模な言語モデルを様々なタスクで使う新しい可能性が広がった。この研究は、チャットGPTが人間のアノテーターの代わりに社会計算タスクのデータにラベルを付けるのがどれほど上手くできるかに焦点を当てている。適切なラベル付けは、感情分析、ヘイトスピーチ検出、スタンス検出などのタスクに使われる機械学習モデルを訓練するために重要だ。最近は人間の入力を必要としない方法も出てきているけど、大量のデータを必要とすることが多い。だから、人間によるラベル付けは社会計算研究においてまだ重要だ。
背景
OpenAIが作ったチャットGPTは、研究者たちの間で注目を集めている。一部の研究では、プログラミング、医学、教育などの分野でのチャットGPTの効果について調べられている。そして最近の研究では、チャットGPTがテキストデータにラベルを付ける能力が評価され、誤情報やヘイトスピーチの特定に焦点を当てている。
私たちの研究では、チャットGPTの5つの異なるアノテーションタスクに対するパフォーマンスをチェックした。人間のアノテーターと同じくらいの効果でラベルを作れるかを調べた。スタンス検出、ヘイトスピーチ、感情分析、ボット検出、ロシア・ウクライナの感情をカバーする5つの主要なデータセットを使った。
データセット
スタンス検出
最初のデータセットは、COVID-19に関するスタンス検出だった。マスクを着用することや学校を閉じることに関するツイートが含まれていて、各ツイートはクラウドソーシングでラベル付けされた。このデータセットを使って、チャットGPTがどれだけこれらのスタンスを分類できるかを確認した。
ヘイトスピーチ
2つ目のデータセットは、アジア系へのヘイトやカウンタースピーチに焦点を当てている。COVID-19パンデミック中に関連するキーワードを使って収集されたツイートが含まれ、それぞれのツイートは「ヘイト」、「カウンタースピーチ」または「ニュートラル」とラベル付けされている。
感情分析
3つ目のデータセットは、広く使われている感情分析タスクから来ていて、ポジティブ、ニュートラル、ネガティブとラベル付けされたツイートが含まれている。人間のアノテーターが品質管理を行い、私たちはこのデータセットを使ってチャットGPTの感情ラベル付けを評価した。
ボット検出
次に、TweepFakeというデータセットを見た。これはボット生成のツイートをチェックするもので、ボットと認証された人間アカウントのツイートが含まれている。チャットGPTがこれらの2種類の著者を効果的に見分けられるかを調べた。
ロシア・ウクライナの感情
最後のデータセットは、ロシア・ウクライナの紛争に関する感情を測るために作られた。状況に関連するツイートを集め、ロシア、ウクライナ、またはニュートラルを支持するかどうかに基づいてアノテーションした。
チャットGPTのアノテーション方法
ツイートにラベルを付けるために、チャットGPT APIを使用した。タスクを明確に示すプロンプトを設計し、「ツイートをヘイト、カウンタースピーチ、またはニュートラルに分類する」といった指示が含まれている。このプロンプトに従ってツイートをチャットGPTに投入し、応答を集めた。アプローチとして、応答の最初の文をチェックしてラベルを確認し、残りのテキストで説明を分析した。
結果と分析
チャットGPTのパフォーマンスを評価するために、人間のアノテーターが付けたラベルと比較した。精度やF1スコアのような指標を使って、チャットGPTのパフォーマンスを評価した。
全体として、チャットGPTは大多数のツイートにラベル付けを行い、ほとんどの場合で有効なラベルを提供した。ただし、タスクによって効果が異なった。
感情分析
感情分析では、チャットGPTは約64.9%の精度で最も良いパフォーマンスを見せた。ほとんどのツイートにラベルを付けられ、感情を正しく特定する能力が強かった。しかし、時々、非常に感情的なツイートをニュートラルとしてラベル付けしてしまうことがあった。
スタンス検出
スタンス検出では、チャットGPTは約61.2%のツイートを正しくラベル付けした。「賛成」や「反対」のラベルにはうまく対応したが、「どちらでもない」のラベルには苦労し、特定の意見を過大評価するかもしれないことを示した。
ヘイトスピーチ
ヘイトスピーチのタスクでは、チャットGPTは57.1%の精度を達成した。ほとんどのヘイトツイートを正しく特定することができたが、ニュートラルなコンテンツとヘイトコンテンツを区別するのが難しかった。そのため、ニュートラルなツイートをヘイトスピーチとして誤ってラベル付けすることが多かった。
ボット検出
ボット検出では、チャットGPTは63.9%の精度でツイートにラベルを付けた。人間が書いたツイートを特定する能力が強かったが、ボットのツイートを人間と間違えることが多く、慎重なアプローチを示した。
ロシア・ウクライナの感情
ロシア・ウクライナの感情タスクでは、チャットGPTは57.3%の精度で最も効果的ではなかった。特に、ウクライナ支持のツイートに比べて親ロシアのツイートを認識するのが得意だった。多くの親ウクライナのツイートが誤って親ロシアとラベル付けされた。
結論
この研究は、チャットGPTがラベル付けタスクでうまく機能することができるが、限界もあることを示している。タスクやデータセットによって能力が異なる。感情とスタンスの特定が必要なタスクではうまくいくが、ボット検出や最近のトピックのような主観的なタスクでは苦労している。
さらに、プロンプトデザインの改善に焦点を当てるべきだと提案する。特定のタスクに合わせたプロンプトを作ることで、チャットGPTのアノテーションパフォーマンスが向上するかもしれない。今後の研究では、チャットGPTをテキストアノテーションによりよく活用する方法を探り、人間のアノテーターとのより近い整合性を目指すべきだ。
この研究の結果は、チャットGPTのような言語モデルを社会計算タスクに統合するための今後の取り組みを導くことができ、人間のアノテーターと自動ツールとの効果的なコラボレーションの基盤を提供する。
タイトル: Can ChatGPT Reproduce Human-Generated Labels? A Study of Social Computing Tasks
概要: The release of ChatGPT has uncovered a range of possibilities whereby large language models (LLMs) can substitute human intelligence. In this paper, we seek to understand whether ChatGPT has the potential to reproduce human-generated label annotations in social computing tasks. Such an achievement could significantly reduce the cost and complexity of social computing research. As such, we use ChatGPT to relabel five seminal datasets covering stance detection (2x), sentiment analysis, hate speech, and bot detection. Our results highlight that ChatGPT does have the potential to handle these data annotation tasks, although a number of challenges remain. ChatGPT obtains an average accuracy 0.609. Performance is highest for the sentiment analysis dataset, with ChatGPT correctly annotating 64.9% of tweets. Yet, we show that performance varies substantially across individual labels. We believe this work can open up new lines of analysis and act as a basis for future research into the exploitation of ChatGPT for human annotation tasks.
著者: Yiming Zhu, Peixian Zhang, Ehsan-Ul Haq, Pan Hui, Gareth Tyson
最終更新: 2023-04-22 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2304.10145
ソースPDF: https://arxiv.org/pdf/2304.10145
ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://www.acm.org/publications/taps/whitelist-of-latex-packages
- https://dl.acm.org/ccs.cfm
- https://www.site.uottawa.ca/~diana/resources/stance_data/
- https://www.saifmohammad.com/WebPages/StanceDataset.htm
- https://s3-eu-west-1.amazonaws.com/downloads.gate.ac.uk/pheme/semeval2017-task8-dataset.tar.bz2
- https://github.com/cambridge-wtwt/acl2020-wtwt-tweets
- https://github.com/chuchun8/PStance
- https://github.com/JustAnotherArchivist/snscrape
- https://github.com/kglandt/stance-detection-in-covid-19-tweets
- https://dl.acm.org/doi/pdf/10.1145/3487351.3488324
- https://alt.qcri.org/semeval2017/task4/index.php?id=data-and-tools
- https://www.kaggle.com/datasets/mtesconi/twitter-deep-fake-text?resource=download
- https://drive.google.com/file/d/1LytqtoVfp477t2FD4S1FxvFSKxYExHnh/view?usp=share_link
- https://openai.com/blog/introducing-chatgpt-and-whisper-apis
- https://platform.openai.com/docs/guides/completion/prompt-design
- https://t.co/nBHTadCKzK
- https://goo.gl/VLCRBB
- https://t.co/EsNze39bSA
- https://t.co/NyaFp6TTNj