言語モデルを評価するための動的ベンチマーク
リアルなデータストリームを使って言語モデルを評価する新しいシステム。
― 1 分で読む
ベンチマークは、機械学習の成長において重要な役割を果たしているんだ。これらのモデルを安全に扱うためには、実世界のタスクでどれだけうまく機能するかを知ることが大切。でも、大きな言語モデル(LLM)に適したベンチマークを作るのは大変なんだ。実世界からデータを集めるのは簡単じゃないし、既存のデータがテストデータと混ざっちゃって評価の問題につながることもある。さらに、新しいデータを定期的に生成するのは時間がかかって、一貫性のない結果が出ることもあるんだ。
この課題に対応するために、私たちは、やる気のある人たちが作った実世界のデータの流れを使ってLLMを評価するシステムを提案するよ。このシステムは、X(旧Twitter)のコミュニティノートやWikipediaの編集からデータを引き出し、データの汚染やベンチマークの過剰適合の懸念を減らすんだ。
コミュニティノートの仕組み
Xでは、ユーザーが誤解を招くかもしれない投稿に対して、もっと文脈を提供するノートを提案できるんだ。多くのユーザーがそのノートが価値を追加すると同意すれば、元の投稿と一緒に表示されるよ。Wikipediaも同じようなアプローチで、ユーザーはコミュニティの合意に基づいて記事を編集できるんだ。ノートや編集が役に立つかどうかを判断するには、正確な情報を求めてインターネットを検索する必要があるんだ。
私たちは、簡単なウェブ検索アクセスで主要なLLMをテストして、一貫したランキングが時間の経過とともに得られることを発見したよ。継続的な評価をサポートするために、公開リーダーボードを作って評価データを定期的に更新してるんだ。
ダイナミックなベンチマークの必要性
従来のベンチマークは過去の出来事に焦点を当てていて、トレーニングデータが評価データに漏れ出す汚染が起こる可能性があるんだ。こうしたアプローチでは、LLMが特定のタスクに過剰に調整されて、将来の状況に一般化できなくなっちゃう。だから、ベンチマークは動的で定期的に更新されることが重要なんだ。
XのコミュニティノートやWikipediaの編集から集めたデータは、継続的な更新を可能にして、評価が常に関連性を持つようにするんだ。これにより、実際に人間が行う仕事を反映したタスクでLLMのパフォーマンスを評価できるようになるよ。
XとWikipediaでの人間の行動の比較
Xのコミュニティノートは、ユーザーが投稿に文脈を追加できる一方で、Wikipediaはユーザーが共同で記事を編集することを可能にしてるんだ。両方のシステムは、情報の正確性を評価するために多様な貢献者のグループに依存してる。2024年1月には、Xで何万ものノートが提案され、Wikipediaでは数百万の編集が行われたんだ。この豊富な情報は、LLMのタイムリーな評価を可能にするよ。
評価のためのデータ収集
信頼できるデータセットを作るために、削除されていない英語のノートをXから集めるよ。毎月、役に立つノートと役に立たないノートをランダムに選んで、バランスの取れたデータセットを形成するんだ。Wikipediaの編集については、APIを使って最近の変更を取得し、コミュニティの合意に基づいてどの編集が受け入れられたり元に戻されたりしたかを判断するよ。
評価方法
私たちはタスクを二項分類問題として定義し、LLMがノートや編集が役に立つか正しいかを予測するんだ。異なるモデルのパフォーマンスを評価するために、ゼロショット分類器とウェブ検索エージェントの二つのアプローチを実装したよ。
ゼロショット分類
この方法では、LLMは事前のトレーニングなしでノートや編集を分類するために必要な情報を含むプロンプトを受け取るんだ。たとえば、Xのノートを分類する際には、投稿とノート自体に関する詳細がプロンプトに含まれてるよ。
ウェブ検索エージェント
このアプローチでは、LLMがまず検索クエリを生成して、分類を助けるためにウェブから情報を取得するんだ。そして、この追加データを使って決定を下すんだ。
評価の結果
私たちの評価には、GPT-4やGPT-3.5などの人気のLLMを含む複数のモデルが関与していたよ。パフォーマンスはアプローチやLLMに与えられたプロンプトの詳細によって変わることがわかったんだ。多くの場合、ウェブ検索エージェントの方が良いパフォーマンスを示したけど、ゼロショット分類器が優れている例もあったよ。
さらに、モデルは多くの投票を受けたノートでより良いパフォーマンスを示すことがわかって、合意が分類プロセスにおいて重要な役割を果たすことが示されたんだ。
精度と再現率
システムが役立つためには、精度(有益な分類の正確性)と再現率(すべての有益なノートを特定する能力)のバランスをとる必要があるんだ。私たちは、異なるモデルが高い精度を達成しつつも、許容可能な再現率を維持できているかを調べたよ。
シミュレーションした配備シナリオでは、いくつかのモデルがWikipediaの編集で90%の精度を達成して、運用に適した候補となることがわかったんだ。
ダイナミックなベンチマークの重要性
結果は、LLMの評価のために現在の関連データを提供するダイナミックなベンチマークの必要性を強調しているよ。XのコミュニティノートやWikipediaの編集のような継続的に更新されるソースを使うことで、実世界のタスクでのLLMのパフォーマンスをより良く測定できるようになるんだ。
今後の方向性
私たちは、画像や動画などの複数のメディアタイプを含むようにベンチマークを拡張する予定だよ。このマルチモーダルアプローチは、Xのノートの多くがメディアコンテンツを含む投稿であるため、重要なんだ。
さらに、分類の決定に対する理由付けを組み込んだり、ノートや編集の提案のための評価を拡充したり、これらのプラットフォームに貢献するユーザーの特性を探求したりしたいと考えているよ。
ベンチマークの維持
新しいデータセットは毎四半期ごとにキュレーションされて、ベンチマークが常に関連性を持つようにするよ。評価されたLLMが行った予測に基づいてリーダーボードを更新して、前四半期のデータのラベルを公開する予定だ。
結論
ここで提案したアプローチは、実世界のデータストリームを使ってLLMを評価する新しいベンチマークを確立するものであるよ。XのコミュニティノートやWikipediaの編集を利用することで、時間の経過とともに適応する生きた評価システムを作り上げているんだ。私たちの発見は、このシステムがLLMを効果的にランク付けし、情報の進化する性質に敏感であることを示しているよ。
今後、このベンチマークをさらに洗練させ、拡大させることで、LLMが実世界のデータとどのように相互作用するかを改善し、さまざまな分野でのアプリケーションや信頼性を向上させることを目指しているんだ。
タイトル: HelloFresh: LLM Evaluations on Streams of Real-World Human Editorial Actions across X Community Notes and Wikipedia edits
概要: Benchmarks have been essential for driving progress in machine learning. A better understanding of LLM capabilities on real world tasks is vital for safe development. Designing adequate LLM benchmarks is challenging: Data from real-world tasks is hard to collect, public availability of static evaluation data results in test data contamination and benchmark overfitting, and periodically generating new evaluation data is tedious and may result in temporally inconsistent results. We introduce HelloFresh, based on continuous streams of real-world data generated by intrinsically motivated human labelers. It covers recent events from X (formerly Twitter) community notes and edits of Wikipedia pages, mitigating the risk of test data contamination and benchmark overfitting. Any X user can propose an X note to add additional context to a misleading post (formerly tweet); if the community classifies it as helpful, it is shown with the post. Similarly, Wikipedia relies on community-based consensus, allowing users to edit articles or revert edits made by other users. Verifying whether an X note is helpful or whether a Wikipedia edit should be accepted are hard tasks that require grounding by querying the web. We backtest state-of-the-art LLMs supplemented with simple web search access and find that HelloFresh yields a temporally consistent ranking. To enable continuous evaluation on HelloFresh, we host a public leaderboard and periodically updated evaluation data at https://tinyurl.com/hello-fresh-LLM.
著者: Tim Franzmeyer, Aleksandar Shtedritski, Samuel Albanie, Philip Torr, João F. Henriques, Jakob N. Foerster
最終更新: 2024-06-05 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2406.03428
ソースPDF: https://arxiv.org/pdf/2406.03428
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://tinyurl.com/hello-fresh-LLM
- https://github.com/twitter/communitynotes
- https://en.wikipedia.org/wiki/Help:Editing
- https://X.com/i/communitynotes/download-data
- https://en.wikipedia.org/wiki/Wikipedia:Copyrights
- https://developer.twitter.com/en/developer-terms/agreement-and-policy
- https://en.wikipedia.org/wiki/Special:RecentChanges