WorkBenchの紹介: 新しいオフィスタスクデータセット
WorkBenchは、ユニークな評価方法を使ってエージェントの現実的なオフィス作業をこなす能力をテストするんだ。
― 1 分で読む
WorkBenchは、エージェントがリアルなオフィス環境でどれだけタスクをうまくこなせるかをテストするために作られた新しいデータセットだよ。5種類のデータ、26のツール、690の異なるタスクが含まれていて、タスクは日常のオフィスワーク、例えばメールを送ったり会議を設定したりすることを模倣してるんだ。タスクは簡単じゃなくて、慎重な計画や正しいツールの選択が必要で、完了するにはしばしばいくつかのステップが必要だよ。
WorkBenchの各タスクには明確な目標がある。エージェントがタスクを成功裏に完了させると、1つ以上のデータベースのデータが変わるんだ。各タスクには特定の結果があるから、エージェントが正しいことをしたか簡単に確認できる。この確認方法を、結果中心評価って呼んでるよ。
WorkBenchを使って5種類のエージェントをテストした結果、最も進んだGPT-4でもタスクを正しく完了させたのは43%だけで、別のエージェントLlama2-70Bはたった3%だった。この結果は、エージェントが一般的なオフィスタスクに苦労していることを示していて、重要な仕事の場面で使うときの懸念を高めてる。WorkBenchは他の人が使えるようにオープンに公開されてるよ、https://github.com/olly-styles/WorkBench でね。
職場のエージェント
WorkBenchのタスクはリアルなオフィスの仕事を反映するように作られてるよ。例えば、1つのタスクでは、メールを送る前にカレンダーをチェックするようにエージェントに求めてる。この構造によって、エージェントがさまざまな状況でどうパフォーマンスするかを見ることができるんだ。
大規模言語モデル(LLM)は、テキストの翻訳や情報の要約など、多くのタスクをこなせるけど、最近のデータを取得したり簡単な計算をしたりする特定の分野ではよく間違える。LLMを改善するためのいくつかの方法が提案されていて、ファインチューニングや追加データを引き出す技術を使う方法なんかがあるけど、これらはすべての課題を解決するわけじゃないんだ。
ツールを組み合わせたエージェントは、これらの限界を克服できるかもしれないよ。ツールは異なるデータとやりとりするためにエージェントが使える機能なんだ。例えば、LLMがメールを要約できても、返事を送ることはできない。でも、ツールを装備したエージェントは、返信を送ったりさまざまなタスクを処理したりできるよ。
期待される割にエージェントは多くの間違いをするし、実際にどれだけうまく機能するかはあまり知られてない。既存のデータセットは、リアルなオフィスワークを反映しないタスクに焦点を当てがちで、WorkBenchはこのギャップを埋めるものなんだ。
WorkBenchの作成と評価
WorkBenchには、メッセージを送信するような典型的なビジネス機能をカバーするタスクが含まれてるよ。タスクは多くの場合、いくつかのステップがあって、異なるツールが必要なんだ。私たちは、エージェントがタスクを完了した後の結果が期待される結果と一致するかを見る、結果中心評価という方法を使用しているから、エージェントのパフォーマンスを測りやすくしてるんだ。
データセットを作成するために、タスク用のテンプレートを作って、それらのテンプレートから多くのタスクを生成する方法を使ったよ。合計で690のユニークなタスクを開発して、エージェントがリアルな仕事場面で直面する課題を反映してる。
各タスクにはユニークな期待される結果があって、それによってエージェントがタスクを正しく完了したか判断できるんだ。この評価方法がこのプロジェクトの主な貢献の1つなんだ。
サンドボックス環境
私たちは、5種類のデータベースから構成されるテストエリア、サンドボックスを作ったよ。これらは:
- カレンダー:イベントの詳細、参加者の名前やメール、日時などを保持。300のイベントがある。
- メール:送信者、件名、内容を含む500通のメール。
- ウェブサイト分析:訪問者ID、閲覧ページ、エンゲージメントスコアを追跡し、合計500件の記録がある。
- 顧客関係管理(CRM):名前、連絡先情報、ステータスなどの詳細を持つ200の顧客リスト。
- プロジェクト管理:ID、名前、期限、担当者を持つ300のタスク。
サンドボックスはリアルな作業環境をシミュレートしていて、エージェントがこれらのデータベースとやりとりしてタスクを実行できるようになってるんだ。
タスクテンプレート
私たちは現実的なオフィスワークを反映するタスクテンプレートを作ったよ。タスクは、1種類のツールが必要なもの(単一ドメインタスク)と、複数の分野のツールが必要なもの(マルチドメインタスク)の2つのカテゴリに分かれているよ。例えば、カレンダーを使って会議をスケジュールしてからメールを送るのはマルチドメインタスクになる。
各テンプレートに対して複数のタスクを生成したから、全体として多様な690のタスクができたよ。この多様性は、エージェントがさまざまなシナリオでどうパフォーマンスするかをより正確に評価するのに役立つんだ。
タスクの実行と評価
エージェントはサンドボックス内でタスクを実行するために26のツールを使うよ。各ツールには使い方を説明する説明が付いてる。エージェントはタスクに基づいていろんなステップを踏むことができるけど、正しい結果になるように行動を確認しなきゃならない。それは既知の正解と照らし合わせてチェックされるんだ。
もしエージェントの行動が期待される結果と一致するデータベースの変更につながったら、そのタスクは成功裏に完了したとみなすよ。この方法は、公正な評価を可能にしてて、エージェントが正しい結果につながる修正行動を取った場合でもペナルティを受けないようになってる。
パフォーマンス指標
エージェントのパフォーマンスを測定するための2つの主要な指標があるよ:
- 正確性:これはエージェントの結果と期待される結果を比較して、タスクが正しく完了した割合を測る。
- 副作用:エージェントの行動によって引き起こされた意図しない変更を追跡する。例えば、間違った受取人にメールを送ること。エージェントがデータベースを誤って変更したら、それは副作用としてカウントされる。
エージェントの比較
私たちのテストでは、5つのLLMを比較したよ:GPT-3.5、GPT-4、Claude-2、Llama2-70B、Mixtral-8x7B。GPT-4はその中で最も良いパフォーマンスを見せたけど、まだ改善の余地はかなりあったんだ。分析の結果、利用可能なツールの数がエージェントのパフォーマンスに悪影響を与えることがあるみたいで、特に関連のない選択肢が多すぎると問題なんだ。
エラーの原因
最も一般的なミスは、ReActフレームワークに従わなかったり、情報を間違って検索したり、ツールの限界を理解していなかったりすることだったよ。例えば、エージェントが会議をキャンセルするように求められた場合、過去のイベントを検索すると、現在の会議を見つけられなくなっちゃう。こんなエラーが発生すると、期待される結果を妨げる副作用が出てくることがあるんだ。
議論と今後の研究
WorkBenchは、作業環境でエージェントをテストする上で重要な一歩を示しているよ。ただ、このデータセットには限界があって、スパムや無関係な情報でいっぱいの大きなメールボックスのような、リアルなシナリオの複雑さを完全には捉えられないかもしれない。
将来的な研究では、WorkBenchを強化するために、もっと多様なタスクを追加したり、サンドボックスのデータの複雑さを高めたりすることが考えられるよ。もう一つの改善点は、行動を必要とせずに情報を見つけることに焦点を当てた検索タスクの評価だね。
これらの限界があっても、WorkBenchは実際のオフィスタスクでエージェントをテストするための貴重なツールだし、新しいタスクやドメインの追加を可能にするスケーラブルなものなんだ。
タイトル: WorkBench: a Benchmark Dataset for Agents in a Realistic Workplace Setting
概要: We introduce WorkBench: a benchmark dataset for evaluating agents' ability to execute tasks in a workplace setting. WorkBench contains a sandbox environment with five databases, 26 tools, and 690 tasks. These tasks represent common business activities, such as sending emails and scheduling meetings. The tasks in WorkBench are challenging as they require planning, tool selection, and often multiple actions. If a task has been successfully executed, one (or more) of the database values may change. The correct outcome for each task is unique and unambiguous, which allows for robust, automated evaluation. We call this key contribution outcome-centric evaluation. We evaluate five existing ReAct agents on WorkBench, finding they successfully complete as few as 3% of tasks (Llama2-70B), and just 43% for the best-performing (GPT-4). We further find that agents' errors can result in the wrong action being taken, such as an email being sent to the wrong person. WorkBench reveals weaknesses in agents' ability to undertake common business activities, raising questions about their use in high-stakes workplace settings. WorkBench is publicly available as a free resource at https://github.com/olly-styles/WorkBench.
著者: Olly Styles, Sam Miller, Patricio Cerda-Mardini, Tanaya Guha, Victor Sanchez, Bertie Vidgen
最終更新: 2024-08-03 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2405.00823
ソースPDF: https://arxiv.org/pdf/2405.00823
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。