Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語

エージェントワークフローのメモリー: デジタルタスクのパフォーマンス向上

新しい方法がエージェントの複雑なデジタルタスクを効率よくこなす能力を向上させる。

― 1 分で読む


エージェントの作業効率アッエージェントの作業効率アッェントの学習を向上させる。新しい方法が複雑なデジタルタスクのエージ
目次

言語モデルベースのエージェントは、ウェブサイトをブラウジングしたり、モバイルアプリを使ったりするデジタル世界のタスクを実行する能力があるんだけど、複雑なタスクには苦労することが多いんだ。特に、長い時間をかけて一連のアクションを必要とするようなタスクね。対照的に、人間は過去の経験から学んだルーチンを使って、そういうタスクを解決することがよくあるよ。

エージェントがタスクのパフォーマンスを向上させられるように、Agent Workflow Memory(AWM)という方法を提案するよ。このアプローチでは、エージェントが一般的なルーチンやワークフローを特定して再利用することで、タスク解決能力を高められるんだ。

エージェントはこの方法をオフラインでもオンラインでも使えるよ。オフラインの場合、彼らは新しいタスクに直面する前にトレーニングの例からワークフローを学ぶことができるし、オンラインの場合は出会ったタスクからその場でワークフローを作り出せる。

ウェブナビゲーションタスク

AWMを2つのウェブナビゲーション基準、Mind2WebとWebArenaでテストしたよ。これらの基準は、旅行や買い物などの異なるドメインにわたるさまざまなタスクを含んでいるんだ。全体として、AWMはエージェントがタスクを完了する際のパフォーマンスを大幅に向上させることができた。

改善の必要性

現在のほとんどのエージェントは固定された例に依存しているため、新しい状況への適応が難しいんだ。彼らは通常、自分たちのトレーニング例に非常に似たタスクではうまくいくけど、文脈に変化があると苦労する。要するに、彼らは複雑なタスクにもっと効果的に取り組むのに役立つ再利用可能なタスクワークフローを認識したり学習したりできないんだ。

さらに、エージェントがタスクを一つずつ完了するとき、彼らは過去の成功や失敗から学ばないから、時間とともに改善されない。経験から学ぶ能力がなければ、エージェントは今後のアクションを導く貴重な知識を逃してしまう。

経験から学ぶ

エージェントを改善するために、私たちは人間が過去の経験からルーチンを抽象化してタスクを処理する方法を見ているんだ。このアイデアをエージェントに適用することで、AWMは彼らが以前のタスクから一般的なワークフローを特定し、これらの学びをメモリに統合するのを助けるんだ。それぞれのワークフローは目標を表し、その目標を達成するために必要な一連のステップを含んでいる。

例えば、「名前で場所を探す」というワークフローをエージェントが学んだとしたら、これはオンラインでの場所検索の際に一般的なタスクかもしれないね。このワークフローが確立されると、エージェントはそれに基づいて「場所の郵便番号を取得する」といったもっと複雑なワークフローを構築できる。

このアプローチにより、エージェントは継続的に学習し、ますます複雑なタスクに取り組む能力を向上させながら、有用なワークフローのリッチなメモリを発展させることができる。

オフラインとオンラインのシナリオ

AWMはオフラインとオンラインの両方の環境で機能することができるよ。オフラインのシナリオでは、エージェントは高品質な例から再利用可能なワークフローを抽出し、テストフェーズでそれを活用することができる。逆に、以前の例がないオンラインの設定では、エージェントは自分のアクションや過去の予測からワークフローを生成し、タスクに取り組む際にリアルタイムでメモリを構築することができる。

実験と結果

私たちの実験では、WebArenaとMind2Webを用いてAWMを評価したよ。従来の方法と比較して、パフォーマンスに大幅な改善が見られたんだ。WebArenaでは、AWMが従来の最良の方法を上回り、エージェントの成功率を大幅に向上させた。

Mind2Webの文脈では、私たちの方法は異なるタスクやドメインにわたるタスクの成功を向上させ、おそらく強力な一般化能力を示している。また、AWMはエージェントが限られた初期経験から効果的に学習できるようにし、効率的な学習能力を実証しているんだ。

WebArenaベンチマーク

WebArenaはさまざまなウェブサイトにわたるタスクで構成されているんだ。エージェントのパフォーマンスは、タスクを効果的にナビゲートして完了する能力に基づいて評価される。私たちはAWMを他の方法と比較したけど、人が生成したワークフローを使っている方法も含まれている。結果は、AWMが成功率と効率の両方で優れていることを示しており、エージェントが少ないステップでタスクを完了できるようになっている。

一つの注目すべき観察は、AWMがテストしたすべてのウェブサイトで一貫して良好に機能していること。これによって、さまざまな文脈やフォーマットでも適用可能であることが確認されたよ。

Mind2Webベンチマーク

Mind2Webには、複数のドメインにわたるさまざまなウェブナビゲーションタスクがあるよ。ここでは、エージェントの予測アクションの能力に基づいて評価される。AWMを適用することで、ステップバイステップパフォーマンスだけでなく、全体的なタスク完了率も高めることができた。

AWMを他の主要な方法と比較すると、精度と効率の両方で大きな改善をもたらすことがわかったよ。AWMはエージェントが異なるウェブ環境の複雑さにうまくナビゲートし、変化するシナリオに適応するのを助けるんだ。

ワークフロー表現

AWMの核心は、ワークフローを効果的に表現する能力だよ。それぞれのワークフローは、目標の全体的な説明とそれを達成するための具体的なアクションステップの詳細なシリーズから成り立っている。これらのワークフローは、過去のエージェントの経験から再利用可能なルーチンを抽出する誘導プロセスを通じて生成される。

一般的な手続きを表すワークフローを一貫して生成することで、AWMはエージェントが類似のタスクを実行する能力を強化するんだ。たとえば、ワークフローはエージェントがeコマースサイトやソーシャルメディアプラットフォームをより効果的にナビゲートするための構造化されたガイダンスを提供することができる。

ワークフロー誘導メカニズム

ワークフロー誘導プロセスは、過去の経験を分析して一般的なアクションパターンを特定することを含むよ。これは、以前のタスクからアクションのシーケンスを抽出し、それらを一般化されたワークフローに再構築することを意味する。

エージェントが新しいタスクに直面したとき、彼らはワークフローメモリを参照して適切なワークフローを適用することができ、タスクを完了するのにかかる時間を大幅に短縮する。こうした適応性が、さまざまな環境でのパフォーマンスを向上させるんだ。

継続的な学習

AWMは継続的な学習アプローチを促進し、エージェントがタスクを進めるにつれてワークフローのメモリを発展させることを可能にする。このプロセスはフィードバックループを生み出し、エージェントが成功した試みや失敗した試みの両方から学び、ワークフローをさらに洗練させるんだ。

たとえば、エージェントが「Amazonで商品を検索する」というワークフローを学んだ場合、後にこのワークフローを使って次回の検索の効率を高めることができ、新しい情報や経験が得られるにつれて適応していくことができる。

タスク間の一般化

AWMの大きな利点の一つは、異なるタスクにわたって一般化できることなんだ。一般的なルーチンを捉えたワークフローを誘導することで、エージェントはこれらのワークフローを似た特徴を持つ新しいタスクに適用することで成功率を向上させることができる。

このタスク間の一般化能力は、タスクが異なる場合でも、基礎となるアクションパターンが一貫している環境では特に価値があるよ。たとえば、一つのeコマースサイトで商品検索のために開発されたワークフローは、別の似たプラットフォームをブラウジングする際にも適用可能かもしれない。

タスクパフォーマンスの向上

AWMを活用することで、エージェントはさまざまな評価で従来のベンチマークを常に上回っているんだ。彼らはタスクの完了を速め、目的を達成するためにかかるステップを減らすことで、効率を高めることができる。

結果として、AWMを持つエージェントはより広範なタスクを処理できるようになり、柔軟性と適応性が向上していることが示されているよ。これにより、従来の方法だけに依存しているエージェントと比較して、全体的な成功率が向上するんだ。

結論

Agent Workflow Memoryは、言語モデルベースのエージェントがデジタル世界の複雑さをナビゲートする能力を向上させるための重要なステップを示しているよ。エージェントが経験から学び、よく使われるワークフローを抽象化することを可能にすることで、AWMはより広範なタスクをより効率的に解決するためのツールを提供している。

WebArenaとMind2Webで行った実験は、AWMがエージェントのパフォーマンスを大幅に向上させる潜在能力を示しているよ。私たちはこの方法の開発を進めていく中で、エージェントの能力向上を促進し、常に進化するデジタルタスクの風景とより効果的に相互作用できるようになると信じている。

要するに、AWMはエージェントが継続的に学び、さまざまなタスクで知識を応用する力を与える構造化されたアプローチを提供している。最終的には、デジタル領域における人間と機械のパフォーマンスのギャップを埋めることができると思うよ。

オリジナルソース

タイトル: Agent Workflow Memory

概要: Despite the potential of language model-based agents to solve real-world tasks such as web navigation, current methods still struggle with long-horizon tasks with complex action trajectories. In contrast, humans can flexibly solve complex tasks by learning reusable task workflows from past experiences and using them to guide future actions. To build agents that can similarly benefit from this process, we introduce Agent Workflow Memory (AWM), a method for inducing commonly reused routines, i.e., workflows, and selectively providing workflows to the agent to guide subsequent generations. AWM flexibly applies to both offline and online scenarios, where agents induce workflows from training examples beforehand or from test queries on the fly. We experiment on two major web navigation benchmarks -- Mind2Web and WebArena -- that collectively cover 1000+ tasks from 200+ domains across travel, shopping, and social media, among others. AWM substantially improves the baseline results by 24.6% and 51.1% relative success rate on Mind2Web and WebArena while reducing the number of steps taken to solve WebArena tasks successfully. Furthermore, online AWM robustly generalizes in cross-task, website, and domain evaluations, surpassing baselines from 8.9 to 14.0 absolute points as train-test task distribution gaps widen.

著者: Zora Zhiruo Wang, Jiayuan Mao, Daniel Fried, Graham Neubig

最終更新: 2024-09-11 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2409.07429

ソースPDF: https://arxiv.org/pdf/2409.07429

ライセンス: https://creativecommons.org/licenses/by-sa/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

人工知能コミュニケーションで人間とエージェントの協力を強化する

研究は、自律エージェントと人間の間でのより良いチームワークのためのコミュニケーション戦略を探求している。

― 0 分で読む

類似の記事