自己生成データでウェブエージェントを向上させる
言語モデルは、自己改善技術を通じてウェブタスクのパフォーマンスを向上させる。
― 1 分で読む
目次
大規模言語モデル(LLM)は、人間の言語を理解・生成するのに強力なツールだよ。でも、複雑なタスクをこなすためにウェブエージェントとして使うのは結構大変なんだ。この記事では、これらのモデルが自分たちでトレーニングデータを生成して、それを学習することで、こうした難しい状況にうまく対応する方法について語ってる。
ウェブエージェントのトレーニングの挑戦
ウェブ環境とやり取りできるエージェントをトレーニングするのは、いくつかの障害に直面することが多いよ。大きな問題の一つは、ウェブブラウジングに必要な具体的なアクションに適したトレーニングデータが不足していること。複数のステップを踏んで意思決定を必要とするタスクのデータを集めるのは時間がかかるし、高くつくこともある。また、エージェントのパフォーマンスを評価するのも難しいんだ。というのも、実行されたアクションの自動評価が簡単じゃないからね。
大規模言語モデルって?
大規模言語モデルは、膨大なテキストデータを使って言語のパターンを学ぶんだ。その知識を使って応答を生成したり、質問に答えたり、情報を要約したりできるよ。シンプルなタスクでは有望なんだけど、一連のアクションや文脈の深い理解を必要とするタスクにはいつも苦労してる。
言語モデルの自己改善
最近の研究では、LLMが時間とともにパフォーマンスを向上させられることがわかってきたよ。彼らがこれを成し遂げる方法の一つは、自分たちの出力を使って、トレーニングを強化するための新しい例を作ること。自己改善って呼ばれるこの方法があれば、新しいタスクに適応できるんだ。
WebArenaって?
WebArenaは、LLMエージェントの能力を現実的なウェブ環境でテストするために使われるベンチマークだよ。この設定では、エージェントはウェブページと直接やり取りしてタスクを完了させる必要があるんだ。例えば、エージェントはオンラインマップを使って二つの場所の旅行時間を把握する必要があるかもしれない。これらのタスクを成功させるには、一連のアクションを取らなきゃいけないんだ。
自己改善技術の探求
我々は、LLMが長くて複雑なウェブタスクのパフォーマンスをどれだけ改善できるかを調査しているよ。彼らの出力から生成された合成データでモデルをファインチューニングすることで、タスク完了率が大幅に向上するんだ。
合成データ
合成データは、モデル自身が生成した例を指すよ。このデータはパフォーマンスをさらに改善するための高品質なトレーニング素材として使えるんだ。私たちは、二種類の合成データを集めることに注目してる:ドメイン内とドメイン外の例。
ドメイン内合成データ
ドメイン内データは、モデルがすでに遭遇したタスクから生成されるんだ。例えば、モデルが旅行時間に関する質問に答えようとして、いくつかの信頼できそうなアクションを生成したら、そのアクションをフィルタリングして質を確認し、さらなるトレーニングに活用できるんだ。
ドメイン外合成データ
ドメイン外データは、モデルが過去に見たことのないまったく新しいものだよ。モデルに全く新しいタスクや解決策を作るよう促すことで、元のトレーニング範囲を超えて能力を広げられるんだ。
パフォーマンスの評価
これらのエージェントがどれだけうまく機能するかを評価するのは重要だよ。我々は彼らの効果、堅牢性、アクションの全体的な質を評価するためにいくつかの指標を導入するんだ。特に、新しい指標として能力スコアと、アクションシーケンスの質を追跡するための修正版VERTEXスコアを見てる。
自己改善の結果
自己改善は機能する?
実験を通じて、合成データセットでのファインチューニングがパフォーマンスを大幅に向上させることができるってことがわかったよ。最もよく機能したモデルは、ドメイン内とドメイン外の例の組み合わせを使って、成功裏に完了したタスクが31%増加したんだ。
新しい能力の獲得
私たちの調査結果によれば、自己改善によってエージェントは新しい能力を獲得しつつ、既存の能力も保持できるんだ。ただし、プロセス中に一部の能力が失われることもあるけどね。全体的に見ると、テストしたエージェントは失った能力よりも多くの能力を得たから、プラスの結果を示してる。
パフォーマンスの堅牢性
堅牢性とは、エージェントがさまざまなシナリオで一貫してパフォーマンスを発揮できる能力のことだよ。我々の結果では、自己改善されたモデルがベースバージョンと比べてタスクの完了においてより一貫したパフォーマンスを示したんだ。この一貫性は、信頼性が重要な実世界のアプリケーションにとって重要なんだ。
生成された軌跡の質
パフォーマンスの重要な側面は、エージェントが生成するアクションシーケンスの質と長さだよ。我々の分析では、自己改善がパフォーマンスに役立つ一方で、場合によってはアクションシーケンスが長くなったり、無効なアクションが増えたりすることがあるってことが示唆されてる。これらのアクションの複雑さと質のバランスを取ることが、効果的なウェブインタラクションには欠かせないんだ。
繰り返しの自己改善
自己改善を何度も行うことでさらに利益が得られるかも調べたよ。二回目のファインチューニングからは若干の向上が見られたけど、最初のラウンドほどの改善はなかった。これは、自己改善は有益だけど、繰り返し適用することで収益が減少することを示してるんだ。
関連研究
LLMにおける自己改善は注目されている分野で、様々な技術が探求されてるよ。モデル自身の出力を使ったさらなるトレーニングや、特定のタスクでパフォーマンスを向上させるためのプロンプティング戦略に焦点を当てた研究もあるんだ。
結論
要するに、我々の研究は大規模言語モデルが長くて複雑なウェブタスクの中で自己改善できることを示してるよ。合成トレーニングデータを使うことで、これらのモデルはパフォーマンスを向上させるだけでなく、アクションの質がほとんど劣化せずに新しい能力も獲得できるんだ。このアプローチは、ダイナミックで複雑な環境におけるLLMの効果を大いに引き上げる可能性を秘めてるね。これらのモデルが進化を続けるにつれて、リアルなウェブインタラクションの課題をうまく乗り越えられるようになるだろう。
今後の方向性
今後の研究では、エージェントのパフォーマンスを評価する指標を洗練させたり、より幅広いウェブタスクを探求したりすることに焦点を当てるかもしれないね。さらに、プロセスに人間の評価を取り入れることで、我々の発見の信頼性を向上させられるかも。最終的な目標は、雑多なタスクを簡単かつ効率的にこなせる堅牢な言語エージェントを開発することだよ。
謝辞
この研究に貢献してくれた様々な組織や機関から受けた資金やサポートに感謝したい。彼らのリソースは、我々の実験や分析を行う上で非常に重要だったんだ。
タイトル: Large Language Models Can Self-Improve At Web Agent Tasks
概要: Training models to act as agents that can effectively navigate and perform actions in a complex environment, such as a web browser, has typically been challenging due to lack of training data. Large language models (LLMs) have recently demonstrated some capability to navigate novel environments as agents in a zero-shot or few-shot fashion, purely guided by natural language instructions as prompts. Recent research has also demonstrated LLMs have the capability to exceed their base performance through self-improvement, i.e. fine-tuning on data generated by the model itself. In this work, we explore the extent to which LLMs can self-improve their performance as agents in long-horizon tasks in a complex environment using the WebArena benchmark. In WebArena, an agent must autonomously navigate and perform actions on web pages to achieve a specified objective. We explore fine-tuning on three distinct synthetic training data mixtures and achieve a 31\% improvement in task completion rate over the base model on the WebArena benchmark through a self-improvement procedure. We additionally contribute novel evaluation metrics for assessing the performance, robustness, capabilities, and quality of trajectories of our fine-tuned agent models to a greater degree than simple, aggregate-level benchmark scores currently used to measure self-improvement.
著者: Ajay Patel, Markus Hofmarcher, Claudiu Leoveanu-Condrei, Marius-Constantin Dinu, Chris Callison-Burch, Sepp Hochreiter
最終更新: 2024-10-01 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2405.20309
ソースPDF: https://arxiv.org/pdf/2405.20309
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://chat.lmsys.org/?leaderboard
- https://nips.cc/public/guides/CodeSubmissionPolicy
- https://neurips.cc/public/EthicsGuidelines
- https://tex.stackexchange.com/a/122329
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://store.economist.com/
- https://www.chilis.com/
- https://www.couponcabin.com/
- https://www.grammarly.com/
- https://www.grammarly.com/plans