新しいフレームワークが言語エージェントのトレーニングを強化するよ。
新しいフレームワークが言語エージェントの学習とタスクの実行を改善する。
― 1 分で読む
言語エージェントは、自然言語を使ってユーザーとやり取りするプログラムで、最近自分自身で意思決定する能力が向上してきたんだ。この進歩は、受け取った情報に基づいて推論したり、タスクを実行したりできる大規模な言語モデルを使って実現したものだ。最近の研究者たちは、エージェントにマルチステップの推論を教えたり、問題を解く過程での行動を追跡したりして、パフォーマンスを向上させることに注力している。ただ、これらの情報を集めるには、多くの労力が必要で、人の入力や複雑なプロンプティング技術を使うことが多いんだよね。
この問題を解決するために、「AT」と呼ばれる新しいフレームワークが導入されて、言語エージェントが自律的に行動経路を注釈できるようになったんだ。これは「ReAct」と呼ばれる方法に似ている。フレームワークの主なコンポーネントは「ActRe」というエージェントで、このエージェントは言語エージェントの行動に理由を提供して、意思決定の記録を構築するのを助けるんだ。ActReからアクションのサンプルを取り、説明を得ることで、言語エージェントは過去の努力から学ぶための軌跡を作成できるんだ。
効果的なトレーニングの必要性
言語エージェントのトレーニングデータの収集は、主に二つの方法で行われることが多い:人間のデモンストレーションを使うこと、または言語コンテキストで行動する専門的なシステムを展開すること。しかし、どちらの方法もかなりの人間の労力を必要とし、スケーラブルではないんだ。そこでATフレームワークが登場して、効率的なプロセスを作ろうとしているんだ。
ますます強力な言語モデルは、さまざまなタスクで言語エージェントの成功した実装につながっている。これらのエージェントは、環境を理解し、そこに基づいて行動できるから、すごい結果を出している。ただ、これらのエージェントをトレーニングするために必要なマルチステップの行動データを集める方法は、まだ人間の入力や複雑な設定に依存しているんだよね。
ATフレームワーク
ATフレームワークは、言語エージェントがあまり人間の助けを借りずに自分の行動に関する情報を集めることを可能にする。フレームワークは、ActReエージェントを使ってメインの言語エージェントのアクションの背後にある理由を説明する、ReActスタイルでね。エージェントが新しいアクションを試みるとき、ActReにそのアクションの根拠を尋ねることができる。このプロセスによって、推論を含む新しいアクション経路が作成され、トレーニングに使われるんだ。
ATを使う目標は、言語エージェントがコントラスト自己トレーニングを通じて自分自身を改善するための構造化された方法を作ること。これにより、エージェントは成功したアクションと失敗したアクションの両方から学ぶことができ、時間をかけて意思決定を磨くことができるようになる。
トレーニングと改善
ATフレームワークは、AlfWorldやWebShopのようなシミュレーション環境でテストされていて、言語エージェントはマルチステップの推論を必要とするタスクを実行しなきゃならない。これらの環境でATでトレーニングされた言語エージェントは、すごい成功率を達成し、時には人間のパフォーマンスを上回ることもあったんだ。
トレーニングは、エージェントが情報を集め、成功と失敗の両方から学ぶ複数のラウンドで構成される。プロセスは初期トレーニングから始まり、通常の手法で行うけど、その後はより自律的なアプローチに移行する。エージェントは自分のデータを集めて、それを使ってコントラストトレーニング技術を通じて能力を微調整し、基本的なパフォーマンスを超えたタスク完遂のニュアンスを把握することができるようになる。
軌跡注釈の自律性
ATフレームワークの重要な側面は、エージェントが自律的に自分の軌跡を注釈できること。これは、エージェントの行動に理由を提供するActReプロンプティングエージェントを通じて実現される。エージェントが初めに考えた最適な行動とは異なる行動を取るとき、ActReエージェントにそのアクションがなぜ有効かを理解するために相談できるんだ。
この方法は、通常は人間が行う行動経路の推論修正プロセスを自動化する。ActReを使うことで、言語エージェントは人間が生成したデータに頼ることなく、より広範な行動経路をまとめることができる。これにより、より多様な軌跡が作成され、より良い学習成果につながるんだ。
コントラスト自己トレーニングプロセス
自己トレーニングプロセスでは、言語エージェントが成功した軌跡と失敗した軌跡を比較しながら自分の行動を評価することを学ぶ。ATフレームワークは、特定の報酬構造を用いてポリシー勾配法を利用して、エージェントの意思決定能力を洗練させる。従来の監視付き微調整方法の代わりに、エージェントは自分の経験を通じて学び、蓄積した成功と失敗を使ってパフォーマンスを向上させるんだ。
プロセスは、データを集めて分析し、その情報を使って将来の行動を修正することから成る。成功したところや不足したところに焦点を当てることで、エージェントは徐々に意思決定スキルを向上させることができる。この方法は、継続的な学習と適応を可能にして、人間の手を借りずに進められる。
実験と結果
AlfWorldやWebShopのようなプラットフォームでの実験テストは、ATフレームワークが言語エージェントの能力を大幅に向上させることを示している。AlfWorldでは、このフレームワークの下でトレーニングされたエージェントが高い成功率を達成した一方、WebShopでは人間のパフォーマンス平均に匹敵した。反復精練プロセスはさらなる改善をもたらし、このフレームワークが以前の知識を基に未来のタスクを完了させることを効果的に構築していることを示しているんだ。
結果は、ATフレームワークが従来のプロンプティングフレームワークや完全に微調整された言語モデルを含む多くの既存の技術を上回っていることを示している。エージェントが自分の経験から自律的に学ぶことを可能にするATは、複雑な意思決定タスクのための言語エージェントのトレーニングにおいて明確な利点を提供するんだ。
実装の課題
ATフレームワークは期待されるけど、課題も残っている。多様な行動経路を集めるのは難しいことがあって、質の低いデータが生成されるリスクも常にある。特定のプロンプトや推論方法にあまりにも頼り過ぎるのは、エージェントの柔軟性を制限する可能性があるから、そこも気をつけなきゃね。
さらに、継続的な改善が求められるから、フレームワークは現実のタスクでエージェントがどうパフォーマンスするかに基づいて定期的に更新や調整が必要になる。エージェントがより能力を高めていくにつれ、彼らをトレーニングする方法も進化する必要があるんだ。
未来の方向性
ATフレームワークの進展は、言語エージェントがより高い自律性と効果を持つ未来を示唆している。大規模な言語モデルの力を活用し、トレーニングプロセスを強化することで、研究者はタスクを実行するだけでなく、時間とともに劇的に改善できるシステムを作ることができるんだ。
強化学習法や複雑なフィードバックメカニズムのような、さらに洗練された技術を取り入れることで、言語エージェントの能力をさらに高める可能性がある。こうした自律的なエージェントがビジネス、教育、その他の分野において実世界のアプリケーションとどうやってやり取りできるかを探る余地もあるんだよね。
結論
ATフレームワークは、言語エージェントのトレーニングと能力において重要な前進を表している。自律的な軌跡注釈を可能にし、コントラスト自己トレーニングを活用することで、エージェントは人間の監視を最小限にして、成功と失敗から学ぶことができる。このアプローチは、より良いパフォーマンスと効率的なデータ収集プロセスにつながり、将来の自律システムの開発にとって価値のあるツールとなる。研究が進むにつれて、言語エージェントの能力はさらに拡大して、よりインテリジェントで適応力のあるシステムへの道を開くことになるだろう。
タイトル: ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy
概要: Language agents have demonstrated autonomous decision-making abilities by reasoning with foundation models. Recently, efforts have been made to train language agents for performance improvement, with multi-step reasoning and action trajectories as the training data. However, collecting such trajectories still requires considerable human effort, by either artificial annotation or implementations of diverse prompting frameworks. In this work, we propose A$^3$T, a framework that enables the Autonomous Annotation of Agent Trajectories in the style of ReAct. The central role is an ActRe prompting agent, which explains the reason for an arbitrary action. When randomly sampling an external action, the ReAct-style agent could query the ActRe agent with the action to obtain its textual rationales. Novel trajectories are then synthesized by prepending the posterior reasoning from ActRe to the sampled action. In this way, the ReAct-style agent executes multiple trajectories for the failed tasks, and selects the successful ones to supplement its failed trajectory for contrastive self-training. Realized by policy gradient methods with binarized rewards, the contrastive self-training with accumulated trajectories facilitates a closed loop for multiple rounds of language agent self-improvement. We conduct experiments using QLoRA fine-tuning with the open-sourced Mistral-7B-Instruct-v0.2. In AlfWorld, the agent trained with A$^3$T obtains a 1-shot success rate of 96%, and 100% success with 4 iterative rounds. In WebShop, the 1-shot performance of the A$^3$T agent matches human average, and 4 rounds of iterative refinement lead to the performance approaching human experts. A$^3$T agents significantly outperform existing techniques, including prompting with GPT-4, advanced agent frameworks, and fully fine-tuned LLMs.
著者: Zonghan Yang, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Yang Liu
最終更新: 2024-04-01 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2403.14589
ソースPDF: https://arxiv.org/pdf/2403.14589
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。