オープンなグラウンデッド戦略で計画を進める
実世界のタスク実行を改善するために、オープングラウンドプランニングを紹介します。
― 1 分で読む
大規模言語モデル(LLM)は、人間の計画に似たタスクを実行できる能力で人気を集めてるよ。これらのモデルは、いろんな方法で計画を生成できるんだ。いくつかの方法はLLMを使って自由形式の計画を作成するけど、他の方法は強化学習を利用して制御された環境で決定を下してる。ただ、どちらの方法も実世界の複雑でオープンエンドな状況での計画には苦労してる。
この文脈で、オープングラウンデッドプランニングという新しい計画タスクを紹介するよ。このタスクの目標は、モデルに柔軟な行動セットに基づいて実行可能な計画を生成させること。これにより、生成された計画が現実のタスクにとって実用的であることが保証されるんだ。このために、さまざまなドメインでオープングラウンデッドプランニングのベンチマークを作ったよ。私たちの研究はトップのLLMや他の計画技術をテストして、既存のモデルがオープンエンドな計画タスクに対処する際にまだ大きな課題に直面していることを明らかにしている。
背景
日常生活には、複雑さが異なるさまざまなタスクがあるよ。コーヒーを作るような簡単なことから、新しいスキルを学ぶような複雑なタスクまで、私たちは世界の知識を使って計画を立ててる。目標を達成するためにいろんな戦略を使える一方で、人工知能(AI)はもっと複雑な課題に直面してる。AIはオープンドメインでのタスクに取り組むとき、多様な行動に基づいて計画を立てることが難しいんだ。
以前の研究では、LLMがある程度の計画を実行できることが示されてる。内部の知識や常識を活用して計画を生成できるけど、生成された計画は実行に必要な構造が欠けてることが多いんだ。自然言語では柔軟で一貫性があるけど、AIエージェントに対して実行可能な指示を提供する面では物足りない。ロボティクスやツールの使用などの分野では、グラウンデッドプランニングに関する研究が行われてきた。これらのアプローチのほとんどは、特定の狭い状況でのパフォーマンスを向上させるためにファインチューニングを適用しているので、より広いタスクに直面すると効果が限られるんだ。
広範なアクションを操作して、幅広いプールから適切なアクションを選んで実行可能な計画を立てる能力は、LLMにとって重要な目標だよ。だから、オープングラウンデッドプランニングのアイデアを紹介して、この分野の研究を進めようとしてる。この概念には2つの要素があるんだ:
グラウンデッドプランニング:モデルは、利用可能なアクションセットにある行動だけを使って計画を作成しなければならない。
オープンプランニング:モデルは、複数のタスクエリアをカバーできる広範なアクションセットの中で計画を立てることが求められる。
私たちのデータセットは、日常活動、ツールの使用、ロボットとのシナリオといった多様な分野をカバーしてるよ。それぞれのデータセットは、タスクの目的、条件、主要なステップ、行動セットを含むように標準化されてる。この基盤により、オープングラウンデッドプランニングタスクにおけるさまざまなモデルと方法を評価するためのベンチマークを構築できるんだ。
オープングラウンデッドプランニングの課題を克服するために、「リトリーブ・アンド・リライト」というフレームワークを提案したよ。この方法では、最初にLLMが計画を生成し、それを現在の計画コンテキストに基づいて一連の反復とアクションリトリーバルを通じて洗練させるんだ。
実験デザイン
いくつかの主要な計画手法とモデルを使用して包括的なテストを実施したよ。GPT-3.5、Vicuna-7B、LLaMA-2-7Bなど、いずれもドメイン固有の知識でファインチューニングされてる。私たちの実験では、オープングラウンデッドプランニングタスクに対するさまざまなモデルのパフォーマンスを評価してる。
計画タスクの種類
計画タスクは3つのタイプに分類するよ:
ヒューリスティックタスクプランニング:自由で柔軟な計画を含むよ。
制限されたグラウンデッドプランニング:限られた行動セットでドメイン固有の計画に焦点を当てるやつ。
オープングラウンデッドプランニング:さまざまなドメインで広範なアクションセットで計画する必要があるやつ。
計画能力と課題
LLMの計画能力は広く調査されてきたよ。常識的な推論を使って計画を生成できるけど、これらの計画は実行のための構造が欠けてることが多い。グラウンデッドプランニングでは、特定の状況で機能するアプローチがあることが示されてるけど、これらは通常制御された環境に限られるんだ。
オープンドメインではタスクやアクションの数が格段に増えるから、LLMが生成した計画と実世界のタスクを実行することとの間にギャップが生まれる。このオープングラウンデッドプランニングに焦点を当てることで、この問題に対処し、日常のタスクやアクションセットを幅広くカバーするデータセットを作成することを目指してる。
データセットの構築
LLMの計画に対する3つの主要な応用領域を特定したよ:
日常生活:wikiHowのようなソースからのタスクが、さまざまなライフスキルのガイドやチュートリアルを提供するよ。
ツールの使用:ツールからのデータは、LLMがタスクを実行するためにツールをどのように使えるかを示す。このデータには、さまざまな種類のツールとそれらが呼び出される方法が含まれてる。
ロボットシナリオ:ロボティクスに関する研究は、ロボティックな文脈で計画を実行する方法を理解する基盤を提供するよ。
これらの領域にわたってデータセットを集めて、各カテゴリにつき最大500タスクを維持することに焦点を当てたバランスの取れた評価セットを作ったよ。これにより、LLMのインドメイン能力を効果的に評価できる。
日常生活データセットであるwikiHowは、アクションセットの範囲と複雑さが広いため、グラウンデッドプランニングの評価に使われた。一方、ツールやロボティクスからのデータセットは、モデルがどれだけ外部ドメインの計画タスクに一般化できるかを測るために利用される。
日常生活データセット
wikiHowデータセットは、さまざまなタスクを構造化された形式でカバーする豊富なガイドコレクションを包含してるよ。各タスクについて、実用的なステップに焦点を絞るために必要な部分だけを保持した。このおかげで、19カテゴリーに分類された76,000以上のタスクを含む包括的なリソースを作成できたんだ。
外部ドメインデータセット
また、ツール使用に関連するデータも集めたよ。これは、LLMが計画においてツールを効果的に活用できるかを理解するために重要なんだ。このデータセットの一部は、ToolAlpacaやGPT4Toolsのようなソースからの貢献から構築されていて、さまざまなタスクに対応する標準的なツール操作のコレクションを提供してる。
ロボティクスの分野では、ロボット計画を示すさまざまなデータセットを統合した。これにより、ロボットが取り組む可能性のある多様なタスクセットを作成することができて、LLMの計画能力のより広範な分析を促進するんだ。
計画の質の評価
収集したすべてのデータセットで、各タスクには対応するゴールドスタンダードプランがペアになっていて、タスクを完了するための1つの方法を提供するよ。さまざまな解決策が考えられるので、生成された計画をゴールドスタンダードと単に一致するかどうかで判断するのではなく、複数の角度から評価することが重要なんだ。
私たちが採用した評価基準は以下の通り:
完全性:計画は包括的かつ論理的で、ギャップや不要な条件がないか?
実行可能性:計画の各ステップは現実的に実行可能か?常識や倫理基準に合致してるか?
タスクへの関連性:計画は与えられたタスクに効果的に対処していて、指定された条件を活用しているか?
これらの基準を評価するために、ChatGPTをレビュアーとして使用して、モデルが生成した計画をゴールドスタンダードと比較した。評価のバイアスを最小化するためにさまざまな方法論を導入して、計画の質をより正確に分析できるようにしたんだ。
結果
実験の結果は、さまざまなLLMや計画方法の強みと弱みを明らかにしているよ。主に、インドメインとアウトオブドメインデータセットの両方でのパフォーマンスを見て、それぞれのアプローチの効果を測った。
インドメイン結果
wikiHowデータセットの評価では、ファインチューニングされたLlama-2-7Bモデルが非常に良いパフォーマンスを示したよ。全ての計画方法において、VicunaやGPT-3.5を常に上回ってた。このモデルは、計画の質を高く保ちながら実行可能性が高かったんだ。
異なる方法は異なる強みを示した。Plan-Retrieve法は最初の計画生成に関連する課題に直面してたけど、一般的にTask-Retrieve法よりも良い最終計画を生成してた。Step-wise Selectアプローチは、限られた検索空間で苦しみ、DFS法は質を犠牲にして実行可能性を高める傾向があったよ。
アウトオブドメイン結果
アウトオブドメインデータセットの分析では、LLaMA-2-SFTがほとんどの方法でGPT-3.5を上回ることが多かった。これは、モデルが元のトレーニングデータを超えてファインチューニングされることで得られる利点を強調してるよ。ツールデータセットでは、GPT-3.5がAPI名を使わずに完全なステップを生成する傾向が低いパフォーマンスをもたらしてた。
DFS法を使用した際、生成された計画の平均長は他のものと比べて短く、バックトラッキングに大きく依存してるようだった。これは、モデルがアウトオブドメインデータを扱う際にリトリーブされたリストからアクションを選択することに消極的であることを示してるんだ。
エラー分析
wikiHowデータセットに関連するGPT-3.5出力の実行可能性と質に焦点を当てたエラー分析を行ったよ。実行不可能な計画のかなりの部分が、与えられたアクションセットを超えたコンテンツを生成する「ハルシネーション」に起因していることを確認した。
Plan-Retrieve法を通じて生成された計画には、タスクに完全に適用されないアクションが含まれてる場合があった。一方、DFS法で重複ステップが生成された場合、モデルが反復計画プロセスを効果的に管理できていないことを示していた。
結論と今後の課題
この研究では、オープングラウンデッドプランニングの概念を紹介し、広範なアクションセットを持つ多様なドメインのデータセットのベンチマークを開発したよ。私たちの包括的な実験は、これらのセットのための実行可能な計画を生成する際の現在のモデルの重大な制限を示している。
提案した「リトリーブ・アンド・リライト」フレームワークは、オープングラウンデッドプランニングの課題に対する部分的な解決策を提供するよ。モデルや方法の能力を強化して、多様な計画シナリオで効果的に機能できるようにする必要性を示している。今後の研究は、リトリーブ方法の洗練やデータセットの拡張に焦点を当てて、より複雑なアクションパラメータを含めていくことができるだろう。
また、計画評価にChatGPTを利用したが、このアプローチに内在するバイアスや限界を認識している。今後の取り組みでは、これらのバイアスの影響を軽減するために、より客観的な評価基準が有益になるかもしれない。
全体として、私たちの研究はLLMベースの計画の豊かな領域でさらなる探求の基盤を築き、生成された計画の実行可能性と全体的な質を改善するための洞察を提供するものだよ。
タイトル: Open Grounded Planning: Challenges and Benchmark Construction
概要: The emergence of large language models (LLMs) has increasingly drawn attention to the use of LLMs for human-like planning. Existing work on LLM-based planning either focuses on leveraging the inherent language generation capabilities of LLMs to produce free-style plans, or employs reinforcement learning approaches to learn decision-making for a limited set of actions within restricted environments. However, both approaches exhibit significant discrepancies from the open and executable requirements in real-world planning. In this paper, we propose a new planning task--open grounded planning. The primary objective of open grounded planning is to ask the model to generate an executable plan based on a variable action set, thereby ensuring the executability of the produced plan. To this end, we establishes a benchmark for open grounded planning spanning a wide range of domains. Then we test current state-of-the-art LLMs along with five planning approaches, revealing that existing LLMs and methods still struggle to address the challenges posed by grounded planning in open domains. The outcomes of this paper define and establish a foundational dataset for open grounded planning, and shed light on the potential challenges and future directions of LLM-based planning.
著者: Shiguang Guo, Ziliang Deng, Hongyu Lin, Yaojie Lu, Xianpei Han, Le Sun
最終更新: 2024-06-04 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2406.02903
ソースPDF: https://arxiv.org/pdf/2406.02903
ライセンス: https://creativecommons.org/licenses/by-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。