Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語# 人工知能# 機械学習

階層的プロンプトでウェブナビゲーションを改善する

新しい方法がウェブナビゲーションにおける大規模言語モデルの意思決定を向上させる。

― 1 分で読む


AIを使ったウェブナビゲーAIを使ったウェブナビゲーションの向上クにおける言語モデルの効率がアップ!新しい方法でオンラインショッピングのタス
目次

大きな言語モデル(LLM)は、段階を踏んで決定を下す必要があるタスクを助けるのに期待が持てるんだ。特にウェブナビゲーションでは、ユーザーが特定の情報や製品をオンラインで見つけて、検索やリンクをクリックするなどのアクションを実行する必要があるからね。でも、LLMは長いアクションの履歴や観察を理解する必要がある複雑な状況に対処するのが難しいんだ。

LLMがウェブをよりうまくナビゲートできるようにするために、階層プロンプティングという新しい方法を提案するよ。従来のプロンプティング方法は、モデルにすべての情報を一度に与えてしまうから、圧倒されちゃったり、余計な詳細が含まれてることが多いんだ。私たちのアプローチは、情報をもっと扱いやすい形にまとめることができるから、モデルは次にどのアクションを取るべきか考えるときに本当に重要なことに集中できるんだ。

より良いウェブナビゲーションの必要性

日常生活では、手に入る情報に基づいて決定を下す必要があることが多いよね。たとえば、オンラインショッピングのときには、ユーザーが特定の製品、たとえばシャツや本を探したいと思うかもしれない。目標や画面に表示されている情報に基づいて、どのステップを取るべきかを考えなきゃならない。LLMは自然言語コマンドを使ってこのプロセスを自動化できるかもしれないけど、複雑で長い観察を扱うのには苦労しているんだ。

現在のプロンプティングアプローチ

現在のLLMを使ったインタラクティブなタスクのほとんどの方法は、モデルにアクションを促す前にいくつかの例を提供することを含んでいるよ。これらの例はモデルの応答を形作るのに役立つけど、必ずしも状態の観察を最適化することには繋がらないんだ。つまり、モデルはアクションを生成できるけど、受け取った情報を理解するのが難しいことがあるんだ。

私たちが提案する階層プロンプティングメソッドは、タスクを二つの部分に分けて、関連情報を要約し、次のアクションを予測することで機能するんだ。

階層プロンプティングメソッド

観察の要約

私たちの方法の最初のステップは、モデルが対処しなきゃいけない現在の状況をもっと意味のある形にすることだ。これを「サマライザー」と呼ぶよ。サマライザーは複雑なウェブページから余計な詳細を取り除いて、意思決定を助けるために重要な情報だけを残すんだ。

たとえば、ユーザーが小さなボトルのフルーツデオドラントを検索したとき、サマライザーは追加の製品説明や関係のないオプションを検索結果から取り除くんだ。これによって、モデルが考慮すべき選択肢がスッキリするんだ。

アクションの予測

私たちの方法の二つ目の要素は「アクター」だ。アクターは要約された情報と過去のアクションの履歴を調べて、次に何をするかを決めるんだ。観察を簡素化することで、アクターは重要なことにより集中できるようになる。

実際の応用:Webshopでのウェブナビゲーション

私たちの階層プロンプティングアプローチを試すために、Webshopという実際のシナリオを使ったよ。この設定では、モデルがさまざまな製品を含むeコマースのウェブサイトをナビゲートする買い物客のふりをするんだ。エージェントのタスクは、自然言語リクエストに基づいてアイテムを見つけて購入することだ。

私たちは、この方法がエージェントがタスクを完了する成功率を大幅に向上させることが分かったよ。関連情報に焦点を当てることで、モデルは他の既存の方法よりも良いパフォーマンスを発揮するんだ。

実験からの結果

私たちの実験では、階層プロンプティングがタスクを完了する成功率を高めることを確認したよ。具体的には、私たちのモデルのパフォーマンスを以前の方法と比較したところ、かなりの差で上回ったんだ。

長い履歴の管理

意思決定タスクの一つの大きな課題は、長いアクションと観察の履歴を管理することだ。私たちの方法は、アクションの数が増えてもパフォーマンスを維持するのに特に効果的だったよ。たとえば、11ステップ以上のタスクに直面したとき、私たちのモデルは他のモデルを大幅に上回ったんだ。

これは、簡素化された観察がモデルが過剰な情報に悩まされることなく、より明確な決定を下すのを助けるからだと考えているよ。

エラーの削減

私たちの階層メソッドのもう一つの利点は、タスク中に発生する間違いの数を減らす能力だったよ。インタラクティブな設定では、LLMが時々、現在の状態に基づいて有効でないアクションを試みてエラーを起こすことがあるんだ。私たちはこのアプローチを使うことで、そうしたエラーがかなり減少したことに気づいたよ。観察のノイズが少ないことで、間違いが減るってわけだね。

関連するコンテキストの重要性

私たちの研究は、LLMがタスクを実行する際に関連するコンテキストを提供することの重要性を強調しているよ。モデルが関連性のない情報をたくさん受け取ると、混乱して間違った結論に至ることがあるんだ。よりクリーンでターゲットを絞った指示セットを与えることで、モデルがより効果的に働くのを助けることができるんだ。

この発見は、AIの意思決定において広範な影響を持つよ。情報を簡素化することで、モデルが処理する必要があるデータが少なくなり、特にオンラインショッピングのような複雑で多様な環境でより良い結果につながるかもしれないね。

未来の方向性

私たちが紹介したこの方法は、階層プロンプティングが意思決定タスクを改善する方法を探る出発点に過ぎないんだ。このアプローチは、特に複雑な履歴や長い観察を含む領域に多くの利益をもたらすことができると信じているよ。

今後の研究では、サマライザーをさらに洗練させたり、観察を豊かにするために他のタイプのデータを統合したりすることが考えられるね。また、ゲームやロボット工学、実世界の問題解決など、順次の意思決定が必要とされるさまざまな分野にこの方法を適用する可能性もあるよ。

結論

要するに、私たちの研究は大きな言語モデルがウェブをナビゲートする方法を改善するための有望な新しい方法を提示しているよ。階層プロンプティングを使うことで、意思決定能力を高めるためにより焦点を絞った観察を提供できる。これにより、タスク成功率が向上するだけでなく、複雑なシナリオに直面したときのエラーも減るんだ。

テクノロジーが進化し続ける中、AIシステムとのインタラクションを洗練させることは非常に重要だよ。私たちの階層プロンプティングメソッドは、LLMをより効果的にして、慎重な考慮や数多くの要因に基づく決定を要する日常のタスクに適応させる一歩なんだ。この研究がAIのさらなる発展を促し、将来的によりスマートで信頼できるシステムの道を開くことを願っているよ。

オリジナルソース

タイトル: Hierarchical Prompting Assists Large Language Model on Web Navigation

概要: Large language models (LLMs) struggle on processing complicated observations in interactive decision making tasks. To alleviate this issue, we propose a simple hierarchical prompting approach. Diverging from previous prompting approaches that always put the full observation (e.g. a web page) to the prompt, we propose to first construct an action-aware observation which is more condensed and relevant with a dedicated SUMMARIZER prompt. The ACTOR prompt then predicts the next action based on the summarized observation. While our method has broad applicability, we particularly demonstrate its efficacy in the complex domain of web navigation where a full observation often contains redundant and irrelevant information. Our approach outperforms the previous state-of-the-art prompting mechanics by 6.2% on task success rate, demonstrating its potential on interactive decision making tasks with long observation traces.

著者: Abishek Sridhar, Robert Lo, Frank F. Xu, Hao Zhu, Shuyan Zhou

最終更新: 2023-10-29 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2305.14257

ソースPDF: https://arxiv.org/pdf/2305.14257

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事