実世界のAIタスクのためのAPI定義
wikiHowのチュートリアルを使ってAIのためのAPIを作る方法。
― 1 分で読む
目次
AIシステムは、現実の設定で選択をする能力がどんどん高まってる。これを実現するために、APIって呼ばれるインターフェースに接続するシンプルなアクションを使ってるんだ。このAPIを使うことで、AIは物を動かしたり、周りとやり取りしたりできる。でも、現実世界でAIを使うには色んなアクションが必要なのに、シミュレーション環境では通常、限られた数のAPIしか用意されてない。そこで、重要な疑問が浮かぶ:様々なタスクをこなせるAIエージェントには、どれくらいのシンプルなアクションが必要なのか?それらのアクションはどんなものなのか?
この疑問に答えるために、人間が書いたwikiHowのチュートリアルを考えてみる。これらのチュートリアルはたくさんのタスクをカバーしてるから、AIエージェントをガイドするのに必要なAPIがどんなものか知りたい。そこで、wikiHowの指示とAIが現実の設定でどう動くかをリンクさせて、新しいAPIを徐々に作る方法を提案するよ。
実験の目的
主な目標は、これらのAPIをどう定義するかを見つけること。APIがすぐに実行できるかどうかよりも、APIそのものに焦点を当てたい。wikiHowの指示を使うことで、少数のチュートリアルを見ただけで300以上の異なるAPIを特定できた。分析によると、既存のシミュレーション環境は、私たちが作成したAPIの数が限られてることが多い。これは、より広い範囲のアクションを扱えるシミュレーション環境の必要性を強調している。
現実世界でのデプロイの課題
AIエージェントを現実の状況で使うことを考えると、様々なアクションを実行する必要があることに気づく。しかし、多くの現在のAIシステムは、シミュレーションで使えるAPIの数が少ないことに制約を受けてる。これは大きな問題で、リアルなタスクにはもっと柔軟性が求められるから。
実生活の活動をこなせるAIエージェントを作るためには、どのAPIが必要で、どう構築するかを知らなきゃいけない。wikiHowのチュートリアルを見て、このタスクをこなす方法を提案する。まずいくつかの基本的なAPIを定義して、必要に応じてそれを使って新しいAPIを生成する。
wikiHowをリソースとして利用する
wikiHowは、さまざまなタスクのための何千ものチュートリアルがあることで知られるウェブサイトだ。各チュートリアルは、自然言語で書かれた数ステップから構成されていて、人間にとって追いやすい。これを使うことで、現実のタスクに必要なAIエージェント用のAPI探索をガイドできる。
仮想環境の定義
wikiHowの指示に基づいて、シンプルな環境を作る。各チュートリアルには、タスクを完了するために必要なオブジェクトの情報が含まれてる。私たちの目的のために、空間的な詳細を無視して、オブジェクト同士の関係に焦点を当てて環境を単純化する。
指示をアクショナブルなステップに翻訳する
wikiHowの言語をAIエージェント向けの明確なポリシーに翻訳するのが目標。これには、チュートリアルからの例を使ってアクションを定義するガイドラインにする。目的は、複雑すぎるアクションを無効にして、AIが使えるシンプルで明確なAPIを作ること。
アクションを作成するための原則
最近の研究に基づいて、アクションを形成するための重要な原則をいくつか持ってる。まず、シンプルさと明確さを目指して、AIを混乱させるような抽象的なアクションは避ける。多くのタスクをカバーするような広いアクションを作るのではなく、エージェントができることを明確に定義する特定のアクションを好む。
さらに、私たちのAPIが実世界の設定で役立ち、実装が簡単であることを望んでる。これには、高レベルのアクションとエージェントが追従できる具体的なステップとのバランスを見つける必要がある。
チュートリアルからアクションを誘導する
wikiHowのチュートリアルを見てアクションを作成するプロセスを設定する。各チュートリアルをランダムに選んで、指示と以前に作成したプログラムを含むプロンプトを構成する。AIはこの入力に基づいて新しいプログラムを生成する。
知識ベースの拡張
生成されたプログラムを評価することで、新しいAPIを私たちのプールに追加できる。このプロセスを繰り返して、AIが前回の出力を基に構築される。もっとチュートリアルを進めることで、より包括的なAPIセットを作成する。
誘導されたAPIやアクションの評価
私たちのメソッドの効果を評価するために、APIや生成されたプログラムの質を見てる。物理的にAPIを実行できないから、人間の評価や自動統計に頼ってその効果を判断する。重複度のような要素を見ることで、各APIのユニークさを測ったり、プログラムが意図した目標を達成できているかを確認する。
自動評価指標
人間の評価に加えて、APIプールのサイズや有用性を理解するために自動統計も追跡する。ユニークなAPIがどれだけできたか、チュートリアルを処理することでどれだけ使われているのかを測る。
結果とインサイト
私たちの結果は、APIを作成するこのメソッドがAIエージェントのための多様なアクションに繋がることを示してる。少数のチュートリアルを調べた後、かなりの数の有用なAPIを生成した。これは、wikiHowには既存のシミュレーション環境の表現よりもずっと大きなアクション空間があることを示唆してる。
結論
この研究では、現実のタスクで多用途なAIエージェントに必要なアクションの数や性質を近似することを目指してきた。wikiHowのチュートリアルに基づいてAPIを作成する体系的なアプローチを使うことで、AIエージェントのアクション空間を豊かにする方法を提供したよ。私たちの発見は、現在のシミュレーション環境には大きなギャップがあることを明らかにし、より豊かで多様なアクションセットを許可するシステムの必要性を強調している。
今後の方向性
幅広いAPIを定義する進展はあったけど、私たちの作業には制限もあった。作成したAPIの多くはまだ冗長で、評価プロセスをスケールさせるには生成されたプログラムを実行する必要がある。将来の研究は、これらのAPIを洗練させ、冗長性を減らし、より実用的な設定でシステムをテストすることに焦点を当てるべきだ。もしかしたら、実時間でエージェントのパフォーマンスを見るために、ビデオベースの環境を使うことも考えられる。
謝辞
この研究は、私たちの作業のためのリソースを提供してくれたさまざまな助成金や寄付によって支えられている。また、この分野での私たちの努力を導いてくれた研究コミュニティからのフィードバックとサポートにも感謝している。
タイトル: WorldAPIs: The World Is Worth How Many APIs? A Thought Experiment
概要: AI systems make decisions in physical environments through primitive actions or affordances that are accessed via API calls. While deploying AI agents in the real world involves numerous high-level actions, existing embodied simulators offer a limited set of domain-salient APIs. This naturally brings up the questions: how many primitive actions (APIs) are needed for a versatile embodied agent, and what should they look like? We explore this via a thought experiment: assuming that wikiHow tutorials cover a wide variety of human-written tasks, what is the space of APIs needed to cover these instructions? We propose a framework to iteratively induce new APIs by grounding wikiHow instruction to situated agent policies. Inspired by recent successes in large language models (LLMs) for embodied planning, we propose a few-shot prompting to steer GPT-4 to generate Pythonic programs as agent policies and bootstrap a universe of APIs by 1) reusing a seed set of APIs; and then 2) fabricate new API calls when necessary. The focus of this thought experiment is on defining these APIs rather than their executability. We apply the proposed pipeline on instructions from wikiHow tutorials. On a small fraction (0.5%) of tutorials, we induce an action space of 300+ APIs necessary for capturing the rich variety of tasks in the physical world. A detailed automatic and human analysis of the induction output reveals that the proposed pipeline enables effective reuse and creation of APIs. Moreover, a manual review revealed that existing simulators support only a small subset of the induced APIs (9 of the top 50 frequent APIs), motivating the development of action-rich embodied environments.
著者: Jiefu Ou, Arda Uzunoglu, Benjamin Van Durme, Daniel Khashabi
最終更新: 2024-07-10 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2407.07778
ソースPDF: https://arxiv.org/pdf/2407.07778
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。