ユーザーガイド付きシステムで視覚的質問応答を強化する
AVISシステムは、構造化されたワークフローと遷移グラフを通じて視覚的質問応答を改善するよ。
― 1 分で読む
目次
特定のコードスニペットを使ってAVISシステムをセットアップしたよ。テスト中はGoogle検索、LENS、PALI、PALM APIを直接使った。これにはGPUやTPUみたいな追加の計算力は必要なかった。入力クエリが不要なツール、例えばオブジェクト検出や画像検索の結果は、時間を節約するために2つのデータセットで事前に用意した。他にも、Visual Question Answering (VQA)、テキスト検索、LLM QAみたいなツールはシステムが動いてる間に使った。
トランジショングラフなしの自律ベースラインとの比較
私たちの作業の大部分は、実際のユーザー調査から作られたトランジショングラフを使用することにある。このグラフとユーザープロンプトがAVISにとってどれだけ重要かを示すために、このグラフを使わないベースラインを作った。この場合、モデルは各ステップでタスク説明付きの全ツールのリストを見ている。このベースラインは最近のAutoGPTやBabyAGIみたいなプロジェクトに似てて、LLMを独立したエージェントとして使い、オンラインで行動を選ぶことを試みてた。
結果は結果表にある。ベースラインはトランジショングラフとユーザープロンプトを使用したAVISほど良くは機能しない。主な問題はツールリストの一般的な性質だ。例えば、私たちはまずオブジェクト検出や画像検索を使って視覚的な質問に取り組み、その後にGoogle検索やLLMで知識の質問に対応する。モデルがタスク説明だけに頼ると、人間の行動をガイドとして使わないから適切でないツールを選ぶかもしれない。このアイデアについては次のセクションで詳しく説明するよ。
モデルの結果
| モデル & Infoseek | OKVQA |
|---|---|
| トランジショングラフなしのAVIS | 38.2 |
| トランジショングラフありのAVIS | 50.7 |
AVISにおけるツール実行シーケンスの分析
AVISモデルがタスクをどのように実行するかに共通のパターンがあるかを調べた。Infoseekデータセットの全例で使用されたツールに関するデータを集めた。最初に、各ツールがどれだけ頻繁に呼ばれるかを示す。その後、最も頻繁に使用されるトップ4のツールを詳しく見ていく。
トランジショングラフとプロンプトに導かれたAVISモデルは、すべてのツールの組み合わせを使うわけではなく、特定のペアを好む傾向がある。例えば、「オブジェクト選択」は最初によく使われ、3ステップ目では「ウェブ検索」を使ってさらに情報を集めることが多い。
作成したグラフの遷移確率も計算した。この構造は、実際の使用中にモデルがすべての接続を予測しないため、導かれたトランジショングラフとは少し違う。全体として、明確な2ステップの質問解決パターンを示している。まずAVISはオブジェクト検出のようなツールを使って視覚的な情報を集め、その後LLM QAを使って視覚的な答えを得る。次に、ウェブ検索とLLM QAにプロンプトを使って最終的な答えを見つけることが多い。
生成されたアクションシーケンスの長さも見た。長さは固定されず大きく異なるが、5の長さが最も一般的だった。
AVISの推論コンポーネント
もう一つの興味深い部分は、各ツールの出力が「有益」、「無益」、または「回答可能」かどうかをチェックする推論コンポーネントだ。これらの予測の全体的な頻度を示す。モデルは通常、ほとんどの出力を有益または回答可能と分類する。しかし、約8.1%の出力は「無益」とラベル付けされる。この場合、AVISは戻って別のアクションを選ぶ。
例の予測
ここに推論の動作とその決定を示すいくつかの例がある。
| 質問 | アクション | 返された内容 | 推論の出力 |
|---|---|---|---|
| 島はどこにあるの? | 画像検索 | [...] | 無益 |
| 誰か、または何かがこの場所を維持しているの? | LLM QA | トラファルガー広場が中心... | 無益 |
| このタイプの航空機の生産されたアイテムの総量は? | 画像検索 | [...] | 回答可能 |
| この山の名前は? | 画像検索 | オリーブ山... | 回答可能 |
データセットの詳細
Infoseekは、基本的な知識以上の情報が必要な質問に焦点を当てたVisual Question Answering (VQA)データセットだ。人間が注釈を付けた質問を集め、既存の視覚データとリンクさせて複雑な質問-回答ペアを作成した。提出時点では、そのWikidata部分だけにアクセスできた。
OK-VQAは、直接的に画像に見えない外部知識を要求する別のVQAデータセットだ。このデータセットは、Wikipediaの知識を基にした詳細な質問を書いた多くの人々の協力で作成された。
VQAの結果
| モデル | 未見エンティティ | 未見の質問 |
|---|---|---|
| PALM (Qのみ、少数ショット) | 6.6 | 4.8 |
| OFA (ファインチューニング) | 2.9 | 6.2 |
| PALI (ファインチューニング) | 5.9 | 13.3 |
| PALM w/ CLIP (少数ショット + 外部知識) | 14.9 | 15.6 |
| FiD w/ CLIP (ファインチューニング + 外部知識) | 17.6 | 18.9 |
| うちの (少数ショット) | 31.4 | 33.6 |
AVISワークフローのためのプロンプト例
以下にAVISワークフローをサポートするさまざまなプロンプト例を示す。最初のプロンプトは、どのツールを使うか、どんな質問をするかを計画するのに役立つ。
プランナープロンプトスケルトンとタスク指示
planner_prompt = """
あなたのゴールは次のクエリに答えることだ:
それに答えるために、次のツールが提供される:
現在のコンテキストに基づいて決定を下してください。
task_instructions =
'この画像について簡単な質問を外部QAモジュールに聞く。',
'私たちが検出したオブジェクトの一つを選んで、さらに掘り下げる。',
'与えられた画像と同じすべての画像のキャプションを見る。',
'このオブジェクトに類似したすべての画像のキャプションを見る。',
'知識のためにGoogle検索に質問を送る。',
'質問が簡単な場合はQAモジュールに聞く。'
計画プロンプトの例
vqa_plan_prompts = [
"""クエリ: 電車は何を運んでいるの?
レールを走る電車...
アクション: vqa
"""
]
質問をサブ質問に分解する
AVISが質問を視覚的要素と知識要素に分解する方法も示す。
question_decomposition_prompt = """
与えられた画像に対する次の質問を読んでください。質問を2つのサブ質問に分解してください。
最初の質問は画像について、次の質問は知識に基づいて推論する必要があります。
"""
結論
AVISシステムは、構造化されたワークフローとユーザープロンプトに支えられることで、複雑な視覚的質問を扱うのにどれほど効果的であるかを示している。トランジショングラフの使用は大きな価値を加え、この構造化されたアプローチがないモデルよりも効率的に動作できるようにしている。これらの方法を実装することで、AVISは視覚的および知識ベースの応答が必要な質問をよりよく理解し、応答できるようになる。
ツール使用の詳細な分析と推論者の統合を通じて、AVISが何をするだけでなく、どのようにそれを効果的に行うかについてのさらなる洞察を得ている。この進展は、視覚質問応答タスクにおけるより信頼性の高い回答を可能にし、この分野での将来の改善や応用への道を開く。
タイトル: AVIS: Autonomous Visual Information Seeking with Large Language Model Agent
概要: In this paper, we propose an autonomous information seeking visual question answering framework, AVIS. Our method leverages a Large Language Model (LLM) to dynamically strategize the utilization of external tools and to investigate their outputs, thereby acquiring the indispensable knowledge needed to provide answers to the posed questions. Responding to visual questions that necessitate external knowledge, such as "What event is commemorated by the building depicted in this image?", is a complex task. This task presents a combinatorial search space that demands a sequence of actions, including invoking APIs, analyzing their responses, and making informed decisions. We conduct a user study to collect a variety of instances of human decision-making when faced with this task. This data is then used to design a system comprised of three components: an LLM-powered planner that dynamically determines which tool to use next, an LLM-powered reasoner that analyzes and extracts key information from the tool outputs, and a working memory component that retains the acquired information throughout the process. The collected user behavior serves as a guide for our system in two key ways. First, we create a transition graph by analyzing the sequence of decisions made by users. This graph delineates distinct states and confines the set of actions available at each state. Second, we use examples of user decision-making to provide our LLM-powered planner and reasoner with relevant contextual instances, enhancing their capacity to make informed decisions. We show that AVIS achieves state-of-the-art results on knowledge-intensive visual question answering benchmarks such as Infoseek and OK-VQA.
著者: Ziniu Hu, Ahmet Iscen, Chen Sun, Kai-Wei Chang, Yizhou Sun, David A Ross, Cordelia Schmid, Alireza Fathi
最終更新: 2023-11-02 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2306.08129
ソースPDF: https://arxiv.org/pdf/2306.08129
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。