ユーザーガイド付きシステムで視覚的質問応答を強化する

トランジショングラフなしの自律ベースラインとの比較
モデルの結果
AVISにおけるツール実行シーケンスの分析
AVISの推論コンポーネント
データセットの詳細
VQAの結果
AVISワークフローのためのプロンプト例
結論
オリジナルソース
参照リンク

特定のコードスニペットを使ってAVISシステムをセットアップしたよ。テスト中はGoogle検索、LENS、PALI、PALM APIを直接使った。これにはGPUやTPUみたいな追加の計算力は必要なかった。入力クエリが不要なツール、例えばオブジェクト検出や画像検索の結果は、時間を節約するために2つのデータセットで事前に用意した。他にも、Visual Question Answering (VQA)、テキスト検索、LLM QAみたいなツールはシステムが動いてる間に使った。

トランジショングラフなしの自律ベースラインとの比較

私たちの作業の大部分は、実際のユーザー調査から作られたトランジショングラフを使用することにある。このグラフとユーザープロンプトがAVISにとってどれだけ重要かを示すために、このグラフを使わないベースラインを作った。この場合、モデルは各ステップでタスク説明付きの全ツールのリストを見ている。このベースラインは最近のAutoGPTやBabyAGIみたいなプロジェクトに似てて、LLMを独立したエージェントとして使い、オンラインで行動を選ぶことを試みてた。

結果は結果表にある。ベースラインはトランジショングラフとユーザープロンプトを使用したAVISほど良くは機能しない。主な問題はツールリストの一般的な性質だ。例えば、私たちはまずオブジェクト検出や画像検索を使って視覚的な質問に取り組み、その後にGoogle検索やLLMで知識の質問に対応する。モデルがタスク説明だけに頼ると、人間の行動をガイドとして使わないから適切でないツールを選ぶかもしれない。このアイデアについては次のセクションで詳しく説明するよ。

モデルの結果

モデル & Infoseek	OKVQA
トランジショングラフなしのAVIS	38.2
トランジショングラフありのAVIS	50.7

AVISにおけるツール実行シーケンスの分析

AVISモデルがタスクをどのように実行するかに共通のパターンがあるかを調べた。Infoseekデータセットの全例で使用されたツールに関するデータを集めた。最初に、各ツールがどれだけ頻繁に呼ばれるかを示す。その後、最も頻繁に使用されるトップ4のツールを詳しく見ていく。

トランジショングラフとプロンプトに導かれたAVISモデルは、すべてのツールの組み合わせを使うわけではなく、特定のペアを好む傾向がある。例えば、「オブジェクト選択」は最初によく使われ、3ステップ目では「ウェブ検索」を使ってさらに情報を集めることが多い。

作成したグラフの遷移確率も計算した。この構造は、実際の使用中にモデルがすべての接続を予測しないため、導かれたトランジショングラフとは少し違う。全体として、明確な2ステップの質問解決パターンを示している。まずAVISはオブジェクト検出のようなツールを使って視覚的な情報を集め、その後LLM QAを使って視覚的な答えを得る。次に、ウェブ検索とLLM QAにプロンプトを使って最終的な答えを見つけることが多い。

生成されたアクションシーケンスの長さも見た。長さは固定されず大きく異なるが、5の長さが最も一般的だった。

AVISの推論コンポーネント

もう一つの興味深い部分は、各ツールの出力が「有益」、「無益」、または「回答可能」かどうかをチェックする推論コンポーネントだ。これらの予測の全体的な頻度を示す。モデルは通常、ほとんどの出力を有益または回答可能と分類する。しかし、約8.1%の出力は「無益」とラベル付けされる。この場合、AVISは戻って別のアクションを選ぶ。

例の予測

ここに推論の動作とその決定を示すいくつかの例がある。

質問	アクション	返された内容	推論の出力
島はどこにあるの？	画像検索	[...]	無益
誰か、または何かがこの場所を維持しているの？	LLM QA	トラファルガー広場が中心...	無益
このタイプの航空機の生産されたアイテムの総量は？	画像検索	[...]	回答可能
この山の名前は？	画像検索	オリーブ山...	回答可能

データセットの詳細

Infoseekは、基本的な知識以上の情報が必要な質問に焦点を当てたVisual Question Answering (VQA)データセットだ。人間が注釈を付けた質問を集め、既存の視覚データとリンクさせて複雑な質問-回答ペアを作成した。提出時点では、そのWikidata部分だけにアクセスできた。

OK-VQAは、直接的に画像に見えない外部知識を要求する別のVQAデータセットだ。このデータセットは、Wikipediaの知識を基にした詳細な質問を書いた多くの人々の協力で作成された。

VQAの結果

モデル	未見エンティティ	未見の質問
PALM (Qのみ、少数ショット)	6.6	4.8
OFA (ファインチューニング)	2.9	6.2
PALI (ファインチューニング)	5.9	13.3
PALM w/ CLIP (少数ショット + 外部知識)	14.9	15.6
FiD w/ CLIP (ファインチューニング + 外部知識)	17.6	18.9
うちの (少数ショット)	31.4	33.6

AVISワークフローのためのプロンプト例

以下にAVISワークフローをサポートするさまざまなプロンプト例を示す。最初のプロンプトは、どのツールを使うか、どんな質問をするかを計画するのに役立つ。

プランナープロンプトスケルトンとタスク指示

planner_prompt = """
あなたのゴールは次のクエリに答えることだ:
それに答えるために、次のツールが提供される:
現在のコンテキストに基づいて決定を下してください。
task_instructions = 
'この画像について簡単な質問を外部QAモジュールに聞く。',
'私たちが検出したオブジェクトの一つを選んで、さらに掘り下げる。',
'与えられた画像と同じすべての画像のキャプションを見る。',
'このオブジェクトに類似したすべての画像のキャプションを見る。',
'知識のためにGoogle検索に質問を送る。',
'質問が簡単な場合はQAモジュールに聞く。'

計画プロンプトの例

vqa_plan_prompts = [
"""クエリ: 電車は何を運んでいるの？
レールを走る電車...
アクション: vqa
""" 
]

質問をサブ質問に分解する

AVISが質問を視覚的要素と知識要素に分解する方法も示す。

question_decomposition_prompt = """
与えられた画像に対する次の質問を読んでください。質問を2つのサブ質問に分解してください。
最初の質問は画像について、次の質問は知識に基づいて推論する必要があります。
"""

結論

AVISシステムは、構造化されたワークフローとユーザープロンプトに支えられることで、複雑な視覚的質問を扱うのにどれほど効果的であるかを示している。トランジショングラフの使用は大きな価値を加え、この構造化されたアプローチがないモデルよりも効率的に動作できるようにしている。これらの方法を実装することで、AVISは視覚的および知識ベースの応答が必要な質問をよりよく理解し、応答できるようになる。

ツール使用の詳細な分析と推論者の統合を通じて、AVISが何をするだけでなく、どのようにそれを効果的に行うかについてのさらなる洞察を得ている。この進展は、視覚質問応答タスクにおけるより信頼性の高い回答を可能にし、この分野での将来の改善や応用への道を開く。

ユーザーガイド付きシステムで視覚的質問応答を強化する

AVISシステムは、構造化されたワークフローと遷移グラフを通じて視覚的質問応答を改善するよ。

トランジショングラフなしの自律ベースラインとの比較

モデルの結果

AVISにおけるツール実行シーケンスの分析

AVISの推論コンポーネント

例の予測

データセットの詳細

VQAの結果

AVISワークフローのためのプロンプト例

プランナープロンプトスケルトンとタスク指示

計画プロンプトの例

質問をサブ質問に分解する

結論

参照リンク

参照トピック

ユーザーガイド付きシステムで視覚的質問応答を強化する

AVISシステムは、構造化されたワークフローと遷移グラフを通じて視覚的質問応答を改善するよ。

#トランジショングラフなしの自律ベースラインとの比較

#モデルの結果

#AVISにおけるツール実行シーケンスの分析

#AVISの推論コンポーネント

#例の予測

#データセットの詳細

#VQAの結果

#AVISワークフローのためのプロンプト例

#プランナープロンプトスケルトンとタスク指示

#計画プロンプトの例

#質問をサブ質問に分解する

#結論

参照リンク

参照トピック

トランジショングラフなしの自律ベースラインとの比較

モデルの結果

AVISにおけるツール実行シーケンスの分析

AVISの推論コンポーネント

例の予測

データセットの詳細

VQAの結果

AVISワークフローのためのプロンプト例

プランナープロンプトスケルトンとタスク指示

計画プロンプトの例

質問をサブ質問に分解する

結論