Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 人工知能

iWISDM:機械命令実行テストのためのツール

iWISDMを紹介するよ。ビジュアルと言語を使った機械指示のフォローを評価するための新しいベンチマークだ。

― 1 分で読む


iWISDM:iWISDM:テストマシンの指示ツール。複雑なタスクで機械を評価するための新しい
目次

指示に従うことは、人間にも機械にも大事だよね。人間は日常的に多くのタスクを考えずにサクサクこなすけど、複雑なタスクで機械に指示を教えるのは難しいんだ。この記事では、視覚や言語を使って機械が指示にどれくらい従えるかをテストする新しいツール、「iWISDM」について話すよ。

指示に従うことの難しさ

毎日、人間はいろんなタスクをこなしている。例えば、朝の支度にはシャワーを浴びたり、歯を磨いたり、朝ごはんを作ったりといったステップがあるよね。ほとんどのタスクは考えずにやってしまうもので、日常のルーチンの一部なんだ。でも、機械、特にAIはこういうシンプルなことに苦労してる。コーヒーを作るみたいに一見簡単なタスクでも、豆を挽いたり、コーヒーを淹れたり、カップに注いだりと、いくつものステップが必要なんだ。

タスクが家具を組み立てたり、家電を使ったりと複雑になると、難易度が上がる。人間はこういうタスクをうまくこなすけど、機械はまだまだ足りない。

大規模言語モデルとマルチモーダルモデルの台頭

大規模言語モデル(LLM)は、人間の言葉を理解する力が大幅に向上して、会話したり、アドバイスをしたり、データを分析したりできるようになったんだ。今は、テキストや画像などさまざまな入力を扱えるマルチモーダルモデル(LMM)が出てきている。例えば、Gemini-Ultraみたいなモデルは、テキスト、画像、音声を受け入れて、それに対してテキストと画像を組み合わせて返答するんだ。

でも、今あるテストの多くは、テキストや画像といった単一の種類の入力にしか焦点を当てていないから、異なる情報をどう統合できるかを理解するのが難しい。

iWISDMの紹介

そのギャップを埋めるために、「指示的バーチャル視覚意思決定(iWISDM)」ツールを作ったよ。このバーチャル環境は、視覚と言語を組み合わせた幅広いタスクを生成するんだ。iWISDMを使って、いろんな複雑さの中で機械が指示に従う能力をテストするための3つのベンチマークを作れるよ。

私たちの調査結果では、iWISDMは信頼できるベンチマークだけど、機械と人間の指示の従い方にはまだ大きなギャップがあるってわかった。

日常タスクの理解

典型的な一日は、たくさんのタスクをこなすことが含まれる。例えば、起きてから仕事を始めるまでに、10から20のタスクを何も考えずに済ませるかもしれない。これらのタスクは簡単だけど、いくつかのステップが必要なんだ。機械にこういったタスクを処理させるのは複雑なんだよね。コーヒーを作るようなシンプルなことでも、豆を挽くところから飲み物を注ぐまでいくつものステップがある。

複数の設定があるデバイスを使うような複雑なタスクは、機械にはもっと難しい。ほとんどの人はこういうタスクをうまくこなせるけど、機械には難しい。

既存ベンチマークの問題点

今のベンチマークテストは色々な面で不足していることが多い:

  1. 多くのマルチモーダルテストは、モデルが異なる入力をどう組み合わせるかを真に評価できていない。
  2. 視覚的推論用のデータセットは、機械が時間や順次の決定をどう統合するかを測る手段が足りないことが多い。
  3. 強化学習エージェントのトレーニングに使われる学習環境は、LMMのテストには必ずしも適していない。
  4. 指示に従う能力に焦点を当てたベンチマークは少ないが、これは信頼性の重要な指標なんだ。
  5. 新しいベンチマークは認知タスクをカバーしているけど、スケールが難しくてLMMの研究にはあまり役立たない。

これらの短所があるせいで、モデルが特定の指示、特にマルチステップのタスクにどれだけ正確に従えるかを評価するのが難しい。

iWISDMの構造

これらの問題に対処するために、iWISDMは人間が自然に行動する方法に基づいたマルチステップタスクを生成し、複雑なタスクをシンプルなアクションに分解する。ツールは、タスクを表現するためにグラフを使用していて、異なる難易度で無限に近いタスクを作成できるんだ。

iWISDMの主な特徴

  1. タスク生成:iWISDMは、シンプルなタスクを論理的に組み合わせることで、多くのタスクを生成できる。
  2. 自然言語の指示:各タスクには、何をすればいいかを説明する明確な指示がついている。
  3. 柔軟性:ユーザーはリアルなシナリオを模したタスクを作れるから、使い勝手がいい。
  4. フォーカスした評価:iWISDMで作成されたベンチマークは、モデルがどれくらい指示に従えるかを評価できる。

iWISDMの構成要素

タスク構築

iWISDMでは、タスクはタスクグラフを使って構造化されたプロセスで作られる。各タスクはノードとエッジで構成されている:

  • ノードはアクションや決定を表す。
  • エッジはノードをつないで、関係性を示す。

この構造化されたアプローチのおかげで、ユーザーはシンプルなコンポーネントから複雑なタスクを構築できる。

ノードの初期化

各ノードには、タスクの動作を定義する特定の値が与えられる。タスクを初期化するときは、情報の流れが論理的で一貫しているように、逆向きのアプローチが使われる。

タスク試行のインスタンス化

タスクが準備できたら、iWISDMは各ステップの視覚情報を表す一連のフレームを作成する。各タスクは次のものを提示される:

  • タスクの進行を示す一連の画像。
  • ユーザーが何をすればよいかを説明する指示。
  • 期待されるアクションのシーケンス。

気を散らす要素

タスクをもっと難しくするために、気を散らす要素を追加することができる。これらは無関係な要素で、モデルが混乱を避けるために重要なことに集中する必要がある。

iWISDMでモデルを評価

私たちは、iWISDMのベンチマークを使っていくつかの先進的なLMMをテストした。これには、GPT-4Vなどが含まれていて、複雑さが増すマルチステップタスクで人間の参加者とパフォーマンスを比較した。

結果

私たちの評価では、モデルと人間の参加者の間にかなりのパフォーマンスのギャップがあることが明らかになった。人間の参加者はすべてのタスクで非常に高いスコアを記録したのに対し、モデルは特に複数の画像やステップを含むタスクで苦戦した。

モデルのパフォーマンス分析

私たちは、異なるモデルがさまざまな特徴を持つタスクでどのようにパフォーマンスを発揮したかを詳しく見た。特定のモデルは、物体がどこにあるかを追跡したり、物体のカテゴリを正しく特定したりするタスクでパフォーマンスが悪かった。

今後の方向性

iWISDMは、多くの分野で重要なベンチマークになる可能性がある:

  • マルチモーダルモデルの評価:以前のテストが残したギャップを埋めて、より包括的な評価を提供できる。
  • 継続的学習:将来的なフレームワークは、iWISDMを使ってモデルが新しいタスクにどれだけ適応できるかを評価できるかもしれない。
  • タスクの複雑さの拡張:研究者は、iWISDMの構造に基づいて新しい機能やタスクを追加して、モデルの能力をさらに探ることができる。

制限への対処

既存の制限は、新しいオペレーターやデータセットを導入することで、広範囲な評価を可能にし、データ流出の可能性を低減できるかもしれない。

結論

iWISDMは、機械が複雑な指示にどれだけ従えるかを評価するための貴重なリソースを提供するんだ。多様なタスク空間を作ることで、さらなる研究の道を開き、人間と機械の指示理解と実行能力のギャップを埋める手助けをするよ。このツールを使うことで得られた洞察は、AIの今後の発展に役立ち、人間のようなタスクをもっと理解して実行できるモデルの作成につながるかもしれない。

オリジナルソース

タイトル: IWISDM: Assessing instruction following in multimodal models at scale

概要: The ability to perform complex tasks from detailed instructions is a key to many remarkable achievements of our species. As humans, we are not only capable of performing a wide variety of tasks but also very complex ones that may entail hundreds or thousands of steps to complete. Large language models and their more recent multimodal counterparts that integrate textual and visual inputs have achieved unprecedented success in performing complex tasks. Yet, most existing benchmarks are largely confined to single-modality inputs (either text or vision), narrowing the scope of multimodal assessments, particularly for instruction-following in multimodal contexts. To bridge this gap, we introduce the instructed-Virtual VISual Decision Making (iWISDM) environment engineered to generate a limitless array of vision-language tasks of varying complexity. Using iWISDM, we compiled three distinct benchmarks of instruction following visual tasks across varying complexity levels and evaluated several newly developed multimodal models on these benchmarks. Our findings establish iWISDM as a robust benchmark for assessing the instructional adherence of both existing and emergent multimodal models and highlight a large gap between these models' ability to precisely follow instructions with that of humans.The code of iWISDM is available on GitHub at https://github.com/BashivanLab/iWISDM.

著者: Xiaoxuan Lei, Lucas Gomez, Hao Yuan Bai, Pouya Bashivan

最終更新: 2024-07-21 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2406.14343

ソースPDF: https://arxiv.org/pdf/2406.14343

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事