GUICourse データセットで GUI エージェントを進化させる
GUICourseは、GUIエージェントのための特定のデータセットを使ってデジタルインターフェースとのインタラクションを向上させることを目指してるよ。
― 1 分で読む
目次
グラフィカルユーザーインターフェース(GUI)を使うのは、いろんなデジタルツールとやり取りするのに大事だよね。最近のビジョンランゲージモデル(VLM)の進化は、ユーザーがGUIをナビゲートするのを手伝うエージェントを作るのにいいポテンシャルを示している。でも、今のVLMは、光学文字認識(OCR)やグラウンディング、いろんなGUI要素の働きを理解するのが苦手。これがあるから、実際にGUIのタスクで使うのが難しいんだ。そこで、GUICourseっていう、視覚ベースのGUIエージェントを一般的なVLMでトレーニングするためにデザインされたデータセットのコレクションを紹介するよ。
GUI Env データセット
まずはGUIEnvデータセットから始めるね。これはVLMのOCRとグラウンディングスキルを向上させることを目指してる。このデータセットは二部構成。最初の部分は約1000万のウェブページのアノテーションで、プレトレーニング向けに作られてる。二部は約70万の領域-テキストペアで、スーパーバイズドファインチューニング用だよ。最初の部分の各エントリーは、ウェブページ全体の詳細なテキストとレイアウト情報を含んでる。二部では、各エントリーが特定のウェブページのエリアに焦点を当てた質問と答えになってる。
データ収集
GUIEnvを作るために、私たちは何百万ものURLを集めて、オートメーションツールを使ってウェブページをレンダリングしてアノテーション付きのスクリーンショットを作ったよ。集めたスクリーンショットは、テキスト情報とペアになって、モデルがローカルとグローバルのコンテンツ認識を学ぶのを助けてる。
GUIAct データセット
次はGUIActデータセットを紹介するね。これはエージェントがいろんなGUI要素の働きを理解するのを手伝うもの。データセットは3つのセクションに分かれてて、ウェブサイトの単一ステップタスク、ウェブサイトのマルチステップタスク、そしてスマートフォンタスクがある。それぞれのセクションには、エージェントがGUIシステムとやり取りするための特定のアクションがあるよ。
データ収集
私たちは、ショッピングや教育などいろんなシナリオをカバーする多様なURLを集めた。ツールを使ってスクリーンショットをキャプチャして、これらのタスクのためのアクション指示を生成した。人間のアノテーターが指示の質を向上させるのを手伝って、正確さを確保したよ。
GUIChat データセット
最後に、GUIエージェントの対話スキルを自然言語で向上させることに焦点を当てたGUIChatデータセットを作った。このデータセットには、単一ターンとマルチターンの質問-回答ペア、そしてコンテキストを提供する画像が含まれてる。
データ収集
私たちはウェブページから画像を取得して、必要なテキストとグラフィックの詳細を抽出した。私たちのシステムはこれらの詳細を活用して、さまざまなインタラクションシナリオに役立つ質問と答えを生成するよ。
GUIエージェントのトレーニング
作成したデータセットを使って、異なるVLMに基づいたいくつかのGUIエージェントをトレーニングするよ。人気のあるGUIタスクでの初期実験では、エージェントがサイズが比較的小さいにもかかわらず、ベースラインモデルよりも良いパフォーマンスを示してる。
パフォーマンス評価
私たちは、標準の評価指標を使って実際のシナリオでGUIエージェントのパフォーマンスを評価する。テストを通して、私たちのデータセットでトレーニングされたエージェントがさまざまなGUIタスクを効果的に完了することがわかったよ。
アブレーションスタディ
異なるトレーニング要素の影響を理解するために、アブレーションスタディを行う。この研究では、データセットのサイズ、画像解像度、追加データセットの変化がエージェントのパフォーマンスにどのように影響するかをテストする。質の良いトレーニングデータがあって、高解像度の画像を使うことで、エージェントの能力が大幅に向上することがわかったよ。
ケーススタディ
エージェントがさまざまなタスクをどのように扱うかの例を提供するね。例えば、エージェントがユーザーの質問にうまく応じて、GUIコンポーネントをナビゲートし、スクリーンショットから情報を抽出するマルチターンダイアログを紹介する。これは、モデルがいろんなGUI要素を理解して、指示を実行する能力を示してる。
制限と今後の仕事
今のモデルには期待が持てるけど、まだ限界がある。私たちが使ったトレーニング方法では、ユーザーを完全に助ける高度なGUIエージェントを作るには足りないかもしれない。将来的には、強化学習のテクニックなど、他の方法を探っていくつもりだ。
倫理的考慮
私たちは、倫理ガイドラインを尊重するよう努めてる。データセット作成に関わったアノテーターは適正に報酬を受けてるし、私たちのデータには個人を特定できる情報が含まれてないことを確保してる。でも、一部のスクリーンショットには公のソースから引っ張ってきたため、適切ではないコンテンツが含まれている可能性があることを認めるよ。
社会的影響
私たちの仕事は、いろんな文脈で人々がデジタルインターフェースとやり取りする方法に影響を与える可能性がある。役立つツールを作ることを目指してるけど、技術が意図しない影響を持つかもしれないことを認識していて、社会的な影響を継続的に評価してる。
結論
結論として、GUICourseは複雑なデジタル環境をナビゲートするのを手伝う効率的なGUIエージェントを構築するための重要なステップだよ。包括的なデータセットを集めることで、この分野でのさらなる進展に必要な基盤を提供してる。将来の研究では、これらのモデルを洗練させて、さまざまなプラットフォームでユーザー体験を向上させるための機能を拡張することに焦点を当てるつもりだ。
タイトル: GUICourse: From General Vision Language Models to Versatile GUI Agents
概要: Utilizing Graphic User Interface (GUI) for human-computer interaction is essential for accessing a wide range of digital tools. Recent advancements in Vision Language Models (VLMs) highlight the compelling potential to develop versatile agents to help humans finish GUI navigation tasks. However, current VLMs are challenged in terms of fundamental abilities (OCR and grounding) and GUI knowledge (the functions and control methods of GUI elements), preventing them from becoming practical GUI agents. To solve these challenges, we contribute GUICourse, a suite of datasets to train visual-based GUI agents from general VLMs. First, we introduce the GUIEnv dataset to strengthen the OCR and grounding capabilities of VLMs. Then, we introduce the GUIAct and GUIChat datasets to enrich their knowledge of GUI components and interactions. Experiments demonstrate that our GUI agents have better performance on common GUI tasks than their baseline VLMs. Even the small-size GUI agent (with 3.1B parameters) can still work well on single-step and multi-step GUI tasks. Finally, we analyze the different varieties in the training stage of this agent by ablation study. Our source codes and datasets are released at https://github.com/yiye3/GUICourse.
著者: Wentong Chen, Junbo Cui, Jinyi Hu, Yujia Qin, Junjie Fang, Yue Zhao, Chongyi Wang, Jun Liu, Guirong Chen, Yupeng Huo, Yuan Yao, Yankai Lin, Zhiyuan Liu, Maosong Sun
最終更新: 2024-06-17 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2406.11317
ソースPDF: https://arxiv.org/pdf/2406.11317
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。