Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# ヒューマンコンピュータインタラクション# 人工知能# 計算と言語# 機械学習

AutoGLMを紹介するよ:君の賢いデジタルヘルパー

AutoGLMは技術とのインタラクションを簡単にし、日常のタスクを効率的にするよ。

Xiao Liu, Bo Qin, Dongzhu Liang, Guang Dong, Hanyu Lai, Hanchen Zhang, Hanlin Zhao, Iat Long Iong, Jiadai Sun, Jiaqi Wang, Junjie Gao, Junjun Shan, Kangning Liu, Shudan Zhang, Shuntian Yao, Siyi Cheng, Wentao Yao, Wenyi Zhao, Xinghan Liu, Xinyi Liu, Xinying Chen, Xinyue Yang, Yang Yang, Yifan Xu, Yu Yang, Yujia Wang, Yulin Xu, Zehan Qi, Yuxiao Dong, Jie Tang

― 1 分で読む


AutoGLM:AutoGLM:あなたのAIアシスタントーインタラクションを効率的に再定義するよAutoGLMは、テクノロジーとのユーザ
目次

コンピュータやスマホがもっとあなたを理解してくれたらいいなって思ったことある?AutoGLMに会ってみて。これは新しいタイプのデジタルヘルパーで、テクノロジーとのやり取りをスムーズに簡単にすることを目指してるんだ。このシステムは、アプリやウェブサイトをグラフィカルユーザーインターフェース(GUI)を通じて自動的にコントロールするように設計されてるから、普通の面倒くささなくデバイスを使えるように手助けしてくれる。

現在の技術の課題

多くの高度なモデルは言語をうまく扱えるけど、実生活での意思決定に関しては苦戦してることが多いんだ。これが、変わりゆく状況に素早く適応しないといけない作業にはあまり効果的じゃない理由。AutoGLMはこの問題を解決するために、実際の経験から学んで時間とともに進化することを目指してる。人間が失敗から学ぶみたいな感じだね(たまには恥ずかしい瞬間を含めて)。

注目エリア:ブラウザとスマホ

AutoGLMのチームは、ウェブブラウジングとスマホのコントロールを主な二つのエリアに選んで、その能力を発揮することにしたんだ。目標は、実際のタスクをうまく管理できる実用的なシステムを作ること。レストランの予約をしたり、お気に入りの飲み物を注文したりするときに、AutoGLMがあなたをサポートしてくれるイメージだよ。

開発からの重要な洞察

AutoGLMの開発中に、チームはいくつかの大事なことに気づいたんだ。まず、しっかりした「中間インターフェース」が必要だってこと。これはちょっと技術的に聞こえるかもしれないけど、簡単に言えば、デジタルアシスタントがタスクを計画したり実行したりする時にどう考えるかを整理する手助けをするんだ。この二つを分けることで、AutoGLMは柔軟で正確に動けるようになる。

次に、アシスタントがユーザーと長い時間接することで学び、適応するユニークなトレーニングシステムを作ったんだ。これにより、AutoGLMは練習すればするほどタスクが上達する。大きなテストのために勉強する学生みたいにね。

パフォーマンスのハイライト

AutoGLMが何ができるか話そう。ウェブブラウジングでは、有名なタスク評価「VAB-WebArena-Lite」で55.2%の成功率を達成して、二回目の挑戦で59.1%に改善されることが多かったんだ。OpenTableでの実生活のタスクでは、すごい96.2%の成功を収めた。Androidデバイスでは、AndroidLabで36.2%の成功率を出し、人気のある中国のアプリでの一般的なタスクでは89.7%という驚異的な結果を達成したよ。

AutoGLMをあなたのために活用する方法

AutoGLMの使い方が気になるなら、いくつかの機能が今はブラウザー拡張機能やAndroidアプリを通じて利用できるんだ。これで、その能力をすぐに活かすことができるよ-ロボットに支配されるのを待つ必要はない!

デジタルデバイスの風景

デジタルデバイスはどこにでもあって、それがAutoGLMのようなアシスタントにとって素晴らしいチャンスを提供してる。面白いのは、これらのアシスタントが豊かな視覚的情報やテキストベースの情報から学べること。さらに、たくさんのユーザーに適しているから、多くの人がAutoGLMのもたらすものの恩恵を受けられるってこと。

データの課題

でも、効果的なアシスタントを作る旅は簡単じゃなかった。大きな問題の一つは、意思決定に関するデータが不足していること。オンラインで見つかる情報の多くは静的で、実際に人々が現実世界でどう選択するかを示していない。これを乗り越えるために、チームは現実のインタラクションやシナリオのシミュレーションを通じて、もっとダイナミックな知識を追加する方法を見つける必要があったんだ。

ユーザーをサポートする、置き換えない

AutoGLMはユーザーをサポートするために設計されてるんだ-置き換えるためじゃなくて。スマートなデジタルヘルパーに人間が適応できるように手助けすることで、システムはもっと効果的にサポートできるようになる。こうした協力的なアプローチにより、研究者たちはこれらのヘルパーがどのように機能し続けるのか、またどんなリスクが出てくるかを研究できるんだ。

開発プロセスの概要

じゃあ、チームはどうやってAutoGLMを作ったの?彼らはChatGLMモデルに基づいてファンデーションエージェントを作ることに注力したんだ。このプロセスには、ユーザーの展開をサポートするためのトレーニング技術やインフラが関与していて、デジタルアシスタントがリアルタイムで学んで適応できるようにしてるんだ。

洞察1:中間インターフェースの重要性

開発中にチームは、計画と実行を分けるのが重要だって気づいたんだ。アシスタントが予め計画を立てながら、その行動を正確に実行できることが効果を高めるのに役立つってわかった。これにより、AutoGLMはウェブページやアプリ内の要素をより良く特定できるようになり、タスクを正しく完了するのに重要なんだ。

洞察2:自己進化する学習システム

二つ目の大きな洞察は、アシスタントが時間とともに進化するトレーニングシステムを作ることだったんだ。これにより、AutoGLMは失敗から学び、将来のタスクに向けてより良い準備ができるようになる。チームは、アシスタントをトレーニングするための特別なフレームワークを使って、障害に対処したり新しい成功の道を見つけたりする方法を探ってた。

パフォーマンス評価

さて、AutoGLMがテストでどれだけのパフォーマンスを発揮したのか見てみよう。チームはいくつかのタスクで評価を行って、実際の状況でどれだけ対処できるかを確認したんだ。

ウェブブラウジングのパフォーマンス

AutoGLMは、実際のユーザーが尋ねるかもしれないさまざまなタスクを模倣するためのベンチマークであるVAB-WebArena-Liteを使ってテストされた。結果は、AutoGLMがデジタルアシスタントとリアルな人間ユーザーとのギャップを縮める上で大きな進歩を遂げていることを示してた。

Androidのパフォーマンス

Androidでは、AutoGLMはテスト環境や実際のアプリで試された。競合他社に対して大幅な改善を示し、ユーザーが通常スマホで行うタスクをこなすことができることを証明したんだ。

実際のテスト

AutoGLMが実生活でユーザーをどれだけ助けられるかを見るために、チームは人気のある中国のアプリで評価を行った。テストクエリを用意して、実際のシナリオでアシスタントがどれだけうまく機能するかを見たんだ。結果は完璧ではなかったけど、タスクをスムーズに進めたり、より早く物事を片付けたりするのに役立ったことがわかったよ。

結論:スマートアシスタントに向けた一歩

まとめると、AutoGLMはデジタルヘルパーの世界でのエキサイティングなブレークスルーなんだ。計画と実行の間に強い分離を設計し、アシスタントが時間とともに学ぶ方法を開発することで、AutoGLMの背後にいるチームは実践的で効果的なGUIインタラクションの舞台を整えたんだ。印象的な成功率とより広範な応用の可能性を持つAutoGLMは、私たちのテクノロジーとのやり取りをもっとユーザーフレンドリーにするための一歩だよ。

お気に入りの飲み物を注文したり、ディナーの予約をしたりする時に、AutoGLMが手助けしてくれる-あなたのためのパーソナルアシスタントで、特大ピザを注文しても怒らないから安心だよ!

オリジナルソース

タイトル: AutoGLM: Autonomous Foundation Agents for GUIs

概要: We present AutoGLM, a new series in the ChatGLM family, designed to serve as foundation agents for autonomous control of digital devices through Graphical User Interfaces (GUIs). While foundation models excel at acquiring human knowledge, they often struggle with decision-making in dynamic real-world environments, limiting their progress toward artificial general intelligence. This limitation underscores the importance of developing foundation agents capable of learning through autonomous environmental interactions by reinforcing existing models. Focusing on Web Browser and Phone as representative GUI scenarios, we have developed AutoGLM as a practical foundation agent system for real-world GUI interactions. Our approach integrates a comprehensive suite of techniques and infrastructures to create deployable agent systems suitable for user delivery. Through this development, we have derived two key insights: First, the design of an appropriate "intermediate interface" for GUI control is crucial, enabling the separation of planning and grounding behaviors, which require distinct optimization for flexibility and accuracy respectively. Second, we have developed a novel progressive training framework that enables self-evolving online curriculum reinforcement learning for AutoGLM. Our evaluations demonstrate AutoGLM's effectiveness across multiple domains. For web browsing, AutoGLM achieves a 55.2% success rate on VAB-WebArena-Lite (improving to 59.1% with a second attempt) and 96.2% on OpenTable evaluation tasks. In Android device control, AutoGLM attains a 36.2% success rate on AndroidLab (VAB-Mobile) and 89.7% on common tasks in popular Chinese APPs.

著者: Xiao Liu, Bo Qin, Dongzhu Liang, Guang Dong, Hanyu Lai, Hanchen Zhang, Hanlin Zhao, Iat Long Iong, Jiadai Sun, Jiaqi Wang, Junjie Gao, Junjun Shan, Kangning Liu, Shudan Zhang, Shuntian Yao, Siyi Cheng, Wentao Yao, Wenyi Zhao, Xinghan Liu, Xinyi Liu, Xinying Chen, Xinyue Yang, Yang Yang, Yifan Xu, Yu Yang, Yujia Wang, Yulin Xu, Zehan Qi, Yuxiao Dong, Jie Tang

最終更新: 2024-10-28 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2411.00820

ソースPDF: https://arxiv.org/pdf/2411.00820

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

コンピュータビジョンとパターン認識LLaVA: より賢いビジュアル質問応答のアプローチ

LLaVAは、ローカルデバイスのパワーとクラウド処理を組み合わせることで、ビジュアルクエスチョンアンサリングを改善するよ。

Xiao Liu, Lijun Zhang, Deepak Ganesan

― 1 分で読む

類似の記事

ロボット工学人間のフィードバックで進化する検索救助ロボット

この研究は、SARロボットを人間の入力を取り入れることで学習プロセスを強化してるんだ。

Dimitrios Panagopoulos, Adolfo Perrusquia, Weisi Guo

― 1 分で読む

量子物理学機械学習におけるデータプライバシーの未来

連邦学習と量子技術を組み合わせることで、AIのデータ処理がより安全になることが期待されてるよ。

Siddhant Dutta, Pavana P Karanth, Pedro Maciel Xavier

― 1 分で読む

機械学習今時の予測でニューラルネットのトレーニングを強化する

新しいアプローチが、ナウキャスティングを使ってニューラルネットワークのトレーニングスピードと効率を改善した。

Boris Knyazev, Abhinav Moudgil, Guillaume Lajoie

― 0 分で読む