Presentiamo AutoGLM: Il tuo assistente digitale più smart
AutoGLM semplifica le interazioni con la tecnologia, migliorando le attività quotidiane in modo efficiente.
― 6 leggere min
Indice
- La Sfida con la Tecnologia Attuale
- Aree di Focus: Browser e Smartphone
- Insight Chiave dallo Sviluppo
- Punti Salienti delle Performance
- Far Funzionare AutoGLM per Te
- Il Paesaggio dei Dispositivi Digitali
- La Sfida dei Dati
- Supportare gli Utenti, Non Sostituirli
- Panoramica del Processo di Sviluppo
- Insight 1: L'Importanza delle Interfacce Intermedie
- Insight 2: Sistemi di Apprendimento Auto-Evolutivi
- Valutazione delle Performance
- Performance nella Navigazione Web
- Performance su Android
- Test nel Mondo Reale
- Conclusione: Un Passo Verso Assistenti Più Intelligenti
- Fonte originale
- Link di riferimento
Hai mai desiderato che il tuo computer o smartphone ti capissero meglio? Ecco AutoGLM, un nuovo tipo di assistente digitale che punta a rendere le tue interazioni con la tecnologia più fluide e semplici. Questo sistema è progettato per controllare automaticamente app e siti web tramite interfacce grafiche (GUI), che in parole povere significa che ti aiuta a usare i tuoi dispositivi senza i soliti mal di testa.
La Sfida con la Tecnologia Attuale
Sebbene molti modelli avanzati gestiscano bene il linguaggio, spesso faticano quando si tratta di prendere decisioni nella vita reale. Questo li rende meno efficaci per compiti in cui devono adattarsi rapidamente a situazioni che cambiano. AutoGLM interviene per affrontare questo problema imparando dall’esperienza reale e migliorando col tempo-un po’ come facciamo noi esseri umani con i nostri errori (e magari qualche momento imbarazzante).
Aree di Focus: Browser e Smartphone
Il team dietro AutoGLM ha scelto la navigazione web e il controllo dello smartphone come due aree principali per mostrare le sue capacità. L'obiettivo è creare un sistema pratico che possa gestire compiti nel mondo reale in modo efficace. Immagina di dover prenotare un ristorante o ordinare la tua bevanda preferita: AutoGLM è progettato per assisterti in queste situazioni quotidiane.
Insight Chiave dallo Sviluppo
Mentre il team lavorava su AutoGLM, si è reso conto di alcune cose importanti. Prima di tutto, hanno scoperto che avere una “interfaccia intermedia” ben progettata è essenziale. Potrà sembrare tecnico, ma in parole semplici, aiuta a organizzare come l'assistente digitale pensa al pianificare e al fare effettivamente i compiti. Separando queste due cose, AutoGLM può essere flessibile e preciso.
In secondo luogo, hanno creato un sistema di addestramento unico che consente all'assistente di imparare e adattarsi mentre interagisce con gli utenti nel tempo. Questo significa che AutoGLM migliora nei suoi compiti più pratica fa-un po' come uno studente che studia per un grande esame.
Punti Salienti delle Performance
Parliamo di cosa può fare AutoGLM. Nella navigazione web, ha raggiunto un tasso di successo del 55,2% in un valutazione chiamata VAB-WebArena-Lite, e spesso migliorava fino al 59,1% al secondo tentativo. Per quanto riguarda i compiti nel mondo reale su OpenTable, ha ottenuto un impressionante 96,2% di successo. Su dispositivi Android, ha raggiunto un tasso di successo del 36,2% su AndroidLab e un sorprendente 89,7% su compiti comuni nelle app cinesi più popolari.
Far Funzionare AutoGLM per Te
Se sei curioso di come usare AutoGLM, alcune delle sue funzionalità sono già disponibili tramite un'estensione del browser o un'app per Android. Questo significa che puoi iniziare a beneficiare delle sue capacità subito-non c'è bisogno di aspettare che i robot prendano il controllo!
Il Paesaggio dei Dispositivi Digitali
I dispositivi digitali sono ovunque, e questo offre una grande opportunità per assistenti come AutoGLM. La cosa entusiasmante è che questi assistenti possono imparare da informazioni visive e testuali ricche in un contesto controllato. In più, sono adatti per molti utenti, il che significa che molte persone possono trarre vantaggio da quello che AutoGLM ha da offrire.
La Sfida dei Dati
Tuttavia, il percorso per creare assistenti efficaci non è stato senza sfide. Un problema principale è la mancanza di dati decisionali. La maggior parte delle informazioni trovate online è statica e non mostra come le persone fanno realmente scelte nel mondo reale. Per superare questo, il team ha dovuto trovare modi per aggiungere più conoscenze dinamiche, sia attraverso interazioni nel mondo reale che simulando scenari.
Supportare gli Utenti, Non Sostituirli
AutoGLM è progettato per supportare gli utenti-non per sostituirli. Aiutando gli esseri umani ad adattarsi a assistenti digitali più intelligenti, il sistema impara ad assistere in modo più efficace. Questo approccio collaborativo consente anche ai ricercatori di studiare come funzionano questi assistenti e quali rischi potrebbero sorgere man mano che continuano a svilupparsi.
Panoramica del Processo di Sviluppo
Quindi come ha fatto il team a costruire AutoGLM? Si sono concentrati sulla creazione di agenti fondazionali basati sul modello ChatGLM. Questo processo ha coinvolto tecniche di addestramento e infrastrutture che supportano il dispiegamento degli utenti, assicurando che gli assistenti digitali possano imparare e adattarsi in tempo reale.
Insight 1: L'Importanza delle Interfacce Intermedie
Durante lo sviluppo, il team ha scoperto che separare la pianificazione dall'esecuzione era cruciale. Hanno capito che avere l'assistente che pianifica in anticipo mentre è in grado di concretizzare le sue azioni in modo accurato avrebbe aiutato a migliorare la sua efficacia. Questo significa che AutoGLM potrebbe meglio identificare elementi su una pagina web o in un'app, che è fondamentale per completare i compiti correttamente.
Apprendimento Auto-Evolutivi
Insight 2: Sistemi diIl secondo importante insight riguardava la creazione di un sistema di addestramento che permettesse all'assistente di evolversi nel tempo. Questo significa che AutoGLM può imparare dai suoi errori ed essere meglio attrezzato per compiti futuri. Il team ha utilizzato un framework speciale per aiutare ad addestrare l'assistente, cercando modi per affrontare ostacoli e trovare nuove strade per il successo.
Valutazione delle Performance
Ora vediamo come si è comportato AutoGLM nei test. Il team ha condotto valutazioni su diversi compiti per vedere quanto bene potesse gestire situazioni reali.
Performance nella Navigazione Web
AutoGLM è stato testato utilizzando benchmark come VAB-WebArena-Lite, che contiene una varietà di compiti destinati a mimare ciò che gli utenti reali potrebbero chiedere. I risultati hanno mostrato che AutoGLM stava compiendo progressi significativi nel ridurre il divario tra assistenti digitali e utenti umani reali.
Performance su Android
Su Android, AutoGLM è stato messo alla prova in ambienti di test e app reali. È riuscito a dimostrare un miglioramento significativo rispetto ad altri concorrenti, dimostrando di poter gestire vari compiti in cui gli utenti normalmente si impegnano nei loro telefoni.
Test nel Mondo Reale
Per vedere quanto bene AutoGLM potesse assistere gli utenti nella vita reale, il team lo ha valutato su app cinesi popolari. Hanno creato query di prova per vedere quanto bene l’assistente potesse performare in quei scenari reali. I risultati hanno rivelato che, sebbene non fosse perfetto, ha contribuito a semplificare compiti e a fare le cose più rapidamente.
Conclusione: Un Passo Verso Assistenti Più Intelligenti
In sintesi, AutoGLM è una grande novità nel mondo degli assistenti digitali. Concentrandosi sulla progettazione di una forte separazione tra pianificazione ed esecuzione, insieme allo sviluppo di modi per far apprendere l'assistente nel tempo, il team dietro AutoGLM ha posto le basi per interazioni GUI pratiche ed efficaci. Con Tassi di Successo impressionanti e il potenziale per applicazioni più ampie, AutoGLM è sicuramente un passo verso rendere le nostre interazioni con la tecnologia molto più user-friendly.
Che si tratti di ordinare la tua bevanda preferita o di fare prenotazioni per la cena, AutoGLM è qui per aiutarti-il tuo assistente personale che non ti giudicherà per aver ordinato quella pizza extra-large!
Titolo: AutoGLM: Autonomous Foundation Agents for GUIs
Estratto: We present AutoGLM, a new series in the ChatGLM family, designed to serve as foundation agents for autonomous control of digital devices through Graphical User Interfaces (GUIs). While foundation models excel at acquiring human knowledge, they often struggle with decision-making in dynamic real-world environments, limiting their progress toward artificial general intelligence. This limitation underscores the importance of developing foundation agents capable of learning through autonomous environmental interactions by reinforcing existing models. Focusing on Web Browser and Phone as representative GUI scenarios, we have developed AutoGLM as a practical foundation agent system for real-world GUI interactions. Our approach integrates a comprehensive suite of techniques and infrastructures to create deployable agent systems suitable for user delivery. Through this development, we have derived two key insights: First, the design of an appropriate "intermediate interface" for GUI control is crucial, enabling the separation of planning and grounding behaviors, which require distinct optimization for flexibility and accuracy respectively. Second, we have developed a novel progressive training framework that enables self-evolving online curriculum reinforcement learning for AutoGLM. Our evaluations demonstrate AutoGLM's effectiveness across multiple domains. For web browsing, AutoGLM achieves a 55.2% success rate on VAB-WebArena-Lite (improving to 59.1% with a second attempt) and 96.2% on OpenTable evaluation tasks. In Android device control, AutoGLM attains a 36.2% success rate on AndroidLab (VAB-Mobile) and 89.7% on common tasks in popular Chinese APPs.
Autori: Xiao Liu, Bo Qin, Dongzhu Liang, Guang Dong, Hanyu Lai, Hanchen Zhang, Hanlin Zhao, Iat Long Iong, Jiadai Sun, Jiaqi Wang, Junjie Gao, Junjun Shan, Kangning Liu, Shudan Zhang, Shuntian Yao, Siyi Cheng, Wentao Yao, Wenyi Zhao, Xinghan Liu, Xinyi Liu, Xinying Chen, Xinyue Yang, Yang Yang, Yifan Xu, Yu Yang, Yujia Wang, Yulin Xu, Zehan Qi, Yuxiao Dong, Jie Tang
Ultimo aggiornamento: Oct 28, 2024
Lingua: English
URL di origine: https://arxiv.org/abs/2411.00820
Fonte PDF: https://arxiv.org/pdf/2411.00820
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.