Apresentando o AutoGLM: Seu Assistente Digital mais Esperto
O AutoGLM facilita as interações com a tecnologia, deixando as tarefas do dia a dia mais simples e eficientes.
Xiao Liu, Bo Qin, Dongzhu Liang, Guang Dong, Hanyu Lai, Hanchen Zhang, Hanlin Zhao, Iat Long Iong, Jiadai Sun, Jiaqi Wang, Junjie Gao, Junjun Shan, Kangning Liu, Shudan Zhang, Shuntian Yao, Siyi Cheng, Wentao Yao, Wenyi Zhao, Xinghan Liu, Xinyi Liu, Xinying Chen, Xinyue Yang, Yang Yang, Yifan Xu, Yu Yang, Yujia Wang, Yulin Xu, Zehan Qi, Yuxiao Dong, Jie Tang
― 7 min ler
Índice
- O Desafio da Tecnologia Atual
- Áreas de Foco: Navegadores e Smartphones
- Principais Descobertas do Desenvolvimento
- Destaques de Performance
- Fazendo o AutoGLM Trabalhar pra Você
- O Cenário dos Dispositivos Digitais
- O Desafio dos Dados
- Apoiar Usuários, Não Substituí-los
- Visão Geral do Processo de Desenvolvimento
- Insight 1: A Importância das Interfaces Intermediárias
- Insight 2: Sistemas de Aprendizado Autoevolutivos
- Avaliação de Performance
- Performance na Navegação Web
- Performance no Android
- Testes no Mundo Real
- Conclusão: Um Passo em Direção a Assistentes Mais Inteligentes
- Fonte original
- Ligações de referência
Já imaginou se seu computador ou smartphone pudesse te entender melhor? Conheça o AutoGLM, um novo tipo de assistente digital que quer deixar suas interações com a tecnologia mais suaves e fáceis. Esse sistema foi feito pra controlar apps e sites automaticamente através de interfaces gráficas (GUIs), um jeito chique de dizer que ele ajuda você a usar seus dispositivos sem as dores de cabeça de sempre.
O Desafio da Tecnologia Atual
Embora muitos modelos avançados manjem bem da linguagem, eles ainda dão uma travada quando precisam tomar decisões na vida real. Isso acaba deixando eles menos eficazes em tarefas onde precisam se adaptar rápido às mudanças. É aí que o AutoGLM entra, Aprendendo com experiências do dia a dia e melhorando com o tempo-tipo como a gente aprende com os próprios erros (e, quem sabe, com uns momentos constrangedores).
Áreas de Foco: Navegadores e Smartphones
A equipe do AutoGLM escolheu a navegação na web e o controle de smartphones como as duas áreas principais pra mostrar suas habilidades. O objetivo é criar um sistema prático que consiga gerenciar tarefas do dia a dia de forma eficaz. Imagina tentar reservar um restaurante ou pedir sua bebida favorita-o AutoGLM tá aqui pra te ajudar nessas situações cotidianas.
Principais Descobertas do Desenvolvimento
Enquanto a equipe trabalhava no AutoGLM, percebeu algumas coisas importantes. Primeiro, descobriram que ter uma "interface intermediária" bem desenhada é fundamental. Pode soar técnico, mas em poucas palavras, isso ajuda a organizar como o assistente digital pensa em planejar e realmente executar tarefas. Mantendo essas duas coisas separadas, o AutoGLM consegue ser flexível e preciso.
Segundo, eles criaram um sistema de treinamento único que permite ao assistente aprender e se adaptar enquanto interage com os usuários ao longo do tempo. Isso significa que o AutoGLM melhora nas tarefas quanto mais pratica-tipo um estudante que estuda pra prova.
Destaques de Performance
Vamos falar do que o AutoGLM consegue fazer. Na navegação na web, ele alcançou uma taxa de sucesso de 55.2% em uma avaliação de tarefas popular chamada VAB-WebArena-Lite, e muitas vezes melhorava para 59.1% na segunda tentativa. Quando se tratou de tarefas do Mundo real no OpenTable, ele atingiu uma impressionante taxa de sucesso de 96.2%. Para dispositivos Android, chegou a uma taxa de sucesso de 36.2% no AndroidLab e um incrível 89.7% em tarefas comuns em apps chineses populares.
Fazendo o AutoGLM Trabalhar pra Você
Se você tá curioso pra saber como usar o AutoGLM, algumas das suas funcionalidades já estão disponíveis através de uma extensão de navegador ou um app para Android. Isso significa que você pode começar a aproveitar as capacidades dele na hora-sem precisar esperar os robôs dominarem o mundo!
O Cenário dos Dispositivos Digitais
Dispositivos digitais estão em todo lugar, e isso oferece uma ótima chance para assistentes como o AutoGLM. O que é empolgante é que esses assistentes podem aprender a partir de informações visuais e textuais ricas em um ambiente controlado. Além disso, eles servem pra muita gente, então várias pessoas podem se beneficiar do que o AutoGLM tem a oferecer.
O Desafio dos Dados
Porém, a jornada de criar assistentes eficazes não foi sem desafios. Um problema grande é a falta de dados sobre tomada de decisão. A maioria das informações que encontramos online é estática e não mostra como as pessoas realmente fazem escolhas na vida real. Pra superar isso, a equipe precisava encontrar maneiras de adicionar mais conhecimento dinâmico, seja através de interações do mundo real ou simulando cenários.
Apoiar Usuários, Não Substituí-los
O AutoGLM foi feito pra apoiar os usuários-não pra substituí-los. Ajudando os humanos a se adaptarem a assistentes digitais mais inteligentes, o sistema aprende a ajudar de forma mais eficaz. Essa abordagem colaborativa também permite que os pesquisadores estudem como esses assistentes funcionam e quais riscos podem surgir à medida que continuam a se desenvolver.
Visão Geral do Processo de Desenvolvimento
Então, como a equipe foi construir o AutoGLM? Eles focaram em criar agentes baseados no modelo ChatGLM. Esse processo envolveu técnicas de treinamento e infraestruturas que suportam a implementação pelos usuários, garantindo que os assistentes digitais possam aprender e se adaptar em tempo real.
Insight 1: A Importância das Interfaces Intermediárias
Durante o desenvolvimento, a equipe descobriu que separar planejamento da execução era crucial. Eles perceberam que fazer o assistente planejar com antecedência enquanto consegue realizar suas ações de forma precisa ajudaria a melhorar sua eficácia. Isso significa que o AutoGLM poderia identificar melhor elementos em uma página web ou em um app, que é chave pra concluir tarefas corretamente.
Insight 2: Sistemas de Aprendizado Autoevolutivos
O segundo grande insight envolveu criar um sistema de treinamento que permitisse ao assistente evoluir ao longo do tempo. Isso significa que o AutoGLM pode aprender com seus erros e estar mais preparado para as próximas tarefas. A equipe usou uma estrutura especial pra ajudar a treinar o assistente, buscando maneiras de enfrentar obstáculos e encontrar novos caminhos pro sucesso.
Avaliação de Performance
Agora, vamos ver como o AutoGLM se saiu nos testes. A equipe fez avaliações em diferentes tarefas pra ver como ele lidava com situações da vida real.
Performance na Navegação Web
O AutoGLM foi testado usando benchmarks como o VAB-WebArena-Lite, que contém uma variedade de tarefas feitas pra imitar o que os usuários reais podem pedir. Os resultados mostraram que o AutoGLM estava fazendo avanços significativos em encurtar a distância entre assistentes digitais e usuários humanos reais.
Performance no Android
No Android, o AutoGLM foi testado em ambientes de teste e em apps reais. Ele conseguiu mostrar uma melhora significativa em relação a outros concorrentes, demonstrando que poderia lidar com várias tarefas que os usuários normalmente fazem em seus celulares.
Testes no Mundo Real
Pra ver quão bem o AutoGLM poderia ajudar os usuários na vida real, a equipe avaliou ele em apps chineses populares. Eles criaram consultas de teste pra ver quão bem o assistente poderia se sair nessas situações do mundo real. Os resultados mostraram que, embora não fosse perfeito, ele ajudou a agilizar as tarefas e a resolver as coisas mais rapidamente.
Conclusão: Um Passo em Direção a Assistentes Mais Inteligentes
Em resumo, o AutoGLM é um avanço empolgante no mundo dos ajudantes digitais. Focando em projetar uma separação forte entre planejamento e execução, além de desenvolver maneiras de o assistente aprender ao longo do tempo, a equipe do AutoGLM preparou o cenário pra interações práticas e eficazes com a GUI. Com Taxas de Sucesso impressionantes e potencial pra aplicações mais amplas, o AutoGLM é certamente um passo a mais pra deixar nossas interações com a tecnologia muito mais amigáveis.
Seja pra pedir sua bebida favorita ou fazer reservas pro jantar, o AutoGLM tá aqui pra ajudar-seu assistente pessoal que não vai te julgar por pedir aquela pizza extra grande!
Título: AutoGLM: Autonomous Foundation Agents for GUIs
Resumo: We present AutoGLM, a new series in the ChatGLM family, designed to serve as foundation agents for autonomous control of digital devices through Graphical User Interfaces (GUIs). While foundation models excel at acquiring human knowledge, they often struggle with decision-making in dynamic real-world environments, limiting their progress toward artificial general intelligence. This limitation underscores the importance of developing foundation agents capable of learning through autonomous environmental interactions by reinforcing existing models. Focusing on Web Browser and Phone as representative GUI scenarios, we have developed AutoGLM as a practical foundation agent system for real-world GUI interactions. Our approach integrates a comprehensive suite of techniques and infrastructures to create deployable agent systems suitable for user delivery. Through this development, we have derived two key insights: First, the design of an appropriate "intermediate interface" for GUI control is crucial, enabling the separation of planning and grounding behaviors, which require distinct optimization for flexibility and accuracy respectively. Second, we have developed a novel progressive training framework that enables self-evolving online curriculum reinforcement learning for AutoGLM. Our evaluations demonstrate AutoGLM's effectiveness across multiple domains. For web browsing, AutoGLM achieves a 55.2% success rate on VAB-WebArena-Lite (improving to 59.1% with a second attempt) and 96.2% on OpenTable evaluation tasks. In Android device control, AutoGLM attains a 36.2% success rate on AndroidLab (VAB-Mobile) and 89.7% on common tasks in popular Chinese APPs.
Autores: Xiao Liu, Bo Qin, Dongzhu Liang, Guang Dong, Hanyu Lai, Hanchen Zhang, Hanlin Zhao, Iat Long Iong, Jiadai Sun, Jiaqi Wang, Junjie Gao, Junjun Shan, Kangning Liu, Shudan Zhang, Shuntian Yao, Siyi Cheng, Wentao Yao, Wenyi Zhao, Xinghan Liu, Xinyi Liu, Xinying Chen, Xinyue Yang, Yang Yang, Yifan Xu, Yu Yang, Yujia Wang, Yulin Xu, Zehan Qi, Yuxiao Dong, Jie Tang
Última atualização: 2024-10-28 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2411.00820
Fonte PDF: https://arxiv.org/pdf/2411.00820
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.