Simple Science

Ciência de ponta explicada de forma simples

# Informática# Aprendizagem de máquinas# Inteligência Artificial# Computação e linguagem

WebAgent: Um Passo à Frente na Automação da Web

O WebAgent simplifica tarefas na internet usando instruções em linguagem natural e modelos avançados.

― 6 min ler


WebAgent Melhora aWebAgent Melhora aAutomação Webexecução de tarefas em sites.Assistente movido por IA melhora a
Índice

A internet é uma fonte de informação e serviços que só cresce. Automatizar tarefas em sites pode economizar tempo e reduzir erros, mas também traz desafios por causa da complexidade e variedade das páginas web. Modelos existentes já avançaram em lidar com tarefas de linguagem, mas ainda têm dificuldade com a automação na prática.

WebAgent é um modelo de linguagem feito pra ajudar usuários a realizar tarefas em sites reais interpretando instruções em linguagem natural. Ao dividir essas instruções em passos menores e gerar código pra interagir com os sites, o WebAgent quer melhorar a eficácia da automação web.

Desafios na Automação Web

A automação web enfrenta vários desafios:

  1. Domínio Aberto: Os sites são bem diversos, dificultando que os modelos anticipem todas as ações possíveis que os usuários podem querer fazer.
  2. Documentos HTML Longos: Páginas web reais costumam ter muita informação, o que pode ser complicado pra modelos processarem de forma eficaz.
  3. Compreensão de HTML: Muitos modelos carecem do conhecimento específico necessário pra entender a estrutura e os elementos do HTML, que são cruciais pra navegar e interagir com páginas web.

Esses desafios significam que, enquanto os modelos podem se sair bem em ambientes controlados, eles podem ter dificuldades com tarefas reais da web.

O que é o WebAgent?

WebAgent é um assistente autônomo que aprende com suas experiências pra completar tarefas em sites usando instruções em linguagem natural. O funcionamento se dá em três etapas principais:

  1. Planejamento: O WebAgent divide a tarefa principal em subtarefas menores.
  2. Resumo: Ele reduz documentos HTML longos em informações essenciais ligadas à tarefa.
  3. Execução: O WebAgent gera código Python que pode interagir com páginas web pra realizar as tarefas.

Usando uma combinação de modelos de linguagem especializados, o WebAgent busca melhorar significativamente a taxa de sucesso nas tarefas de automação web.

O Papel do HTML-T5

Um componente chave do WebAgent é o HTML-T5, um modelo de linguagem especializado treinado especificamente em documentos HTML. O HTML-T5 usa um mecanismo de atenção único pra entender e interpretar melhor a estrutura hierárquica do HTML. Isso permite capturar as relações entre diferentes elementos HTML de forma eficaz.

HTML-T5 é pré-treinado em um grande conjunto de dados de documentos HTML, garantindo que tenha o conhecimento necessário pra trabalhar com páginas web reais. Ele foca em duas tarefas principais: planejar os próximos passos com base nas instruções do usuário e resumir o conteúdo HTML em trechos relevantes.

Supervisão por Autoexperiência

Pra adaptar o WebAgent a cenários do mundo real, é empregado um método chamado supervisão por autoexperiência. Em vez de depender apenas de exemplos gerados por humanos, o WebAgent gera seus próprios passos de planejamento e resumo por meio de ações scriptadas. Essa abordagem semi-supervisionada reduz a necessidade de input humano extenso, permitindo que o modelo aprenda com suas interações em várias páginas web.

O processo funciona primeiro reunindo demonstrações de ações em sites e, em seguida, usando esses exemplos pra melhorar o desempenho do modelo em tarefas futuras. Esse processo de aprendizado iterativo ajuda o WebAgent a se tornar mais eficaz com o tempo.

Como o WebAgent Funciona

A operação do WebAgent pode ser dividida em várias etapas:

Interação do Usuário

Os usuários fornecem ao WebAgent instruções em linguagem natural, como "Encontre apartamentos em Nova York por menos de $2000."

Planejamento

Assim que a instrução é recebida, o HTML-T5 formula as subtarefas. Por exemplo, pode dividir o pedido inicial em passos como "Buscar apartamentos", "Filtrar por preço" e "Mostrar resultados."

Resumo de HTML

Em seguida, o HTML-T5 resume as partes relevantes do HTML do site. Isso inclui extrair detalhes chave como títulos, links e outros elementos importantes necessários pra atender ao pedido do usuário.

Geração de Código

Usando as informações resumidas e as subtarefas planejadas, o WebAgent utiliza um segundo modelo, o Flan-U-PaLM, pra criar código Python. Esse código controla um navegador web pra realizar ações como clicar em links, inserir dados e recuperar informações da página.

Execução

Por fim, o código gerado é executado usando uma ferramenta de automação de navegador, o que permite ao modelo interagir com o site como um humano faria.

Avaliação e Performance

O WebAgent foi rigorosamente testado em sites reais pra determinar sua eficácia. Através de vários experimentos, mostrou uma melhoria substancial em relação a modelos anteriores, especialmente em alcançar uma taxa de sucesso maior na conclusão de tarefas de automação web.

Por exemplo, quando comparado a outros modelos, o WebAgent conseguiu uma melhoria na taxa de sucesso de mais de 50% em certas tarefas. Ele também se destacou em benchmarks específicos projetados pra avaliar automação web, mostrando que consegue entender e trabalhar com documentos HTML muito melhor do que modelos anteriores.

Trabalhos Relacionados

Vários modelos de linguagem foram desenvolvidos pra lidar com uma variedade de tarefas, como geração de texto, perguntas e respostas, e raciocínio. No entanto, a aplicação desses modelos à automação web encontrou limitações. Modelos tradicionais frequentemente dependem de ações predefinidas, tornando-os menos flexíveis ao lidar com a natureza diversa das páginas web do mundo real.

Em contraste, o WebAgent combina as forças de múltiplos modelos e introduz uma abordagem estruturada pra aprender com experiências. Isso o torna mais capaz de lidar com tarefas abertas, ao contrário de muitos modelos existentes que têm dificuldades em ambientes dinâmicos.

Conclusão

O desenvolvimento do WebAgent representa um avanço significativo na área da automação web. Ao combinar de forma eficaz modelos especializados e aproveitar a supervisão por autoexperiência, o WebAgent demonstra capacidades melhoradas pra entender e interagir com páginas web diversas.

As aplicações potenciais do WebAgent são vastas, permitindo que os usuários automatem uma ampla gama de tarefas na internet. Conforme a tecnologia avança, a esperança é que ferramentas como o WebAgent possam simplificar as interações web e aumentar a produtividade em vários setores.

Trabalhos Futuros

Embora o WebAgent tenha demonstrado sucesso considerável, ainda há espaço pra melhorias. Pesquisas futuras podem focar em refinar ainda mais os processos de planejamento e resumo, melhorando a capacidade do modelo de lidar com tarefas ainda mais complexas. Além disso, explorar novos métodos de síntese de programas poderia levar a um desempenho ainda melhor na execução de comandos de automação em sites do mundo real.

A estrutura do WebAgent também pode ser aplicada a outros domínios, abrindo oportunidades de crescimento e desenvolvimento em sistemas autônomos capazes de entender e processar diversas formas de informação na internet.

Fonte original

Título: A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis

Resumo: Pre-trained large language models (LLMs) have recently achieved better generalization and sample efficiency in autonomous web automation. However, the performance on real-world websites has still suffered from (1) open domainness, (2) limited context length, and (3) lack of inductive bias on HTML. We introduce WebAgent, an LLM-driven agent that learns from self-experience to complete tasks on real websites following natural language instructions. WebAgent plans ahead by decomposing instructions into canonical sub-instructions, summarizes long HTML documents into task-relevant snippets, and acts on websites via Python programs generated from those. We design WebAgent with Flan-U-PaLM, for grounded code generation, and HTML-T5, new pre-trained LLMs for long HTML documents using local and global attention mechanisms and a mixture of long-span denoising objectives, for planning and summarization. We empirically demonstrate that our modular recipe improves the success on real websites by over 50%, and that HTML-T5 is the best model to solve various HTML understanding tasks; achieving 18.7% higher success rate than the prior method on MiniWoB web automation benchmark, and SoTA performance on Mind2Web, an offline task planning evaluation.

Autores: Izzeddin Gur, Hiroki Furuta, Austin Huang, Mustafa Safdari, Yutaka Matsuo, Douglas Eck, Aleksandra Faust

Última atualização: 2024-02-25 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2307.12856

Fonte PDF: https://arxiv.org/pdf/2307.12856

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes