Novo Framework Melhora o Treinamento de Agentes de Linguagem
Um novo framework melhora como os agentes de linguagem aprendem e realizam tarefas.
― 7 min ler
Índice
Agentes de linguagem, que são programas feitos pra interagir com usuários usando linguagem natural, melhoraram sua habilidade de tomar decisões por conta própria. Essa evolução vem do uso de grandes modelos de linguagem que conseguem raciocinar e realizar tarefas com base nas informações que recebem. Recentemente, os pesquisadores têm se concentrado em ensinar esses agentes a melhorarem seu desempenho usando Raciocínio em várias etapas e acompanhando suas ações enquanto resolvem problemas. Mas, coletar essas informações geralmente requer um esforço enorme, seja por meio de input humano ou técnicas complexas de prompts.
Pra lidar com essa parada, um novo framework chamado AT foi apresentado pra permitir que os agentes de linguagem anotem seus caminhos de ação de forma autônoma, parecido com um método chamado ReAct. O componente principal desse framework é um agente chamado ActRe. Esse agente fornece razões para as ações tomadas pelos agentes de linguagem, ajudando eles a construir um registro de suas decisões. Ao amostrar ações e obter explicações delas do ActRe, os agentes de linguagem conseguem criar Trajetórias que ajudam a aprender com seus esforços passados.
A Necessidade de Treinamento Eficiente
Coletar dados de treinamento pra agentes de linguagem geralmente é feito de duas maneiras principais: usando demonstrações humanas ou implementando sistemas especializados que atuam em um contexto de linguagem. Infelizmente, ambos os métodos exigem um esforço humano significativo e não são muito escaláveis. É aí que o framework AT entra, com a intenção de criar um processo mais eficiente.
Modelos de linguagem cada vez mais poderosos levaram a implementações bem-sucedidas de agentes de linguagem em várias tarefas. Esses agentes conseguem entender e agir com base no ambiente, mostrando resultados impressionantes. Mas, os métodos pra coletar os dados de ações em várias etapas necessários pra treinar esses agentes ainda dependem muito do input humano ou de configurações complexas.
O Framework AT
O framework AT permite que os agentes de linguagem coletem informações sobre suas ações sem precisar de muita ajuda humana. O framework usa o agente ActRe pra explicar as razões por trás das ações do agente principal de linguagem, que é no estilo ReAct. Quando um agente tenta uma nova ação, ele pode perguntar ao ActRe qual é a razão por trás daquela ação. Esse processo possibilita a criação de novos caminhos de ação que incluem raciocínio, que podem ser usados em treinamentos.
O objetivo de usar o AT é criar uma maneira estruturada pros agentes de linguagem se melhorarem através de auto-treinamento contrastivo. Nesse processo, os agentes aprendem tanto com ações bem-sucedidas quanto com as que não deram certo, permitindo que eles aprimorem sua tomada de decisão ao longo do tempo.
Treinamento e Melhoria
O framework AT foi testado em ambientes simulados como o AlfWorld e o WebShop, onde os agentes de linguagem precisam realizar tarefas que requerem raciocínio em várias etapas. Nesses ambientes, os agentes de linguagem treinados com AT conseguiram taxas de sucesso impressionantes, muitas vezes igualando ou superando o desempenho humano.
O treinamento envolve várias rodadas onde os agentes coletam informações e aprendem tanto com seus sucessos quanto com suas falhas. O processo começa com algum treinamento inicial, frequentemente feito por meios tradicionais, mas depois muda pra uma abordagem mais autônoma. Os agentes coletam seus próprios dados, que são usados pra ajustar suas habilidades através de técnicas de treinamento contrastivo, permitindo que eles entendam as nuances da conclusão de tarefas além do desempenho básico.
Autonomia na Anotação de Trajetórias
Um aspecto chave do framework AT é permitir que os agentes anoten suas trajetórias de forma autônoma. Isso é conseguido através do agente de prompting ActRe, que fornece razões para as ações do agente. Quando um agente toma uma ação que é diferente do que ele inicialmente achava ser o melhor, ele pode consultar o agente ActRe pra entender por que aquela ação pode ser válida.
Esse método automatiza o processo que normalmente seria conduzido por humanos de modificar o raciocínio em caminhos de ação. Com o ActRe, os agentes de linguagem podem compilar uma variedade maior de caminhos de ação sem precisar depender de dados gerados por humanos. Essa inovação permite a criação de trajetórias mais diversas, levando a melhores resultados de aprendizado.
Processo de Auto-Treinamento Contrastivo
No processo de auto-treinamento, os agentes de linguagem aprendem a avaliar suas ações comparando trajetórias bem-sucedidas e não bem-sucedidas. O framework AT utiliza métodos de gradiente de política com estruturas de recompensa específicas pra refinar as habilidades de tomada de decisão dos agentes. Em vez dos métodos tradicionais de ajuste supervisionado, os agentes aprendem através de suas próprias experiências, usando sucessos e falhas acumulados pra melhorar seu desempenho.
O processo consiste em coletar dados, analisá-los e usar essas informações pra modificar comportamentos futuros. Focando onde tiveram sucesso e onde falharam, os agentes podem melhorar gradualmente suas habilidades de tomada de decisão. Esse método permite um aprendizado e adaptação contínuos sem intervenção constante de humanos.
Experimentação e Resultados
Testes experimentais em plataformas como AlfWorld e WebShop mostraram que o framework AT melhora significativamente as capacidades dos agentes de linguagem. No AlfWorld, os agentes treinados sob esse framework atingiram uma alta taxa de sucesso, enquanto no WebShop, igualaram as médias de desempenho humano. O processo de refinamento iterativo levou a melhorias adicionais, indicando que o framework constrói efetivamente sobre o conhecimento anterior pra melhorar a conclusão de tarefas futuras.
Os resultados demonstram que o framework AT supera muitas técnicas existentes, incluindo frameworks de prompting tradicionais e modelos de linguagem totalmente ajustados. Ao permitir que os agentes aprendam de forma autônoma com suas experiências, o AT oferece uma vantagem clara no treinamento de agentes de linguagem pra tarefas complexas de tomada de decisão.
Desafios na Implementação
Embora o framework AT mostre potencial, ainda existem desafios. Coletar caminhos de ação diversos pode ser complicado, e sempre há o risco de produzir dados de baixa qualidade. Também é essencial garantir que os agentes não fiquem muito dependentes de prompts ou métodos de raciocínio específicos, pois isso poderia limitar sua adaptabilidade geral.
Além disso, a necessidade de melhorias contínuas significa que o framework vai precisar de atualizações e ajustes regulares com base em como os agentes se comportam em tarefas do mundo real. À medida que os agentes se tornam mais capazes, os métodos usados pra treiná-los também vão precisar evoluir.
Direções Futuras
O desenvolvimento contínuo do framework AT aponta pra um futuro onde os agentes de linguagem possam alcançar níveis mais altos de autonomia e eficácia. Ao aproveitar o poder de grandes modelos de linguagem e aprimorar seus processos de treinamento, os pesquisadores podem criar sistemas que não apenas realizam tarefas, mas também melhoram dramaticamente ao longo do tempo.
Incorporar técnicas mais sofisticadas, como métodos de aprendizado por reforço ou mecanismos de feedback complexos, poderia aumentar ainda mais as capacidades dos agentes de linguagem. Também há potencial pra explorar como esses agentes autônomos podem interagir com aplicações do mundo real em negócios, educação e outras áreas.
Conclusão
O framework AT representa um avanço significativo no treinamento e nas capacidades dos agentes de linguagem. Ao permitir a anotação autônoma de trajetórias e aproveitar o auto-treinamento contrastivo, o framework permite que os agentes aprendam com seus sucessos e falhas com mínima supervisão humana. Essa abordagem leva a um desempenho melhor e processos de coleta de dados mais eficientes, tornando-se uma ferramenta valiosa no desenvolvimento de sistemas autônomos futuros. À medida que a pesquisa avança, as capacidades dos agentes de linguagem devem expandir ainda mais, abrindo caminho pra sistemas mais inteligentes e adaptáveis.
Título: ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy
Resumo: Language agents have demonstrated autonomous decision-making abilities by reasoning with foundation models. Recently, efforts have been made to train language agents for performance improvement, with multi-step reasoning and action trajectories as the training data. However, collecting such trajectories still requires considerable human effort, by either artificial annotation or implementations of diverse prompting frameworks. In this work, we propose A$^3$T, a framework that enables the Autonomous Annotation of Agent Trajectories in the style of ReAct. The central role is an ActRe prompting agent, which explains the reason for an arbitrary action. When randomly sampling an external action, the ReAct-style agent could query the ActRe agent with the action to obtain its textual rationales. Novel trajectories are then synthesized by prepending the posterior reasoning from ActRe to the sampled action. In this way, the ReAct-style agent executes multiple trajectories for the failed tasks, and selects the successful ones to supplement its failed trajectory for contrastive self-training. Realized by policy gradient methods with binarized rewards, the contrastive self-training with accumulated trajectories facilitates a closed loop for multiple rounds of language agent self-improvement. We conduct experiments using QLoRA fine-tuning with the open-sourced Mistral-7B-Instruct-v0.2. In AlfWorld, the agent trained with A$^3$T obtains a 1-shot success rate of 96%, and 100% success with 4 iterative rounds. In WebShop, the 1-shot performance of the A$^3$T agent matches human average, and 4 rounds of iterative refinement lead to the performance approaching human experts. A$^3$T agents significantly outperform existing techniques, including prompting with GPT-4, advanced agent frameworks, and fully fine-tuned LLMs.
Autores: Zonghan Yang, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Yang Liu
Última atualização: 2024-04-01 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2403.14589
Fonte PDF: https://arxiv.org/pdf/2403.14589
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.