Avaliando a Colaboração Entre Modelos de Linguagem e Humanos
Estudo explora como modelos de linguagem trabalham com humanos e entre si na conclusão de tarefas.
― 7 min ler
Índice
- Visão Geral da Tarefa
- Processo da Tarefa
- Tipos de Tarefas de Colaboração
- Tarefas Independentes
- Tarefas Dependentes de Habilidade
- Tarefas Dependentes de Objetivo
- Construindo Agentes de Modelo de Linguagem
- Dados de Entrada
- Passos de Raciocínio
- Configuração do Experimento
- Experimento de Agente Único
- Resultados dos Testes de Agente Único
- Configuração do Experimento de Múltiplos Agentes
- Colaboração Humano-Máquina
- Colaboração Máquina-Máquina
- Métricas de Avaliação
- Resultados Humano-Máquina
- Resultados Máquina-Máquina
- Principais Descobertas
- Conclusão
- Fonte original
- Ligações de referência
Modelos de linguagem que conseguem interagir com o mundo têm um grande potencial para automatizar Tarefas online. Esses modelos melhoraram em tarefas como jogar games baseados em texto ou gerenciar páginas da web. Mas muitas tarefas na vida real precisam de cooperação com humanos ou outros modelos de linguagem. Isso requer entender o que cada parte quer, coordenar o trabalho e comunicar de forma clara.
Para ver como esses modelos podem trabalhar juntos, criamos um ambiente chamado "mundo dos blocos". Nesse cenário, dois Agentes, cada um com objetivos e habilidades diferentes, constroem uma estrutura juntos. Eles podem agir e se comunicar em linguagem simples para alcançar suas Metas.
Criamos diferentes cenários que ficam progressivamente mais difíceis para ver como os agentes colaboram. Isso vai desde fazer tarefas sozinhos até precisar de mais trabalho em equipe. Também usamos dicas que ajudam os modelos a pensar sobre o que seu parceiro está fazendo e corrigir quaisquer erros.
Testamos tanto configurações de humano-máquina quanto de máquina-máquina. Os resultados mostraram que modelos de linguagem conseguem entender bem seu ambiente, e nossa abordagem ajuda a melhorar seu desempenho nessas tarefas.
Visão Geral da Tarefa
No nosso esquema, uma agente humana chamada Amy colabora com um modelo de linguagem chamado Bob. Cada um tem objetivos e blocos disponíveis diferentes. A cooperação deles é essencial para completar toda a estrutura.
Processo da Tarefa
- Comunicação dos Objetivos: Amy e Bob compartilham o que querem alcançar e criam um plano para chegar lá.
- Passos de Ação: Amy coloca blocos amarelos de acordo com o plano deles.
- Coordenação: Eles trabalham juntos para terminar suas metas restantes.
À medida que os modelos de linguagem avançam, espera-se que eles trabalhem de perto com humanos e assumam papéis iguais. Isso é importante para uma gestão de tarefas eficiente e planejamento de projetos. Embora estudos anteriores tenham analisado a Colaboração entre múltiplos agentes, não houve muita pesquisa focada em como modelos de linguagem podem trabalhar lado a lado com humanos como iguais, em vez de apenas seguir instruções.
Para preencher essa lacuna, projetamos nosso ambiente colaborativo do mundo dos blocos. Isso permite uma avaliação lado a lado de como os modelos de linguagem podem se unir a humanos ou a outros modelos para completar tarefas.
Tipos de Tarefas de Colaboração
O ambiente que criamos permite três tipos diferentes de tarefas de colaboração, cada uma exigindo diferentes níveis de trabalho em equipe.
Tarefas Independentes
Nesse tipo de tarefa, cada agente pode completar sua parte da estrutura sem depender do outro. Mesmo que eles possam trabalhar sozinhos, ainda precisam se comunicar para garantir que entendem que podem prosseguir separadamente.
Tarefas Dependentes de Habilidade
Aqui, um agente precisa da ajuda do outro para terminar seu objetivo. Por exemplo, se Bob precisar de ajuda para construir uma seção que requer blocos amarelos, ele deve pedir os blocos a Amy. Comunicação eficaz e entender as necessidades um do outro são cruciais para o sucesso.
Tarefas Dependentes de Objetivo
Nessas tarefas, o trabalho de um agente está diretamente ligado ao progresso do outro. Por exemplo, Amy deve terminar sua parte antes que Bob possa começar a dele. Isso requer planejamento avançado e comunicação clara entre eles.
Construindo Agentes de Modelo de Linguagem
Usamos um modelo de linguagem como agente central e pedimos para ele decidir seu próximo movimento com base no estado atual do mundo dos blocos.
Dados de Entrada
Os agentes recebem informações em um formato estruturado que inclui seus objetivos, o estado atual da estrutura e o histórico de mensagens entre eles. Eles podem escolher entre várias ações: colocar um bloco, remover um bloco, enviar uma mensagem ou esperar.
Passos de Raciocínio
Para ajudar o modelo a fazer melhores escolhas, o guiamos através de vários passos de raciocínio:
- Análise do Estado do Mundo: O agente analisa a situação atual e identifica o que precisa fazer a seguir.
- Previsão do Estado do Parceiro: O agente tenta adivinhar o que o outro agente precisa e planeja de acordo.
- Auto-reflexão: O agente verifica se cometeu erros e ajusta sua abordagem com base em ações e mensagens passadas.
- Previsão de Ação: Por fim, o agente decide qual ação tomar a seguir com base em tudo que raciocinou.
Fizemos testes tanto em configurações de agente único quanto multi-agente para avaliar quão bem os modelos de linguagem conseguiam completar as tarefas e trabalhar com os outros.
Configuração do Experimento
Experimento de Agente Único
Dividimos o experimento de agente único em três partes para avaliar quão bem o modelo de linguagem poderia seguir instruções e completar tarefas sozinho.
- Descrição em Texto: O agente gerou uma descrição textual de uma estrutura a partir de um formato dado.
- Conversão em Ações: O agente converteu essa descrição em uma sequência de ações que precisaria realizar.
- Geração de Comandos: O agente produziu uma sequência de ações com base em uma descrição em linguagem simples.
Resultados dos Testes de Agente Único
Os modelos de linguagem mostraram fortes habilidades em completar tarefas. Tanto os modelos GPT-4 quanto GPT-3.5 se saíram bem em gerar descrições e sequências de ações precisas. Isso indica que eles têm boas habilidades de compreensão e planejamento.
Configuração do Experimento de Múltiplos Agentes
Realizamos dois tipos de configurações de múltiplos agentes para avaliar quão bem os modelos de linguagem poderiam trabalhar com humanos e entre si.
Colaboração Humano-Máquina
Nesse cenário, um modelo de linguagem trabalha ao lado de um humano. O objetivo principal é ver se o modelo pode ajudar a alcançar seus próprios objetivos enquanto também apoia o parceiro humano.
Colaboração Máquina-Máquina
Aqui, dois modelos de linguagem trabalham juntos. Essa configuração foca em quão bem eles conseguem colaborar em uma tarefa.
Métricas de Avaliação
Analisamos vários fatores para medir a eficácia da colaboração:
- Taxa de Sucesso: A porcentagem de tarefas completadas com sucesso.
- Equilíbrio da Carga de Trabalho: Se as tarefas foram compartilhadas de maneira equitativa entre os agentes.
- Passos de Conclusão: O número total de ações realizadas para finalizar a tarefa.
Resultados Humano-Máquina
Os experimentos mostraram que modelos de linguagem se saíram melhor quando podiam se comunicar ativamente e apoiar seus parceiros. No entanto, modelos base sem nossas melhorias se saíram pior e frequentemente não conseguiram alcançar seus próprios objetivos.
Resultados Máquina-Máquina
Da mesma forma, modelos trabalhando juntos também se beneficiaram do nosso design cooperativo. Eles conseguiram compartilhar melhor a carga de trabalho e se comunicar de forma mais eficaz em comparação com modelos base.
Principais Descobertas
- Modelos de Linguagem Podem Colaborar: Os resultados indicam que modelos de linguagem podem colaborar de forma eficaz com humanos e entre si.
- Importância da Comunicação: A comunicação ativa entre os agentes é crucial para completar tarefas com sucesso.
- Melhorias Aumentam o Desempenho: Adicionar estratégias para melhor entender os estados dos parceiros e usar auto-reflexão leva a resultados melhores.
Conclusão
Criamos um ambiente para testar como modelos de linguagem podem trabalhar em configurações colaborativas. Nossas descobertas sugerem que esses modelos têm uma forte capacidade de entender suas tarefas e trabalhar juntos, especialmente quando podem se comunicar e modelar as intenções de seus parceiros.
Esses resultados trazem promessas para futuras pesquisas que poderiam explorar mais a colaboração em tarefas que requerem múltiplos agentes. Nosso trabalho enfatiza a necessidade de comunicação clara e coordenação para alcançar objetivos compartilhados, sejam os agentes envolvidos humanos, modelos de linguagem, ou uma mistura dos dois. Avançando, expandir esse trabalho para envolver mais agentes e tarefas diversas poderia aprofundar nossa compreensão dos processos colaborativos em vários contextos.
Título: Your Co-Workers Matter: Evaluating Collaborative Capabilities of Language Models in Blocks World
Resumo: Language agents that interact with the world on their own have great potential for automating digital tasks. While large language model (LLM) agents have made progress in understanding and executing tasks such as textual games and webpage control, many real-world tasks also require collaboration with humans or other LLMs in equal roles, which involves intent understanding, task coordination, and communication. To test LLM's ability to collaborate, we design a blocks-world environment, where two agents, each having unique goals and skills, build a target structure together. To complete the goals, they can act in the world and communicate in natural language. Under this environment, we design increasingly challenging settings to evaluate different collaboration perspectives, from independent to more complex, dependent tasks. We further adopt chain-of-thought prompts that include intermediate reasoning steps to model the partner's state and identify and correct execution errors. Both human-machine and machine-machine experiments show that LLM agents have strong grounding capacities, and our approach significantly improves the evaluation metric.
Autores: Guande Wu, Chen Zhao, Claudio Silva, He He
Última atualização: 2024-03-30 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2404.00246
Fonte PDF: https://arxiv.org/pdf/2404.00246
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.