Avaliação de Modelos de Linguagem Grandes em Ambientes Multi-Agente
Novo benchmark avalia as habilidades dos LLMs em interagir com múltiplos agentes.
― 13 min ler
Índice
- Visão Geral dos Modelos de Linguagem Grandes
- Introduzindo o Novo Benchmark
- Visão Detalhada do Benchmark
- Visão Geral do Ambiente de Jogo
- Construindo o Benchmark
- Métricas de Avaliação
- Análise dos Ambientes de Jogo
- TicTacToe
- ConnectFour
- Texas Hold’em
- Undercover
- Bargain
- First-Price Sealed-Bid Auction
- Hanabi
- Configuração Experimental
- Resultados Principais
- Avaliação de Habilidades dos LLMs
- Compreensão Espacial
- Planejamento Estratégico
- Comunicação
- Modelagem de Oponentes
- Raciocínio Numérico
- Avaliação de Riscos
- Colaboração em Equipe
- Pesquisa Relacionada
- Conclusão
- Considerações Éticas
- Design de Prompt Detalhado para Ambientes de Jogo
- Fonte original
- Ligações de referência
Desenvolvimentos recentes em modelos de linguagem grandes (LLMs) mostram que eles podem funcionar como agentes independentes com inteligência parecida com a humana. No entanto, os testes atuais usados para avaliar esses agentes LLM muitas vezes dependem de conjuntos de dados fixos, que podem não oferecer uma visão completa devido a vazamento de dados ou focarem apenas em situações de agente único. Essa abordagem ignora os desafios enfrentados quando múltiplos agentes interagem. Há uma necessidade de um benchmark abrangente que meça as habilidades variadas dos agentes LLM em configurações dinâmicas de múltiplos agentes.
Para preencher essa lacuna, apresentamos um novo framework que é fácil de expandir para testar as capacidades dos LLM em diferentes cenários de jogos. Esse framework inclui sete ambientes de jogo únicos que avaliam habilidades essenciais para os agentes LLM. Essas habilidades incluem raciocínio espacial, planejamento estratégico, raciocínio numérico, avaliação de riscos, Comunicação, Modelagem de Oponentes e colaboração em equipe. Realizamos testes extensivos e avaliações humanas usando vários tamanhos e tipos de LLMs. Os resultados indicam que os LLMs ainda têm um longo caminho a percorrer em seu desenvolvimento, particularmente em modelagem de oponentes e colaboração em equipe. Esperamos que esse framework guie futuras pesquisas focadas em melhorar essas habilidades nos LLMs, levando a aplicações mais práticas em configurações ativas de múltiplos agentes. O código e os dados serão compartilhados publicamente.
Visão Geral dos Modelos de Linguagem Grandes
Avanços recentes em modelos de linguagem grandes (LLMs) influenciaram muito o processamento de linguagem natural (NLP) devido às suas habilidades impressionantes em diferentes tarefas sem precisar de treinamento específico. Os LLMs não são apenas bons em entender e gerar textos complexos, mas também mostram uma habilidade notável de se adaptar a novas situações com apenas algumas dicas. Essas características inspiram os pesquisadores a pensar nos LLMs como agentes autônomos capazes de ajudar em tarefas complexas do mundo real, como desenvolvimento de software e integração de informações.
Para avaliar melhor as habilidades exigidas dos LLMs como agentes, os pesquisadores estão focando em criar cenários para avaliar o quão bem os LLMs se saem sob várias condições. Por exemplo, alguns benchmarks foram desenvolvidos para examinar o desempenho dos LLMs em áreas como geração de código e raciocínio em situações de jogos. Apesar desses esforços, há limitações nos benchmarks existentes. Primeiro, conjuntos de dados estáticos usados nos testes podem levar a problemas, como vazamento de dados e overfitting, já que os LLMs podem ter encontrado esses dados anteriormente durante o treinamento. Segundo, os métodos de avaliação atuais que se concentram apenas em cenários de agente único ignoram as interações complexas que ocorrem quando múltiplos agentes operam em um ambiente compartilhado.
Introduzindo o Novo Benchmark
Para preencher essas lacunas, propomos um benchmark de avaliação dinâmica projetado especificamente para interações de múltiplos agentes. Esse benchmark oferece sete tipos diferentes de ambientes de jogo dinâmico e multi-agente. Por exemplo, o ambiente do jogo de poker Texas Hold'em gera uma nova mão para cada jogo, aumentando a complexidade a cada rodada, reduzindo o risco de vazamento de dados. No ambiente Undercover, os agentes LLM devem identificar o jogador "disfarçado" durante a comunicação, permitindo a avaliação de suas habilidades de comunicação e modelagem de oponentes.
Por meio desses ambientes, podemos avaliar as habilidades dos LLMs, como compreensão espacial, planejamento estratégico, raciocínio numérico, avaliação de riscos, comunicação eficaz, modelagem de oponentes e colaboração em equipe em um cenário dinâmico de múltiplos agentes.
Para alcançar uma avaliação mais precisa do desempenho dos LLMs nesses ambientes, adotamos um sistema de pontuação que ajuda a avaliar outras métricas além da taxa de vitória básica, como o nível de habilidade em relação a outros agentes. Isso fornece uma compreensão mais profunda do desempenho em diferentes cenários e contra vários oponentes.
Realizamos experimentos abrangentes e avaliações humanas envolvendo 14 LLMs diferentes. Os resultados destacaram um espaço substancial para melhorias nas habilidades de colaboração em equipe e modelagem de oponentes entre os LLMs em ambientes multi-agente. Esperamos que esse benchmark inspire futuras pesquisas voltadas para fortalecer as capacidades centrais em configurações de múltiplos agentes, promovendo o uso mais amplo de agentes LLM em aplicações do mundo real.
Visão Detalhada do Benchmark
Nesta seção, fornecemos uma visão detalhada do novo benchmark, que inclui sete ambientes de jogo distintos, métricas de avaliação e metodologias para avaliação.
Visão Geral do Ambiente de Jogo
Cada ambiente em nosso benchmark exige que os LLMs utilizem um conjunto único de habilidades para superar desafios de forma eficaz. Por exemplo, no ambiente Undercover, os LLMs precisam demonstrar uma gama de habilidades, incluindo modelagem de oponentes, comunicação eficaz e colaboração em equipe. Faltar até uma dessas habilidades pode levar ao fracasso neste ambiente.
Construindo o Benchmark
Para garantir usabilidade e escalabilidade, construímos o benchmark usando uma plataforma existente como base. Isso permite que outros pesquisadores integrem facilmente novos ambientes a esse framework. Ao aderir a especificações de interface definidas, eles podem adicionar mais ambientes para avaliar as capacidades dos LLMs. Cada ambiente fornece prompts que explicam as regras do jogo e oferecem templates para guiar os agentes LLM durante o jogo. Esses prompts incluem status do jogo, dados históricos e ações potenciais, criando uma experiência de jogo estruturada para os agentes LLM.
Métricas de Avaliação
Nesta seção, descrevemos as métricas de avaliação empregadas no benchmark e como elas se comparam a métricas de pesquisas anteriores. Nosso sistema de pontuação avalia os níveis de habilidade de múltiplos agentes em ambientes competitivos, ao contrário das métricas estáticas e independentes de oponentes usadas em estudos anteriores. Esse sistema leva em conta vitórias, derrotas e a qualidade do jogo, enquanto considera disparidades de habilidade entre os jogadores. Vencer contra oponentes altamente habilidosos rende mais pontos do que contra oponentes de menor habilidade, permitindo uma avaliação mais precisa das verdadeiras habilidades de um agente em um ambiente multi-agente.
Análise dos Ambientes de Jogo
TicTacToe
TicTacToe é um jogo de estratégia clássico envolvendo dois agentes LLM que se alternam marcando uma grade 3x3. Um jogador vence alinhando três marcas em uma linha-horizontal, vertical ou diagonal. Se todos os espaços se preencherem sem um vencedor, o jogo termina em empate. Este jogo testa os LLMs em planejamento estratégico e raciocínio espacial. Utilizamos sistemas de classificação para avaliação.
ConnectFour
ConnectFour é um jogo de tabuleiro mais complicado que usa uma grade 6x7. Aqui, dois agentes LLM se alternam selecionando colunas com espaços vazios. O objetivo é conectar quatro de suas fichas horizontalmente, verticalmente ou diagonalmente. Este jogo também avalia habilidades de planejamento estratégico e raciocínio espacial. O mesmo sistema de classificação se aplica a este jogo.
Texas Hold’em
Texas Hold'em é um jogo de cartas bem conhecido. Cada jogo é jogado entre dois agentes LLM. Os jogadores começam com duas cartas privadas e têm o objetivo de formar a melhor mão de cinco cartas usando estas e as cartas comunitárias reveladas em etapas. Este jogo requer várias habilidades, incluindo raciocínio numérico, modelagem de oponentes e avaliação de riscos. O sistema de classificação é usado para avaliação.
Undercover
No jogo de festa Undercover, os jogadores são divididos em papéis disfarçados e não disfarçados, cada um recebendo palavras secretas diferentes, mas semelhantes. Os jogadores fornecem pistas sobre suas palavras durante uma fase de comunicação, seguida por uma rodada de votação para identificar o jogador disfarçado. Este jogo testa as habilidades dos agentes LLM em comunicação, modelagem de oponentes e colaboração em equipe. O desempenho é medido pela taxa de vitória de cada LLM atuando como o agente disfarçado.
Bargain
No jogo Bargain, dois agentes LLM devem negociar como alocar um conjunto de itens, com cada item tendo valores desconhecidos para ambos os agentes. O objetivo é chegar a um acordo. Ganhar ocorre quando um agente maximiza o valor total dos itens obtidos. Este jogo avalia habilidades de raciocínio numérico, comunicação e modelagem de oponentes.
First-Price Sealed-Bid Auction
Neste cenário de leilão, dois agentes LLM apresentam lances sem conhecer as ofertas um do outro. O maior licitante vence, e o objetivo é determinar um lance ideal que equilibre ganhar o leilão e não pagar demais. Este jogo avalia habilidades de raciocínio numérico e modelagem de oponentes com base nas recompensas médias obtidas.
Hanabi
Hanabi é um jogo de cartas cooperativo onde dois agentes LLM podem ver apenas as cartas um do outro. Os jogadores usam tokens de informação para revelar cartas, descartar cartas para mais tokens e jogar cartas em uma ordem especificada para construir fogos de artifício. Este jogo requer colaboração em equipe, planejamento estratégico e raciocínio numérico. A média de pontos obtidos a partir da configuração bem-sucedida de fogos de artifício serve como métricas de avaliação.
Configuração Experimental
Em nossos experimentos, utilizamos vários tamanhos e tipos de LLMs, chamando diretamente as APIs de modelos fechados e implantando modelos de código aberto localmente. Para garantir resultados consistentes, definimos a temperatura de todos os modelos como zero. Na maioria dos ambientes, realizamos múltiplas execuções até que as classificações dos modelos se estabilizassem, com mais de 50 jogos realizados por ambiente e modelo. Para o jogo Undercover, jogamos 100 jogos com cada LLM atuando disfarçado contra vários agentes não disfarçados.
Resultados Principais
Os seguintes resultados ilustram as pontuações relativas de 14 LLMs diferentes em sete ambientes, revelando insights chave:
Modelos maiores de LLM mostraram melhorias notáveis no desempenho. Modelos com cerca de 70 bilhões de parâmetros tiveram uma média de 82.87, enquanto aqueles com 30 bilhões e 10 bilhões de parâmetros alcançaram pontuações de 80.68 e 71.05, respectivamente. O ganho de desempenho ao aumentar o tamanho do modelo de 10 bilhões para 30 bilhões foi maior do que de 30 bilhões para 70 bilhões.
Alguns modelos mostraram resultados inesperados em ambientes específicos. Por exemplo, o desempenho de um modelo caiu significativamente no jogo Undercover em comparação com um modelo menor, divergindo de padrões típicos.
Deficiências de desempenho foram notadas em ambientes que focam em Bid e Hanabi, onde os LLMs tiveram dificuldades, particularmente modelos menores enfrentando desafios de raciocínio numérico e modelagem de oponentes.
Houve uma clara distinção entre o desempenho do GPT-4 e outros modelos, com o GPT-4 alcançando os melhores resultados em todas as tarefas avaliadas.
Avaliação de Habilidades dos LLMs
Compreensão Espacial
Para avaliar a compreensão espacial, realizamos jogos de auto-jogo com vários LLMs, rastreando suas taxas de vitória e frequências de movimentos ilegais. Quando as dicas posicionais foram removidas, as alucinações aumentaram em 59,5%, enquanto as taxas de vitória caíram em média 38,3%. Isso indica que os LLMs têm dificuldades em entender arranjos espaciais sem um direcionamento explícito.
Planejamento Estratégico
Desenvolvemos uma função de pontuação específica para o ambiente ConnectFour para avaliar as habilidades de planejamento estratégico entre os LLMs. Durante batalhas aleatórias, os LLMs com mais parâmetros consistently alcançaram melhores resultados, enquanto modelos menores frequentemente falhavam em tomar decisões estratégicas eficazes.
Comunicação
Em jogos como Undercover, analisamos a precisão das dicas dadas pelos LLMs durante o jogo. Embora os LLMs se destacassem em fornecer dicas, eles tinham dificuldades em interpretar as dicas de outros de forma eficaz, levando a erros frequentes na compreensão de comunicações complexas.
Modelagem de Oponentes
No jogo Undercover, os LLMs tiveram que deduzir as palavras secretas dos outros com base em suas dicas. Os resultados mostraram que apenas o GPT-4 pôde consistentemente se identificar como disfarçado, demonstrando habilidades analíticas superiores em comparação com outros modelos.
Raciocínio Numérico
Em cenários de leilão, os LLMs normalmente faziam lances que excediam níveis ideais, refletindo dificuldades em entender o equilíbrio entre ganhar e pagar demais. Muitos modelos exibiram uma tendência a fazer lances altos sem considerar adequadamente suas avaliações reais.
Avaliação de Riscos
No ambiente Texas Hold'em, observamos que os LLMs mostraram cautela nas avaliações de riscos, optando por estratégias conservadoras, enquanto o GPT-4 demonstrou uma capacidade robusta de avaliação, selecionando estrategicamente ações de alto risco em momentos apropriados.
Colaboração em Equipe
Em Hanabi, os LLMs tendiam a sobreutilizar certas ações necessárias para o trabalho em equipe, muitas vezes falhando em compartilhar informações de forma eficaz, o que acabou prejudicando seu sucesso coletivo em completar fogos de artifício.
Pesquisa Relacionada
À medida que os LLMs evoluem, práticas tradicionais de avaliação podem limitar seu desempenho. Novos benchmarks visam examinar os LLMs de várias maneiras, incluindo adaptabilidade, aplicações do mundo real e colaboração. Muitos estudos focam em tratar os LLMs como agentes, mas frequentemente perdem as complexidades inerentes em cenários de múltiplos agentes. Nossa pesquisa busca oferecer uma imagem mais clara de como os LLMs se saem em ambientes dinâmicos e mais intrincados.
Conclusão
Neste trabalho, introduzimos um benchmark voltado para avaliar as diversas habilidades dos agentes LLM em ambientes dinâmicos e multi-agente. Nossas descobertas mostraram que, embora os LLMs demonstrem habilidade em algumas áreas, fraquezas significativas foram identificadas em raciocínio espacial, modelagem de oponentes e colaboração em equipe. Melhorar o desempenho dos agentes LLM permanece um desafio que demanda mais exploração. Incentivamos pesquisadores futuros a utilizarem nosso benchmark para avaliar uma gama mais ampla de cenários, aprimorando, em última análise, o potencial dos LLMs.
Considerações Éticas
Existem questões éticas importantes envolvendo agentes LLM, particularmente em relação ao uso responsável e ao potencial para abusos. À medida que os LLMs assumem mais papéis de tomada de decisão, a responsabilidade se torna uma preocupação vital. Garantir que sua implementação esteja alinhada com diretrizes éticas exigirá frameworks robustos e monitoramento para prevenir aplicações antiéticas.
Design de Prompt Detalhado para Ambientes de Jogo
Nesta seção, apresentamos prompts detalhados projetados para cada ambiente de jogo em nosso benchmark. Esses prompts são essenciais para guiar os agentes em suas interações, semelhante a configurações usadas em aprendizado por reforço.
Prompt do Sistema: Isso fornece direção ao LLM sobre seu papel e as regras do jogo, ajudando a moldar seu comportamento no ambiente.
Prompt de Observação: Isso inclui as informações de estado necessárias para os agentes entenderem a situação atual, como ações dos oponentes, status do jogo e ações disponíveis.
Prompt de Ação: Esses prompts gui
Título: LLMArena: Assessing Capabilities of Large Language Models in Dynamic Multi-Agent Environments
Resumo: Recent advancements in large language models (LLMs) have revealed their potential for achieving autonomous agents possessing human-level intelligence. However, existing benchmarks for evaluating LLM Agents either use static datasets, potentially leading to data leakage or focus only on single-agent scenarios, overlooking the complexities of multi-agent interactions. There is a lack of a benchmark that evaluates the diverse capabilities of LLM agents in multi-agent, dynamic environments. To this end, we introduce LLMArena, a novel and easily extensible framework for evaluating the diverse capabilities of LLM in multi-agent dynamic environments. LLMArena encompasses seven distinct gaming environments, employing Trueskill scoring to assess crucial abilities in LLM agents, including spatial reasoning, strategic planning, numerical reasoning, risk assessment, communication, opponent modeling, and team collaboration. We conduct an extensive experiment and human evaluation among different sizes and types of LLMs, showing that LLMs still have a significant journey ahead in their development towards becoming fully autonomous agents, especially in opponent modeling and team collaboration. We hope LLMArena could guide future research towards enhancing these capabilities in LLMs, ultimately leading to more sophisticated and practical applications in dynamic, multi-agent settings. The code and data will be available.
Autores: Junzhe Chen, Xuming Hu, Shuodi Liu, Shiyu Huang, Wei-Wei Tu, Zhaofeng He, Lijie Wen
Última atualização: 2024-02-26 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2402.16499
Fonte PDF: https://arxiv.org/pdf/2402.16499
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://pettingzoo.farama.org/content/environment_creation/
- https://pettingzoo.farama.org/environments/classic/tictactoe/
- https://pettingzoo.farama.org/environments/classic/connect_four/
- https://pettingzoo.farama.org/environments/classic/texas_holdem_no_limit/
- https://en.wikipedia.org/wiki/First-price_sealed-bid_auction
- https://www.latex-project.org/help/documentation/encguide.pdf