Auto-Jogo em Modelos de Linguagem: Uma Nova Abordagem
O autojogo pode melhorar o desempenho de modelos de linguagem em configurações cooperativas?
― 7 min ler
Índice
No mundo da inteligência artificial, agentes jogando como o AlphaGo demonstraram habilidades notáveis. Eles atingiram níveis de jogo que superam especialistas humanos, especialmente em jogos competitivos. Uma técnica chave por trás de seu sucesso é algo chamado Auto-jogo. Esse método envolve ter dois modelos idênticos jogando um contra o outro, criando novos dados de treinamento a partir de seus jogos. Com o tempo, esses modelos melhoram seu desempenho. No entanto, a maioria das tarefas que envolvem linguagem são cooperativas ou possuem elementos de cooperação. Isso levanta uma questão importante: o auto-jogo pode ajudar a melhorar modelos de linguagem nesses diferentes contextos?
Este artigo investiga esse tópico por meio de um jogo chamado Deal or No Deal (DoND). O jogo tem uma estrutura flexível, o que significa que podemos ajustá-lo para ser totalmente cooperativo, estritamente competitivo ou em algum lugar entre esses extremos. Ao ajustar modelos de linguagem usando auto-jogo ao longo de várias rodadas em DoND, queremos ver como eles se saem em vários objetivos do jogo.
Importância do Estudo
Tradicionalmente, a maior parte do progresso em inteligência artificial veio de jogos de soma zero para dois jogadores-jogos em que o ganho de um jogador é a perda de outro, como xadrez ou pôquer. O auto-jogo tem sido um método crucial nesses jogos, permitindo que modelos gerem novos dados de treinamento a partir de seu próprio jogo. Isso resultou em melhorias além das capacidades humanas. No entanto, quando se trata de tarefas de linguagem que envolvem colaboração, a mesma abordagem pode não funcionar tão bem.
Algumas tentativas anteriores de treinar agentes para se comunicar através do auto-jogo levaram a métodos de comunicação estranhos que humanos não conseguem entender. Mesmo quando esses modelos começam com dados de linguagem humana, o auto-jogo pode fazer com que eles se afastem de uma linguagem compreensível. Para combater isso, pesquisadores têm buscado métodos para alinhar os modelos mais perto da comunicação humana.
Este estudo visa preencher a lacuna examinando os efeitos dos objetivos do jogo no auto-jogo em modelos de linguagem. Ao usar a tarefa de negociação em Deal or No Deal, treinaremos modelos de linguagem em contextos Cooperativos, semi-competitivos e estritamente competitivos.
Configuração do Jogo
Em DoND, dois jogadores têm uma coleção de itens que desejam dividir entre si. Cada jogador tem seu próprio sistema de valores para esses itens, portanto, eles têm desejos diferentes. O objetivo é chegar a um acordo sobre como compartilhar os itens. Se não conseguirem chegar a um acordo, ambos acabam sem nada.
Regras do Jogo
O jogo ocorre em duas fases principais. Primeiro, os jogadores se comunicam para discutir quais itens gostariam de receber. Os jogadores podem enviar mensagens de um lado para o outro, mas a qualquer momento, um jogador pode apresentar uma proposta privada delineando quais itens deseja. A segunda fase começa quando não podem ser enviadas mais mensagens. O outro jogador deve então responder com sua própria proposta, e o jogo termina. Se as propostas coincidirem em itens totais, ambos os jogadores recebem pontuações com base em seus respectivos valores pelos itens que cada um recebe.
Objetivos do Jogo
No jogo original, os jogadores ganham recompensas com base na correspondência entre suas funções de valor e os itens que propõem. No entanto, podemos modificar essas regras para criar diferentes tipos de jogos: totalmente cooperativos, semi-competitivos ou estritamente competitivos. Essa flexibilidade nos permite testar o impacto de diferentes objetivos na eficácia do auto-jogo.
Experimentação
Para explorar nossa hipótese, ajustamos vários modelos de linguagem usando auto-jogo no cenário de DoND. Queríamos examinar como os modelos se saíam em diferentes objetivos do jogo. Também queríamos ver se melhorias no auto-jogo seriam transferidas para interações reais com humanos.
Auto-Jogo de Modelos de Linguagem
Em nossos experimentos, usamos modelos de linguagem pré-treinados. O foco era ver como se comportavam quando instigados por instruções do jogo sem serem influenciados por exemplos anteriores. Envolvemos os modelos em várias rodadas de auto-jogo, onde dois modelos idênticos jogavam um contra o outro.
A ideia era simples: dois modelos aprendem com seus próprios jogos, filtrando jogadas de baixa pontuação e mantendo as de maior pontuação para treinamento futuro. O processo foi repetido ao longo de várias iterações.
Inicialmente, descobrimos que o auto-jogo levou a melhorias significativas tanto em metas cooperativas quanto semi-competitivas. Esses ganhos também se traduziram positivamente quando os modelos interagiram com jogadores humanos. Enquanto houve menos melhoria observada em configurações estritamente competitivas, onde os modelos tendiam a se concentrar demais em vencer a si mesmos.
Interação Humana
Para determinar se os ganhos do auto-jogo também funcionavam bem em situações do mundo real, criamos uma plataforma web para participantes humanos interagirem com nossos modelos treinados em DoND. Realizamos esses testes em objetivos cooperativos e semi-competitivos.
Era crucial ver se os modelos manteriam seu desempenho quando confrontados com oponentes humanos, em vez de apenas suas próprias versões. Também ajustamos nossa abordagem para recrutar participantes de qualidade que se saíssem bem, garantindo assim que os diálogos fossem de alta qualidade.
Resultados
Desempenho do Auto-Jogo
Ao analisarmos os resultados do auto-jogo, observamos um aumento significativo no desempenho dos modelos de linguagem. Por exemplo, modelos que começaram com pontuações baixas viram grandes melhorias, especialmente em configurações semi-competitivas e cooperativas. Quando testados contra humanos, descobrimos que os modelos puderam produzir melhores taxas de acordo e melhorar a qualidade do diálogo.
Taxas de Acordo
Uma descoberta importante foi com que frequência os modelos conseguiam alcançar acordos durante o auto-jogo. Os modelos alcançaram taxas de acordo quase perfeitas, especialmente em condições semi-competitivas. No entanto, quando se tratou de interação humana, as taxas de acordo caíram, mostrando que os humanos às vezes tinham dificuldade em seguir os modelos ou vice-versa.
Estratégias de Modelagem
Apesar do sucesso do auto-jogo em alcançar acordos, notamos que os modelos nem sempre demonstravam pensamento estratégico ou estratégias de negociação de alto nível. Eles estavam mais focados em atender aos requisitos básicos do jogo do que em desenvolver táticas avançadas.
Curiosamente, embora o auto-jogo tenha levado a um melhor desempenho geral, também fez com que a diversidade dos diálogos diminuísse. No cenário semi-competitivo, as conversas se tornaram mais curtas e menos variadas. Isso sugere que, enquanto os modelos aprenderam a se sair bem, eles podem ter perdido alguma criatividade em seus diálogos.
Conclusão
No geral, nosso estudo revela que o auto-jogo pode funcionar efetivamente para modelos de linguagem em contextos tanto cooperativos quanto semi-competitivos. Isso desafia a noção anterior de que o auto-jogo não era adequado para tarefas de linguagem. Os resultados que observamos mostram que, com a estrutura e os objetivos de jogo certos, o auto-jogo pode levar a melhorias reais no desempenho do modelo.
No entanto, ainda existem questões sem resposta. Por exemplo, como podemos garantir que os modelos mantenham estratégias de alto nível em negociação enquanto ainda se beneficiam do auto-jogo? Mais trabalhos são necessários para explorar métodos que combinem auto-jogo com outras técnicas de treinamento para alcançar um melhor desempenho geral do modelo.
À medida que a IA continua a evoluir, entender como usar o auto-jogo em vários contextos será vital para criar agentes de conversação mais avançados. As percepções obtidas deste estudo ajudarão a informar pesquisas futuras nesta área, visando modelos que possam negociar e colaborar efetivamente com humanos e outros agentes.
Título: Efficacy of Language Model Self-Play in Non-Zero-Sum Games
Resumo: Game-playing agents like AlphaGo have achieved superhuman performance through self-play, which is theoretically guaranteed to yield optimal policies in competitive games. However, most language tasks are partially or fully cooperative, so it is an open question whether techniques like self-play can effectively be used to improve language models. We empirically investigate this question in a negotiation game setting known as Deal or No Deal (DoND). Crucially, the objective in DoND can be modified to produce a fully cooperative game, a strictly competitive one, or anything in between. We finetune language models in self-play over multiple rounds of filtered behavior cloning in DoND for each of these objectives and evaluate them in self-play and in collaboration with humans. We find that language models improve substantially in self-play, achieving 14-17x higher scores in task reward after finetuning. Further, the trained models generalize to both cooperation and competition with humans, scoring 2.5-6x higher than base models. We view these results as an early promising sign for language model self-play in cooperative settings, despite a lack of theoretical guarantees.
Autores: Austen Liao, Nicholas Tomlin, Dan Klein
Última atualização: 2024-12-08 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2406.18872
Fonte PDF: https://arxiv.org/pdf/2406.18872
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.