Apresentando o Dataset FIREBALL para D&D
Um novo conjunto de dados pra melhorar a análise de gameplay e modelos de linguagem de Dungeons e Dragons.
― 8 min ler
Índice
- O Dataset FIREBALL
- Entendendo a Dinâmica do Jogo
- O Papel do Avrae
- Tarefas para Modelos de Linguagem
- Processo de Coleta de Dados
- Analisando o Dataset
- A Importância das Informações do Estado do Jogo
- Avaliação de Desempenho dos Modelos de Linguagem
- Desafios na Representação do Gameplay
- Direções Futuras
- Conclusão
- Fonte original
- Ligações de referência
Dungeons and Dragons (D&D) é um jogo de RPG de mesa onde os jogadores criam personagens e embarcam em aventuras juntos. O jogo rola através de diálogos falados, tornando a experiência bem legal e envolvente. Os jogadores assumem os papéis de seus personagens enquanto um Mestre do Calaboço (DM) os guia por um mundo fictício, definindo o cenário, personagens e regras do jogo. O DM também controla a direção da história e as ações de várias criaturas.
Com o tempo, a tecnologia influenciou como o D&D é jogado, especialmente com o surgimento de plataformas online como o Discord. Aqui, os jogadores interagem usando Comandos de chat e bots como o Avrae, que ajudam a gerenciar as regras e informações do jogo. Porém, um desafio grande é traduzir a linguagem natural falada pelos jogadores em ações dentro do sistema do jogo.
O Dataset FIREBALL
Para resolver isso, desenvolvemos um dataset chamado FIREBALL. Esse dataset contém quase 25.000 sessões únicas gravadas durante jogatinas reais de D&D no Discord. Coletamos dados de jogadores usando o bot Avrae, que permite aos usuários executar comandos do jogo e acompanhar os estados do jogo de forma eficiente. O dataset FIREBALL inclui:
- 8 milhões de falas de gameplay
- 2,1 milhões de comandos
- 1,3 milhões de estados de jogo únicos
- 160.000 personagens únicos (tanto jogadores quanto não jogadores)
O dataset é valioso porque oferece informações estruturadas que refletem a jogatina real, tornando-se um recurso confiável para desenvolver e melhorar modelos de linguagem voltados para aplicações de D&D.
Entendendo a Dinâmica do Jogo
Em D&D, os jogadores assumem vários papéis de personagens, cada um com habilidades, forças e fraquezas únicas, que estão detalhadas nas folhas de personagem. Os jogadores comunicam suas ações usando linguagem natural, enquanto o DM narra os resultados com base nas regras do jogo. O gameplay consiste em dois modos principais:
- Em combate: Isso envolve batalhas com turnos e rastreamento de estatísticas para personagens e monstros.
- Fora do combate: Caracterizado por narração livre, onde os jogadores exploram e interagem de forma criativa com o mundo do jogo.
Um aspecto chave do gameplay é o uso de dados para determinar o sucesso das ações. Cada personagem tem um conjunto de estatísticas que influenciam essas jogadas, e os jogadores costumam trabalhar juntos para alcançar seus objetivos.
O Papel do Avrae
Avrae é um bot do Discord feito para ajudar os jogadores a gerenciar seus jogos de D&D online. Ele ajuda os jogadores a acompanhar as folhas de personagem, acessar bancos de dados de monstros e simular jogadas de dados. Quando os jogadores executam comandos, o Avrae atualiza o Estado do Jogo, que inclui informações vitais como:
- Participantes ativos em combate
- Seus pontos de vida atuais
- Ações disponíveis
Ao automatizar essas tarefas, o Avrae permite que os jogadores foquem na história de seus personagens em vez das mecânicas do jogo.
Tarefas para Modelos de Linguagem
Identificamos duas tarefas principais que podem se beneficiar do dataset FIREBALL:
Fala para Comando
Nessa tarefa, um modelo de linguagem prevê o comando que um jogador pretendia usar com base nas palavras faladas e no estado do jogo. Por exemplo, se um jogador diz: "Filgo balança seu machado em direção ao lobo", o modelo deve gerar o comando correspondente para executar essa ação no jogo.
Estado para Narração
Essa tarefa envolve gerar uma descrição narrativa dos efeitos resultantes das ações de um jogador. Dadas as mudanças de estado que ocorreram desde que o turno do jogador começou, o modelo busca criar uma narrativa envolvente e consistente.
Processo de Coleta de Dados
Para coletar dados para o FIREBALL, fizemos uma parceria com os desenvolvedores do Avrae, que ajudaram a configurar a instrumentação para capturar as sessões de jogo. Os participantes foram recrutados de servidores do Discord de D&D, onde os jogadores participam de jogos "play-by-post". Esse método permite que os jogadores descrevam suas ações em um formato de texto, que gravamos.
Antes de começar uma sessão, os participantes foram informados sobre a coleta de dados. Eles podiam optar por sair de sessões individuais, garantindo que a privacidade e o consentimento fossem respeitados durante todo o processo.
Analisando o Dataset
Depois de coletar os dados, processamos para criar pares de falas e comandos. Cada par consiste em:
- As palavras faladas do jogador relacionadas à sua ação.
- O comando correspondente executado no Avrae.
Isso nos permitiu analisar quão bem os modelos de linguagem podiam interpretar a intenção do jogador e gerar comandos precisos.
A Importância das Informações do Estado do Jogo
Uma descoberta significativa do nosso trabalho é que incorporar informações do estado do jogo melhora o desempenho dos modelos de linguagem. Ao fornecer contexto sobre os personagens e sua situação atual, os modelos podem oferecer saídas mais precisas e relevantes.
Por exemplo, um modelo que entende quais personagens estão feridos terá um desempenho melhor quando for solicitado a gerar comandos ou narrativas com base nas condições desses personagens.
Avaliação de Desempenho dos Modelos de Linguagem
Para avaliar o desempenho dos modelos de linguagem treinados no FIREBALL, realizamos vários testes, comparando modelos com e sem acesso a informações do estado do jogo. Os resultados mostraram melhorias significativas quando os modelos foram fornecidos com informações estruturadas do estado.
Tarefa 1: Fala para Comando
Nessa tarefa, medimos quão bem os modelos podiam prever os comandos corretos com base nas falas dos jogadores. Testamos diferentes abordagens, incluindo:
Modelos ajustados com informações de estado: Esses modelos mostraram a maior precisão, gerando comandos que corresponderam à intenção dos jogadores.
Modelos sem informações de estado: Essas abordagens tiveram dificuldades, ressaltando a importância do contexto na interpretação precisa das ações dos jogadores.
Tarefa 2: Estado para Narração
Para essa tarefa, focamos em quão bem os modelos podiam gerar descrições narrativas com base nas mudanças de estado do jogo. Comparamos várias configurações de treinamento, incluindo aquelas que utilizavam histórico de diálogos sem os detalhes do estado do jogo. Mais uma vez, os resultados indicaram que incorporar o estado do jogo resultou em narrativas mais coerentes e contextualmente relevantes.
Desafios na Representação do Gameplay
Embora o FIREBALL forneça uma tonelada de dados, ele também tem limitações. Os cenários são gravados independentemente da história geral, o que pode levar a uma falta de continuidade no desenvolvimento do personagem ou da trama.
Além disso, o FIREBALL não rastreia todos os aspectos do gameplay, como inventários de personagens ou posicionamento exato em mapas. Esses elementos também podem impactar a riqueza das narrativas geradas e a experiência geral de jogo.
Direções Futuras
O dataset FIREBALL abre várias oportunidades para mais pesquisas e desenvolvimentos em modelagem de linguagem no âmbito dos jogos de RPG de mesa. Algumas avenidas potenciais incluem:
- Melhorar modelos de previsão de comandos para incorporar contextos mais detalhados de jogatinas anteriores.
- Desenvolver sistemas que integrem a geração de narrativas com a tomada de decisões em tempo real no gameplay.
- Explorar mecanismos de narração colaborativa que permitam que a IA ajude DMs enquanto preserva a autonomia dos jogadores.
Ao construir sobre a estrutura estabelecida pelo FIREBALL, esperamos avançar na forma como a tecnologia pode apoiar e enriquecer a experiência de jogar D&D.
Conclusão
O FIREBALL representa um grande passo à frente na captura das complexidades do gameplay de Dungeons and Dragons por meio de dados estruturados. Com quase 25.000 sessões gravadas e milhões de falas e comandos, esse dataset serve como um recurso vital para treinar modelos de linguagem voltados para entender e melhorar a experiência dos jogadores.
As percepções obtidas a partir dessa pesquisa destacam a importância das informações do estado do jogo em conectar a linguagem natural e as mecânicas de jogo. À medida que a IA continua a se desenvolver, a aplicação de tais modelos no mundo dos jogos de mesa pode levar a novas e emocionantes possibilidades para jogadores e DMs.
Título: FIREBALL: A Dataset of Dungeons and Dragons Actual-Play with Structured Game State Information
Resumo: Dungeons & Dragons (D&D) is a tabletop roleplaying game with complex natural language interactions between players and hidden state information. Recent work has shown that large language models (LLMs) that have access to state information can generate higher quality game turns than LLMs that use dialog history alone. However, previous work used game state information that was heuristically created and was not a true gold standard game state. We present FIREBALL, a large dataset containing nearly 25,000 unique sessions from real D&D gameplay on Discord with true game state info. We recorded game play sessions of players who used the Avrae bot, which was developed to aid people in playing D&D online, capturing language, game commands and underlying game state information. We demonstrate that FIREBALL can improve natural language generation (NLG) by using Avrae state information, improving both automated metrics and human judgments of quality. Additionally, we show that LLMs can generate executable Avrae commands, particularly after finetuning.
Autores: Andrew Zhu, Karmanya Aggarwal, Alexander Feng, Lara J. Martin, Chris Callison-Burch
Última atualização: 2023-05-25 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.01528
Fonte PDF: https://arxiv.org/pdf/2305.01528
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/zhudotexe/FIREBALL
- https://www.theregister.com/2021/10/08/ai_game_abuse/
- https://github.com/zhudotexe/FIREBALL/blob/main/Filgo_Bitterfoot.pdf
- https://github.com/avrae/avrae/blob/v4.2.2/cogs5e/initiative/upenn_nlp.py
- https://avrae.readthedocs.io/en/latest/automation_ref.html
- https://github.com/avrae/avrae/blob/v4.2.2/cogs5e/models/automation/results.py
- https://cdn.discordapp.com/attachments/979075315706003459/1005867411385364480/giphy_6.gif
- https://tex.stackexchange.com/questions/236155/tabularx-and-multicolumn