Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje# Inteligencia artificial

Presentando el conjunto de datos FIREBALL para D&D

Un nuevo conjunto de datos para mejorar el análisis del juego de Dungeons and Dragons y los modelos de lenguaje.

― 8 minilectura


Conjunto de datosConjunto de datosFIREBALL para el juego deD&Dpara juegos de rol de mesa.Potenciando mejores modelos de lenguaje
Tabla de contenidos

Dungeons y Dragones (D&D) es un juego de rol de mesa donde los jugadores crean personajes y se embarcan en aventuras compartidas. El juego implica una interacción intensa a través de diálogos hablados, lo que hace que la experiencia sea rica y envolvente. Los jugadores asumen los roles de sus personajes mientras un Dungeon Master (DM) los guía a través de un mundo ficticio, estableciendo el escenario, los personajes y las reglas del juego. El DM también controla la dirección de la historia y las acciones de varias criaturas.

Con el tiempo, la tecnología ha influido en cómo se juega D&D, especialmente con el auge de plataformas en línea como Discord. Aquí, los jugadores pueden interactuar usando Comandos de chat y bots como Avrae, que ayudan a gestionar las reglas del juego y la información. Sin embargo, sigue siendo un gran desafío traducir el lenguaje natural que los jugadores hablan en acciones dentro del sistema del juego.

El Conjunto de Datos FIREBALL

Para abordar este problema, desarrollamos un conjunto de datos llamado FIREBALL. Este conjunto contiene casi 25,000 sesiones únicas grabadas durante el juego real de D&D en Discord. Reunimos datos de jugadores usando el bot Avrae, que permite a los usuarios ejecutar comandos del juego y rastrear estados del juego de manera efectiva. El conjunto de datos FIREBALL incluye:

  • 8 millones de Expresiones de juego
  • 2.1 millones de comandos
  • 1.3 millones de estados de juego únicos
  • 160,000 personajes únicos (tanto jugadores como no jugadores)

El conjunto de datos es valioso porque ofrece información estructurada que refleja el juego real, convirtiéndolo en un recurso confiable para desarrollar y mejorar modelos de lenguaje enfocados en aplicaciones de D&D.

Entendiendo la Dinámica del Juego

En D&D, los jugadores asumen varios roles de personajes, cada uno con habilidades, fortalezas y debilidades únicas, que se detallan en las hojas de personaje. Los jugadores comunican sus acciones usando lenguaje natural, mientras que el DM narra los resultados basados en las reglas del juego. La jugabilidad consiste en dos modos principales:

  1. En combate: Esto implica batallas con turnos y seguimiento de estadísticas para personajes y monstruos.
  2. Fuera de combate: Esto se caracteriza por la narración en forma libre, donde los jugadores exploran e interactúan con el mundo del juego de manera creativa.

Un aspecto clave de la jugabilidad es el uso de dados para determinar el éxito de las acciones. Cada personaje tiene un conjunto de estadísticas que influyen en estas tiradas, y los jugadores suelen trabajar juntos para alcanzar sus objetivos.

El Papel de Avrae

Avrae es un bot de Discord diseñado para ayudar a los jugadores a gestionar sus juegos de D&D en línea. Ayuda a los jugadores a rastrear hojas de personajes, acceder a bases de datos de monstruos y simular tiradas de dados. Cuando los jugadores ejecutan comandos, Avrae actualiza el Estado del Juego, que incluye información vital como:

  • Participantes activos en combate
  • Sus puntos de salud actuales
  • Acciones disponibles

Al automatizar estas tareas, Avrae permite a los jugadores concentrarse en la historia de su personaje en lugar de en la mecánica del juego.

Tareas para Modelos de Lenguaje

Identificamos dos tareas principales que pueden beneficiarse del conjunto de datos FIREBALL:

Expresión a Comando

En esta tarea, un modelo de lenguaje predice el comando que un jugador pretendía usar basado en sus palabras habladas y el estado del juego. Por ejemplo, si un jugador dice: "Filgo golpea al lobo con su hacha", el modelo debería generar el comando correspondiente para ejecutar esa acción en el juego.

Estado a Narración

Esta tarea implica generar una descripción narrativa de los efectos resultantes de las acciones de un jugador. Dado los cambios de estado que ocurrieron desde que comenzó el turno del jugador, el modelo busca crear una narrativa atractiva y coherente.

Proceso de Recolección de Datos

Para recolectar datos para FIREBALL, nos asociamos con los desarrolladores de Avrae, quienes ayudaron a establecer la instrumentación para capturar sesiones de juego. Se reclutaron participantes de servidores de Discord de D&D, donde los jugadores participan en juegos “play-by-post”. Este método permite a los jugadores describir sus acciones en formato textual, que grabamos.

Antes de comenzar una sesión, se informó a los participantes sobre la recolección de datos. Podían optar por no participar en sesiones individuales, asegurando que se respeten la privacidad y el consentimiento durante todo el proceso.

Análisis del Conjunto de Datos

Después de recolectar los datos, los procesamos para crear pares de expresiones y comandos. Cada par consiste en:

  1. Las palabras habladas del jugador relacionadas con su acción.
  2. El comando correspondiente ejecutado en Avrae.

Esto nos permitió analizar qué tan bien los modelos de lenguaje podían interpretar la intención del jugador y generar comandos precisos.

La Importancia de la Información del Estado del Juego

Un hallazgo significativo de nuestro trabajo es que incorporar la información del estado del juego mejora el rendimiento de los modelos de lenguaje. Al proporcionar contexto sobre los personajes y su situación actual, los modelos pueden ofrecer salidas más precisas y relevantes.

Por ejemplo, un modelo que entiende qué personajes están heridos rendirá mejor cuando se le pida generar comandos o narrativas basadas en las condiciones de esos personajes.

Evaluación del Rendimiento de los Modelos de Lenguaje

Para evaluar el rendimiento de los modelos de lenguaje entrenados con FIREBALL, realizamos varias pruebas, comparando modelos con y sin acceso a la información del estado del juego. Los resultados mostraron mejoras significativas cuando los modelos recibieron información estructurada del estado.

Tarea 1: Expresión a Comando

En esta tarea, medimos qué tan bien los modelos podían predecir los comandos correctos basados en las expresiones de los jugadores. Probamos diferentes enfoques, incluyendo:

  • Modelos afinados con información del estado: Estos modelos mostraron la mayor precisión, generando exitosamente comandos que coincidían con la intención del jugador.

  • Modelos sin información del estado: Estos enfoques tuvieron dificultades, destacando la importancia del contexto para interpretar con precisión las acciones del jugador.

Tarea 2: Estado a Narración

Para esta tarea, nos centramos en qué tan bien los modelos podían generar descripciones narrativas basadas en cambios de estado del juego. Comparamos varias configuraciones de entrenamiento, incluyendo aquellas que utilizaron la historia del diálogo sin detalles del estado del juego. Nuevamente, los resultados indicaron que incorporar el estado del juego produjo narrativas más coherentes y contextualmente relevantes.

Desafíos en la Representación del Juego

Si bien FIREBALL proporciona una gran cantidad de datos, también tiene limitaciones. Los escenarios se graban independientemente de la historia general, lo que puede llevar a una falta de continuidad en el desarrollo de personajes o en la trama.

Además, FIREBALL no rastrea cada aspecto de la jugabilidad, como los inventarios de personajes o la posición exacta en los mapas. Estos elementos también pueden impactar la riqueza de las narrativas generadas y la experiencia general del juego.

Direcciones Futuras

El conjunto de datos FIREBALL abre numerosas oportunidades para investigaciones y desarrollos adicionales en modelado de lenguaje dentro del ámbito de los juegos de rol de mesa. Algunas avenidas potenciales incluyen:

  • Mejorar modelos de predicción de comandos para incorporar un contexto más detallado de la jugabilidad previa.
  • Desarrollar sistemas que integren generación narrativa con toma de decisiones en tiempo real en la jugabilidad.
  • Explorar mecanismos de narración colaborativa que permitan a la IA ayudar a los DMs mientras se preserva la autonomía de los jugadores.

Al construir sobre el marco establecido por FIREBALL, esperamos avanzar en cómo la tecnología puede apoyar y enriquecer la experiencia de juego de D&D.

Conclusión

FIREBALL representa un paso importante en capturar las complejidades de la jugabilidad de Dungeons y Dragones a través de datos estructurados. Con casi 25,000 sesiones grabadas y millones de expresiones y comandos, este conjunto de datos sirve como un recurso vital para entrenar modelos de lenguaje enfocados en entender y mejorar la experiencia del jugador.

Los conocimientos obtenidos de esta investigación destacan la importancia de la información del estado del juego para cerrar la brecha entre el lenguaje natural y la mecánica del juego. A medida que la IA continúa desarrollándose, la aplicación de tales modelos en el mundo de los juegos de mesa puede llevar a nuevas y emocionantes posibilidades tanto para los jugadores como para los DMs.

Fuente original

Título: FIREBALL: A Dataset of Dungeons and Dragons Actual-Play with Structured Game State Information

Resumen: Dungeons & Dragons (D&D) is a tabletop roleplaying game with complex natural language interactions between players and hidden state information. Recent work has shown that large language models (LLMs) that have access to state information can generate higher quality game turns than LLMs that use dialog history alone. However, previous work used game state information that was heuristically created and was not a true gold standard game state. We present FIREBALL, a large dataset containing nearly 25,000 unique sessions from real D&D gameplay on Discord with true game state info. We recorded game play sessions of players who used the Avrae bot, which was developed to aid people in playing D&D online, capturing language, game commands and underlying game state information. We demonstrate that FIREBALL can improve natural language generation (NLG) by using Avrae state information, improving both automated metrics and human judgments of quality. Additionally, we show that LLMs can generate executable Avrae commands, particularly after finetuning.

Autores: Andrew Zhu, Karmanya Aggarwal, Alexander Feng, Lara J. Martin, Chris Callison-Burch

Última actualización: 2023-05-25 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2305.01528

Fuente PDF: https://arxiv.org/pdf/2305.01528

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares