Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje

Evaluando Modelos de Lenguaje Grandes en Entornos Multi-Agente

Nuevo estándar evalúa las habilidades de los LLMs para interactuar con múltiples agentes.

― 15 minilectura


Evaluando LLMs enEvaluando LLMs enEntornos de Juegoequipo.habilidades de LLM y el trabajo enNuevo estándar para evaluar las
Tabla de contenidos

Recientes desarrollos en modelos de lenguaje grande (LLMs) muestran que pueden funcionar como agentes independientes con inteligencia similar a la humana. Sin embargo, las pruebas actuales que se utilizan para evaluar a estos agentes LLM a menudo dependen de conjuntos de datos fijos, lo que puede no ofrecer una imagen completa debido a filtraciones de datos o enfocarse únicamente en situaciones de un solo agente. Este enfoque ignora los desafíos que enfrentan cuando múltiples agentes interactúan. Hay una necesidad de un estándar integral que mida las habilidades diversas de los agentes LLM en entornos dinámicos de múltiples agentes.

Para abordar esta brecha, presentamos un nuevo marco que es fácil de expandir para probar las capacidades de LLM en diferentes escenarios de juego. Este marco incluye siete entornos de juego únicos que evalúan habilidades esenciales para los agentes LLM. Estas habilidades incluyen razonamiento espacial, planificación estratégica, razonamiento numérico, evaluación de riesgos, Comunicación, Modelado de oponentes y colaboración en equipos. Realizamos pruebas extensivas y evaluaciones humanas utilizando varios tamaños y tipos de LLMs. Los resultados indican que los LLMs todavía tienen un largo camino por recorrer en su desarrollo, particularmente en el modelado de oponentes y la colaboración en equipo. Esperamos que este marco guíe la futura investigación centrada en mejorar estas habilidades en LLMs, llevando a aplicaciones más prácticas en entornos activos de múltiples agentes. El código y los datos se compartirán públicamente.

Resumen de Modelos de Lenguaje Grande

Los avances recientes en modelos de lenguaje grande (LLMs) han influido enormemente en el procesamiento del lenguaje natural (NLP) debido a sus habilidades impresionantes en diversas tareas sin necesidad de entrenamiento específico. Los LLMs no solo son buenos para entender y generar texto complejo, sino que también muestran una habilidad notable para adaptarse a nuevas situaciones con solo unas pocas pistas. Estas características inspiran a los investigadores a pensar en los LLMs como agentes autónomos capaces de ayudar en tareas complejas del mundo real, como el desarrollo de software e integración de información.

Para medir mejor las habilidades que se requieren de los LLMs como agentes, los investigadores se están enfocando en crear escenarios para evaluar qué tan bien se desempeñan los LLMs bajo diversas condiciones. Por ejemplo, se han desarrollado algunos estándares para examinar el rendimiento de los LLM en áreas como la generación de código y el razonamiento en situaciones de juego. A pesar de estos esfuerzos, hay limitaciones en los estándares existentes. Primero, los conjuntos de datos estáticos utilizados en las pruebas pueden llevar a problemas como la filtración de datos y el sobreajuste, ya que los LLMs podrían haber encontrado previamente estos datos durante su entrenamiento. Segundo, los métodos de evaluación actuales que se enfocan solo en escenarios de un solo agente pasan por alto las complejas interacciones que ocurren cuando múltiples agentes operan en un entorno compartido.

Introduciendo el Nuevo Estándar

Para llenar estas brechas, proponemos un estándar de evaluación dinámica diseñado específicamente para interacciones de múltiples agentes. Este estándar ofrece siete diferentes tipos de entornos de juego dinámicos y de múltiples agentes. Por ejemplo, el entorno del juego de póker Texas Hold'em genera una nueva mano para cada juego, aumentando la complejidad con cada ronda, reduciendo el riesgo de filtraciones de datos. En el entorno Undercover, los agentes LLM deben identificar al jugador "encubierto" durante la comunicación, lo que permite evaluar sus habilidades de comunicación y modelado de oponentes.

A través de estos entornos, podemos evaluar a fondo las habilidades de los LLM, como entender el espacio, planificar estratégicamente, razonar con números, evaluar riesgos, comunicarse efectivamente, modelar oponentes y colaborar en equipos en un entorno dinámico de múltiples agentes.

Para lograr una evaluación más precisa del rendimiento de los LLM dentro de estos entornos, adoptamos un sistema de puntuación que ayuda a evaluar métricas más allá de la tasa básica de victorias, como el nivel de habilidad en relación con otros agentes. Esto proporciona una comprensión más profunda del rendimiento en diferentes escenarios y contra varios oponentes.

Llevamos a cabo experimentos exhaustivos y evaluaciones humanas con 14 LLMs diferentes. Los resultados destacaron un amplio margen de mejora en las habilidades de colaboración en equipo y modelado de oponentes entre los LLMs dentro de entornos de múltiples agentes. Esperamos que este estándar inspire futuras investigaciones dirigidas a fortalecer las capacidades fundamentales en situaciones de múltiples agentes, promoviendo el uso más amplio de agentes LLM en aplicaciones del mundo real.

Descripción Detallada del Estándar

En esta sección, proporcionamos una mirada exhaustiva al nuevo estándar, que incluye siete entornos de juego distintos, métricas de evaluación y metodologías para la evaluación.

Resumen del Entorno de Juego

Cada entorno en nuestro estándar requiere que los LLMs utilicen un conjunto único de habilidades para superar desafíos de manera efectiva. Por ejemplo, en el entorno Undercover, los LLMs necesitan demostrar una gama de habilidades, incluyendo modelado de oponentes, comunicación efectiva y colaboración en equipo. Perder incluso una de estas habilidades podría llevar al fracaso en este entorno.

Construyendo el Estándar

Para asegurar la usabilidad y escalabilidad, construimos el estándar usando una plataforma existente como base. Esto permite a otros investigadores integrar fácilmente nuevos entornos en este marco. Al adherirse a las especificaciones de interfaz definidas, pueden añadir más entornos para evaluar las capacidades de LLM. Cada entorno proporciona indicaciones que explican las reglas del juego y ofrecen plantillas para guiar a los agentes LLM a través del juego. Estas indicaciones incluyen el estado del juego, datos históricos y acciones potenciales, creando una experiencia de juego estructurada para los agentes LLM.

Métricas de Evaluación

En esta sección, esbozamos las métricas de evaluación empleadas en el estándar y cómo se comparan con métricas de investigaciones anteriores. Nuestro sistema de puntuación evalúa los niveles de habilidad de múltiples agentes en entornos competitivos, a diferencia de las métricas estáticas e independientes de oponentes usadas en estudios previos. Este sistema tiene en cuenta victorias, pérdidas y la calidad del juego mientras considera las disparidades de habilidad entre los jugadores. Ganar contra oponentes de alta habilidad otorga más puntos que contra los de menor habilidad, permitiendo una evaluación más precisa de las verdaderas habilidades de un agente en un entorno de múltiples agentes.

Análisis de Entornos de Juego

Tres en Raya

Tres en Raya es un juego de estrategia clásico que involucra a dos agentes LLM que se turnan para marcar una cuadrícula de 3x3. Un jugador gana al alinear tres marcas en fila-horizontal, vertical o diagonalmente. Si todos los espacios se llenan sin un ganador, el juego termina en empate. Este juego pone a prueba a los LLMs en planificación estratégica y razonamiento espacial. Utilizamos sistemas de calificación para la evaluación.

Conecta Cuatro

Conecta Cuatro es un juego de mesa más complicado que utiliza una cuadrícula de 6x7. Aquí, dos agentes LLM alternan eligiendo columnas con espacios vacíos. El objetivo es conectar cuatro de sus fichas horizontalmente, verticalmente o diagonalmente. Este juego también evalúa habilidades de planificación estratégica y razonamiento espacial. El mismo sistema de calificación se aplica a este juego.

Texas Hold’em

Texas Hold'em es un juego de cartas muy conocido. Cada juego se juega entre dos agentes LLM. Los jugadores comienzan con dos cartas privadas y buscan formar la mejor mano de cinco cartas usando estas y las cartas comunitarias reveladas en etapas. Este juego requiere diversas habilidades, incluyendo razonamiento numérico, modelado de oponentes y evaluación de riesgos. El sistema de calificación se utiliza para la evaluación.

Undercover

En el juego de fiesta Undercover, los jugadores se dividen en roles de encubierto y no encubierto, cada uno recibiendo palabras secretas diferentes pero similares. Los jugadores brindan pistas sobre sus palabras durante una fase de comunicación, seguida de una ronda de votación para identificar al jugador encubierto. Este juego pone a prueba las habilidades de los agentes LLM en comunicación, modelado de oponentes y colaboración en equipo. El rendimiento se mide por la tasa de victorias de cada LLM actuando como el agente encubierto.

Negociación

En el juego de Negociación, dos agentes LLM deben negociar cómo asignar un grupo de artículos, con cada artículo teniendo valores desconocidos para ambos agentes. El objetivo es llegar a un acuerdo. Ganar ocurre cuando un agente maximiza el valor total de los artículos obtenidos. Este juego evalúa habilidades de razonamiento numérico, comunicación y modelado de oponentes.

Subasta Sellada de Precio Más Alto

En este escenario de subasta, dos agentes LLM presentan ofertas sin conocimiento de las ofertas del otro. El postor más alto gana, y el objetivo es determinar una oferta óptima que equilibre ganar la subasta y no sobrepagar. Este juego evalúa las habilidades de razonamiento numérico y modelado de oponentes basado en las recompensas promedio ganadas.

Hanabi

Hanabi es un juego de cartas cooperativo donde dos agentes LLM solo pueden ver las cartas del otro. Los jugadores utilizan fichas de información para revelar cartas, descartar cartas por más fichas, y jugar cartas en un orden específico para construir fuegos artificiales. Este juego requiere colaboración en equipo, planificación estratégica y razonamiento numérico. Los puntos promedio obtenidos de establecer fuegos artificiales con éxito sirven como métricas de evaluación.

Configuración Experimental

En nuestros experimentos, utilizamos varios tamaños y tipos de LLMs llamando directamente a las APIs de modelos de código cerrado y desplegando modelos de código abierto localmente. Para asegurar resultados consistentes, establecimos la temperatura de todos los modelos en cero. En la mayoría de los entornos, realizamos múltiples ejecuciones hasta que las calificaciones del modelo se estabilizaron, con más de 50 juegos jugados por entorno y modelo. Para el juego Undercover, jugamos 100 juegos con cada LLM actuando encubierto contra múltiples agentes no encubiertos.

Resultados Principales

Los siguientes resultados ilustran las puntuaciones relativas de 14 LLMs diferentes a través de los siete entornos, revelando ideas clave:

  1. Los modelos LLM más grandes mostraron mejoras notables en rendimiento. Los modelos con alrededor de 70 mil millones de parámetros promediaron 82.87, mientras que aquellos con 30 mil millones y 10 mil millones de parámetros lograron puntuaciones de 80.68 y 71.05, respectivamente. La ganancia de rendimiento al aumentar el tamaño del modelo de 10 mil millones a 30 mil millones fue mayor que de 30 mil millones a 70 mil millones.

  2. Algunos modelos mostraron resultados inesperados en entornos específicos. Por ejemplo, el rendimiento de un modelo cayó significativamente en el juego Undercover en comparación con un modelo más pequeño, divergiendo de los patrones típicos.

  3. Se notaron deficiencias de rendimiento en entornos centrados en la Subasta y Hanabi, donde los LLMs lucharon, particularmente los modelos más pequeños enfrentando desafíos de razonamiento numérico y modelado de oponentes.

  4. Hubo una clara distinción entre el rendimiento de GPT-4 y otros modelos, con GPT-4 logrando los mejores resultados en todas las tareas evaluadas.

Evaluación de Habilidades de LLMs

Comprensión Espacial

Para evaluar la comprensión espacial, realizamos juegos de auto-juego con varios LLMs, rastreando sus tasas de victoria y frecuencias de movimientos ilegales. Cuando se eliminaron las pistas posicionales, las alucinaciones aumentaron en un 59.5%, mientras que las tasas de victoria cayeron en un promedio del 38.3%. Esto indica que los LLMs tienen dificultades para entender configuraciones espaciales sin orientación explícita.

Planificación Estratégica

Desarrollamos una función de puntuación específica para el entorno Conecta Cuatro para evaluar las habilidades de planificación estratégica entre los LLMs. Durante batallas aleatorias, los LLMs con más parámetros lograron consistentemente mejores resultados, mientras que los modelos más pequeños a menudo fracasaron en tomar decisiones estratégicas efectivas.

Comunicación

En juegos como Undercover, analizamos la precisión de las pistas de los LLMs dadas durante el juego. Mientras que los LLMs sobresalieron en proporcionar pistas, tuvieron dificultades para interpretar las pistas de otros de manera efectiva, lo que llevó a errores frecuentes en la comprensión de comunicaciones complejas.

Modelado de Oponentes

En el juego Undercover, los LLMs tuvieron que deducir las palabras secretas de otros basándose en sus pistas. Los resultados mostraron que solo GPT-4 pudo identificar consistentemente que estaba encubierto, demostrando habilidades analíticas superiores en comparación con otros modelos.

Razonamiento Numérico

En escenarios de subasta, los LLMs generalmente ofrecían pujas que superaban los niveles óptimos, reflejando dificultades para entender el equilibrio entre ganar y sobrepujar. Muchos modelos mostraron una tendencia a hacer pujas altas sin considerar suficientemente sus valoraciones reales.

Evaluación de Riesgos

En el entorno de Texas Hold'em, observamos que los LLMs mostraron precaución en las evaluaciones de riesgos, optando por estrategias conservadoras, mientras que GPT-4 demostró una capacidad robusta de evaluación, eligiendo estratégicamente acciones de alto riesgo en los momentos apropiados.

Colaboración en Equipo

En Hanabi, los LLMs tendieron a sobreutilizar ciertas acciones requeridas para el trabajo en equipo, a menudo fallando en compartir información efectivamente, lo que en última instancia obstaculizó su éxito colectivo en completar fuegos artificiales.

Investigación Relacionada

A medida que los LLMs evolucionan, las prácticas de evaluación tradicionales pueden limitar su rendimiento. Nuevos estándares buscan examinar a los LLMs desde diversas perspectivas, incluyendo adaptabilidad, aplicaciones del mundo real y colaboración. Muchos estudios se centran en tratar a los LLMs como agentes, pero a menudo se pierden las complejidades inherentes en escenarios de múltiples agentes. Nuestra investigación busca ofrecer una imagen más clara de cómo se desempeñan los LLMs en entornos más intrincados y dinámicos.

Conclusión

En este trabajo, introdujimos un estándar destinado a evaluar las diversas habilidades de los agentes LLM en entornos dinámicos de múltiples agentes. Nuestros hallazgos mostraron que, si bien los LLMs demuestran habilidad en algunas áreas, se identificaron debilidades significativas en razonamiento espacial, modelado de oponentes y colaboración en equipo. Mejorar el rendimiento de los agentes LLM sigue siendo un desafío que exige más exploración. Animamos a futuros investigadores a utilizar nuestro estándar para evaluar una gama más amplia de escenarios, mejorando así el potencial de los LLMs.

Consideraciones Éticas

Hay importantes cuestiones éticas en torno a los agentes LLM, particularmente respecto al uso responsable y el potencial de abuso. A medida que los LLMs asumen más roles de toma de decisiones, la rendición de cuentas se convierte en una preocupación vital. Asegurar que su implementación esté alineada con directrices éticas requerirá marcos robustos y monitoreo para prevenir aplicaciones poco éticas.

Diseño Detallado de Indicación para Entornos de Juego

En esta sección, presentamos indicaciones detalladas diseñadas para cada entorno de juego en nuestro estándar. Estas indicaciones son esenciales para guiar a los agentes a través de sus interacciones, similar a los ajustes utilizados en el aprendizaje por refuerzo.

  • Indicación del Sistema: Esta proporciona dirección al LLM sobre su rol y las reglas del juego, ayudando a dar forma a su comportamiento en el entorno.

  • Indicación de Observación: Esta incluye la información de estado necesaria para que los agentes comprendan la situación actual, como las acciones de los oponentes, el estado del juego y las acciones disponibles.

  • Indicación de Acción: Estas indicaciones guían a los agentes en la elección de sus acciones e incluyen indicaciones adicionales de razonamiento para estimular sus procesos de pensamiento.

Con estas indicaciones estructuradas, los agentes pueden participar con éxito en cada juego y tomar decisiones de manera efectiva.

Estudios de Caso y Análisis de Errores

En esta parte, proporcionamos estudios de caso que ilustran cómo los LLMs tomaron decisiones en entornos específicos y destacan errores comunes.

Por ejemplo, durante Conecta Cuatro, los modelos más pequeños a veces hicieron movimientos contraproducentes que ayudaron inadvertidamente a su oponente. Incluso modelos más grandes como GPT-4 ocasionalmente perdieron oportunidades para maximizar sus recompensas, sugiriendo que los LLMs pueden no comprender completamente las estrategias del juego a pesar de sus capacidades avanzadas.

Además, en el juego Undercover, un agente tuvo dificultades para interpretar las pistas correctamente, lo que llevó a votos erróneos para identificar a los agentes encubiertos. En contraste, GPT-4 analizó exitosamente la situación y adaptó su estrategia para evitar ser detectado.

En conclusión, a través del análisis de diversos entornos de juego y comportamientos específicos de los LLM, nuestra investigación revela tanto el potencial como las limitaciones de los LLM en interacciones complejas y dinámicas. Comprender estos desafíos es esencial para futuros avances en la tecnología de LLM.

Fuente original

Título: LLMArena: Assessing Capabilities of Large Language Models in Dynamic Multi-Agent Environments

Resumen: Recent advancements in large language models (LLMs) have revealed their potential for achieving autonomous agents possessing human-level intelligence. However, existing benchmarks for evaluating LLM Agents either use static datasets, potentially leading to data leakage or focus only on single-agent scenarios, overlooking the complexities of multi-agent interactions. There is a lack of a benchmark that evaluates the diverse capabilities of LLM agents in multi-agent, dynamic environments. To this end, we introduce LLMArena, a novel and easily extensible framework for evaluating the diverse capabilities of LLM in multi-agent dynamic environments. LLMArena encompasses seven distinct gaming environments, employing Trueskill scoring to assess crucial abilities in LLM agents, including spatial reasoning, strategic planning, numerical reasoning, risk assessment, communication, opponent modeling, and team collaboration. We conduct an extensive experiment and human evaluation among different sizes and types of LLMs, showing that LLMs still have a significant journey ahead in their development towards becoming fully autonomous agents, especially in opponent modeling and team collaboration. We hope LLMArena could guide future research towards enhancing these capabilities in LLMs, ultimately leading to more sophisticated and practical applications in dynamic, multi-agent settings. The code and data will be available.

Autores: Junzhe Chen, Xuming Hu, Shuodi Liu, Shiyu Huang, Wei-Wei Tu, Zhaofeng He, Lijie Wen

Última actualización: 2024-02-26 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2402.16499

Fuente PDF: https://arxiv.org/pdf/2402.16499

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares