Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Informática y Teoría de Juegos# Inteligencia artificial

Modelos de Lenguaje Grandes y Toma de Decisiones Como Humanos

Este estudio examina si los modelos de lenguaje toman decisiones como los humanos en situaciones estratégicas.

― 11 minilectura


Los modelos de lenguajeLos modelos de lenguajeimitan las eleccioneshumanassimilar a la de los humanos.lenguaje replican la toma de decisionesUn estudio muestra que los modelos de
Tabla de contenidos

En este estudio, vemos si los Modelos de lenguaje grandes (LLMs) toman Decisiones similares a las de los humanos en situaciones estratégicas. Comparamos estos modelos con lo que sabemos sobre cómo se comportan las personas reales. Encontramos que los modelos llamados Solar y Mistral muestran Preferencias que se alinean con las de los humanos en situaciones bien conocidas, como el dilema del prisionero y el dilema del viajero. También vemos cómo el tamaño del modelo influye en estas preferencias y descubrimos que los modelos más grandes son generalmente mejores para tomar decisiones estables. Además, presentamos un nuevo método para averiguar cómo estos modelos clasifican sus preferencias según varios factores.

Antecedentes

Los LLMs como Solar y Mistral han tenido mucho éxito en realizar una amplia gama de tareas desde que aparecieron por primera vez. Sin embargo, la mayoría de los estudios sobre estos modelos se enfocan en tareas de prueba tradicionales. Hay menos investigaciones sobre cómo estos modelos piensan o se comportan de manera similar a los humanos. Este tipo de análisis es importante para integrar los LLMs en aplicaciones que implican interacción humana.

Para ilustrar por qué este análisis es importante, piensa en una persona que lleva una caja pesada pidiendo ayuda a alguien. El ayudante decide rápidamente cómo ayudar, basado en sus propias preferencias sobre cómo aplicar la fuerza de la mejor manera. La persona que necesita ayuda confía en la capacidad del ayudante para tomar una buena decisión sin necesitar muchos detalles.

Actualmente, un robot tendría dificultades para elegir la mejor estrategia de ayuda a menos que haya sido programado específicamente con preferencias claras. En nuestro trabajo futuro, queremos usar LLMs para mejorar cómo se comunican humanos y robots. Para que esto suceda, los LLMs necesitan tener preferencias que sean similares a las humanas.

Además, las aplicaciones que involucran interacción humana requieren que el comportamiento de los LLMs permanezca estable, incluso si la situación cambia ligeramente. Estudios recientes han mostrado que algunos modelos de lenguaje no responden de manera consistente a pequeños cambios. Para mejorar esto, usamos un método llamado PopulationLM para crear grupos de modelos para pruebas.

Objetivos de este documento

El objetivo de este documento es averiguar si algunos modelos de lenguaje de código abierto muestran preferencias estables similares a las humanas. Creamos diferentes grupos de modelos y probamos sus habilidades de toma de decisiones en varias situaciones. Usar modelos de código abierto permite que otros repliquen nuestros hallazgos, mientras que los modelos de código cerrado pueden cambiar inesperadamente, lo que hace que los resultados anteriores sean poco confiables.

Primero, verificamos si los modelos de lenguaje tienen preferencias basadas en valores asignados a sus elecciones. A partir de ahí, encontramos modelos que vale la pena examinar más a fondo. Probaremos estos modelos en dos versiones del dilema del prisionero: una con altas apuestas y otra con bajas apuestas. También los evaluamos en escenarios relacionados con el dilema del viajero con diferentes tamaños de penalización.

Nuestros hallazgos principales son:

  1. Algunos LLMs, específicamente Solar y Mistral, muestran preferencias estables que se asemejan a las decisiones humanas.
  2. Los modelos más pequeños a menudo basan sus elecciones en pistas superficiales.
  3. Los modelos más grandes dependen menos de la información superficial.
  4. Algunos modelos grandes que muestran preferencias estables pueden seguir siendo inconsistentes.
  5. Recopilamos evidencia que ayuda a explicar por qué los humanos a menudo se desvían del equilibrio esperado en el dilema del viajero.

Como parte de nuestra investigación, también creamos nuevos conjuntos de datos para cada escenario e introdujimos un método para determinar preferencias a partir de grupos de LLMs.

Trabajo relacionado

Estudios previos involucraron modelos GPT-3.5 y GPT-4 en numerosos juegos, incluido el dilema del prisionero. Encontraron que estos modelos reaccionaron de manera dura ante la traición, pero inicialmente fueron cooperativos. Una vez traicionados, no elegirían cooperar nuevamente, incluso si su oponente mostraba cooperación más tarde.

Más estudios encontraron que GPT-3.5 y GPT-4 luchaban por mantener sus creencias consistentes, lo que los hacía menos adecuados para experimentos de ciencias sociales. Otra investigación involucró modelos como GPT-4 y Claude en juegos sociales con desinformación, utilizando un método para ayudarles a razonar en situaciones complejas.

Si bien muchos investigadores han examinado el comportamiento de los LLM en juegos, su enfoque difiere del nuestro. Nuestro trabajo está específicamente interesado en la estabilidad de las preferencias del modelo y cómo se ven afectadas por cambios en las apuestas o penalizaciones. Además, utilizamos estrictamente modelos de código abierto, lo que permite una medición más confiable de las preferencias en comparación con estudios que usaron modelos cerrados.

¿Prefieren los LLMs Estrategias basadas en el valor?

La investigación muestra que GPT-3.5 y GPT-4 tienden a preferir estrategias de mayor valor. Sin embargo, no está claro si otros modelos se comportan de manera similar. Si un modelo muestra preferencias basadas en el valor, queremos saber cuán confiables son estas preferencias en diferentes circunstancias. Preguntamos: ¿los LLMs tienden a tener preferencias basadas en el valor asignado a las estrategias?

Método experimental

Para responder a esta pregunta, creamos un aviso con tres estrategias etiquetadas A1, A2 y A3, cada una con un valor de 5, 10 o 20 puntos. Se le pide al modelo que proporcione una calificación de probabilidad para cada estrategia basada en una palabra de evaluación consistente. Repetimos esto con diferentes avisos para asegurar que capturamos varias preferencias, resultando en 36 avisos únicos y 108 consultas de modelos.

También evaluamos si los modelos con preferencias basadas en valor muestran consistencia cuando se consideran con diferentes palabras de evaluación de sentimiento, tanto positivas como negativas.

Para verificar la influencia de las variaciones en las preferencias del modelo, usamos PopulationLM para crear grupos de modelos que difieren por arquitectura, tamaño o entrenamiento. Esto nos ayuda a evaluar si el comportamiento de preferencias se mantiene consistente a través de diferentes variantes.

Finalmente, examinamos cómo el tamaño del modelo afecta las preferencias basadas en el valor y si los modelos más pequeños tienden a inclinarse hacia pistas superficiales.

Resultados: Preferencia basada en el valor

Basado en nuestros experimentos, solo unos pocos modelos muestran preferencias estables basadas en el valor. Entre los modelos con resultados positivos, Solar y Mistral mostraron la correlación más fuerte entre la probabilidad de evaluación y el valor de la estrategia. Modelos como Gemma y Llama-2, a pesar de cierta correlación, no mostraron preferencias consistentes.

Efectos del tamaño del modelo

Nuestro análisis revela que los modelos más grandes tienden a preferir estrategias de mayor valor. Parece haber un vínculo entre el tamaño del modelo y la capacidad de aprender preferencias basadas en valores, aunque el tamaño por sí solo no es suficiente para garantizar esta capacidad.

Encontramos que los modelos más pequeños tienden a basar sus estrategias en pistas superficiales, mientras que los modelos más grandes mostraron una disminución de la sensibilidad a tales pistas. Además, parece que los grupos de modelos tienden a depender menos de etiquetas superficiales en comparación con sus modelos base.

¿Por qué Solar y Mistral no son frágiles?

De nuestra investigación, vemos que Solar supera a todos los demás modelos en la toma de decisiones estables basadas en preferencias, seguido de cerca por Mistral. Mientras que modelos como Gemma y Llama-2 muestran preferencias basadas en valores similares, tienden a ser frágiles, lo que significa que su rendimiento varía significativamente bajo pequeños cambios.

La historia de entrenamiento de estos modelos ofrece algo de perspectiva. Mistral fue diseñado para construir sobre la arquitectura de Llama-2, mejorando su rendimiento. Solar luego llevó esto un paso más allá al aumentar sus capas, lo que contribuyó a su sólido rendimiento.

En contraste, Gemma, aunque entrenado en más tokens que Llama-2, lucha con la estabilidad. Hipotetizamos que los enfoques de entrenamiento únicos, especialmente los mecanismos de atención utilizados, juegan un papel significativo en el rendimiento de los modelos.

¿Tienen los LLMs preferencias similares a las humanas en el dilema del prisionero?

Dado que algunos LLMs muestran preferencias estables basadas en el valor, queremos saber si estas preferencias reflejan decisiones humanas en situaciones de juego clásicas, como el dilema del prisionero. En este juego, los jugadores eligen entre cooperación y traición, con resultados específicos para cada elección.

Estudios previos indican que los humanos a menudo eligen cooperar, especialmente cuando las apuestas son bajas, mientras que se traicionan más entre sí en apuestas más altas.

Método experimental

Para evaluar esto, diseñamos una versión de bajo riesgo y una de alto riesgo del dilema del prisionero, enmarcándolas en escenarios comprensibles. Construimos avisos para ambos escenarios y realizamos evaluaciones similares utilizando avisos contrafácticos como se describió anteriormente.

Resultados: Preferencia de los LLM en el dilema del prisionero

Nuestros hallazgos muestran que en escenarios de bajas apuestas, modelos como Solar, Mistral y Llama-2 prefieren estrategias Cooperativas. Sin embargo, en escenarios de altas apuestas, todos los modelos muestran alguna preferencia por la traición, aunque puede que no abracen completamente el interés propio.

Curiosamente, el modelo Gemma mostró incertidumbre en sus preferencias en la versión de bajas apuestas.

En general, los resultados indican que los LLMs auto-consistentes y estables con preferencias basadas en el valor reflejan de cerca las preferencias humanas en el dilema del prisionero, particularmente en cuanto al efecto del tamaño de las apuestas.

¿Tienen los LLMs preferencias similares a las humanas en el dilema del viajero?

A continuación, analizamos el dilema del viajero, otro juego diseñado para resaltar cómo los humanos a menudo se desvían de las predicciones estándar en la teoría de juegos. En este escenario, dos extraños con artículos idénticos enfrentan penalizaciones por hacer ofertas excesivas al reclamar compensación por artículos dañados.

Desviación humana del equilibrio de Nash

La teoría de juegos sugiere que los jugadores racionales elegirán ciertos números en este contexto. Sin embargo, estudios han demostrado que las personas a menudo seleccionan valores más bajos de lo esperado, indicando una preferencia más cooperativa incluso cuando los incentivos sugieren lo contrario.

Método experimental

Realizamos pruebas usando grupos de modelos y nuevamente con avisos contrafácticos, enfocándonos en citas cerca del equilibrio de Nash bajo diferentes condiciones de penalización.

Resultados: Preferencia de los LLM en el dilema del viajero

Al examinar los efectos de las penalizaciones, encontramos que los modelos Solar y Mistral muestran indiferencia entre dos elecciones a penalizaciones más bajas. Sin embargo, a medida que las penalizaciones aumentan, su preferencia comienza a inclinarse hacia el valor más bajo.

Nuestros resultados implican que los modelos no frágiles con preferencias basadas en el valor muestran una sensibilidad al tamaño de la penalización en el dilema del viajero, lo que ecoa los hallazgos en el comportamiento humano.

Conclusiones

En resumen, esta investigación evalúa cómo los LLMs prefieren estrategias basadas en valores asignados, controlando heurísticas superficiales. Encontramos una conexión entre preferencias estables y el tamaño del modelo, así como el número de tokens de entrenamiento. Solar y Mistral emergen como fuertes candidatos para aplicaciones que involucran interacción humana debido a su capacidad para modelar preferencias estratégicas que se alinean estrechamente con el comportamiento humano.

Si bien este trabajo ayuda a iluminar el comportamiento de los LLM en contextos estratégicos, reconocemos que no todos los escenarios pueden producir preferencias similares a las humanas. Aún así, los conocimientos obtenidos aquí allanan el camino para más investigaciones sobre la aplicación de los LLMs en situaciones del mundo real.

Trabajo futuro

Los estudios futuros deberían considerar las posibles influencias del enmarcado en los resultados, así como la naturaleza no transitiva de las relaciones de preferencia. Comprender estas sutilezas mejorará nuestra capacidad para trabajar con LLMs en aplicaciones que requieren una comprensión de la toma de decisiones similar a la humana.

En última instancia, a medida que continuamos investigando, podemos descubrir más complejidades sobre cómo estos modelos aprenden y se comportan en entornos estratégicos, proporcionando información invaluable para su integración en dominios centrados en el ser humano.

Más de autores

Artículos similares