Simple Science

La science de pointe expliquée simplement

# Informatique# Informatique et théorie des jeux# Intelligence artificielle

Grands Modèles de Langage et Prise de Décision Humanoïde

Cette étude examine si les modèles de langage prennent des décisions comme des humains dans des scénarios stratégiques.

― 13 min lire


Les modèles de langageLes modèles de langageimitent les choixhumains.décision semblable à celle des humains.langage reproduisent une prise deUne étude montre que les modèles de
Table des matières

Dans cette étude, on examine si les Modèles de langage de grande taille (LLMs) font des choix similaires à ceux des humains dans des situations stratégiques. On compare ces modèles à ce qu’on sait sur le comportement des vraies personnes. On trouve que les modèles appelés Solar et Mistral montrent des Préférences qui s'alignent avec celles des humains dans des situations bien connues comme le dilemme du prisonnier et le dilemme du voyageur. On s’intéresse aussi à la façon dont la taille du modèle influence ces préférences et on découvre que les modèles plus grands sont généralement meilleurs pour prendre des Décisions stables. En plus, on introduit une nouvelle méthode pour déterminer comment ces modèles classent leurs préférences en fonction de divers facteurs.

Contexte

Les LLMs comme Solar et Mistral ont eu beaucoup de succès pour accomplir une large gamme de tâches depuis leur apparition. Cependant, la plupart des études sur ces modèles se concentrent sur des tâches de test traditionnelles. Il y a moins d'enquêtes sur comment ces modèles pensent ou se comportent de manière similaire aux humains. Ce type d'analyse est important pour intégrer les LLMs dans des applications qui impliquent une interaction humaine.

Pour illustrer pourquoi cette analyse est importante, pensez à une personne portant une boîte lourde demandant de l'aide à quelqu'un. L'aidant décide rapidement comment aider, basé sur ses propres préférences sur la meilleure façon d'appliquer la force. La personne qui a besoin d'aide compte sur la capacité de l'aidant à faire un bon choix sans avoir besoin de beaucoup de détails.

Actuellement, un robot aurait du mal à choisir la meilleure stratégie d’aide à moins d’être spécifiquement programmé avec des préférences claires. Dans nos travaux futurs, on veut utiliser les LLMs pour améliorer la façon dont les humains et les robots communiquent. Pour que cela arrive, les LLMs doivent avoir des préférences similaires à celles des humains.

De plus, les applications impliquant une interaction humaine nécessitent que le comportement des LLM reste stable, même si la situation change légèrement. Des études récentes ont montré que certains modèles de langage ne réagissent pas de manière cohérente face à de petits changements. Pour améliorer cela, on utilise une méthode appelée PopulationLM pour créer des groupes de modèles pour les tests.

Objectifs de ce document

Le but de ce document est de déterminer si des modèles de langage open source montrent des préférences humaines stables. On crée différents groupes de modèles et teste leur capacité de prise de décision dans diverses situations. En utilisant des modèles open source, d'autres peuvent reproduire nos résultats, tandis que les modèles fermés peuvent changer de manière inattendue, rendant les résultats précédents peu fiables.

D'abord, on vérifie si les modèles de langage ont des préférences basées sur des valeurs attribuées à leurs choix. À partir de là, on trouve des modèles qui valent la peine d'être examinés de plus près. On teste ces modèles dans deux versions du dilemme du prisonnier : une avec des enjeux élevés et une avec des enjeux faibles. On les évalue aussi dans des scénarios liés au dilemme du voyageur avec différentes tailles de pénalité.

Nos principales découvertes sont :

  1. Certains LLMs, spécifiquement Solar et Mistral, montrent des préférences stables qui ressemblent aux décisions humaines.
  2. Les modèles plus petits basent souvent leurs choix sur des indices superficiels.
  3. Les modèles plus grands s'appuient moins sur des informations superficielles.
  4. Certains grands modèles qui montrent des préférences stables peuvent encore être incohérents.
  5. On a rassemblé des preuves qui aident à expliquer pourquoi les humains s'écartent souvent de l'équilibre attendu dans le dilemme du voyageur.

Dans le cadre de notre recherche, on a aussi créé de nouveaux ensembles de données pour chaque scénario et introduit une méthode pour déterminer les préférences à partir de groupes de LLMs.

Travaux connexes

Des études précédentes ont engagé les modèles GPT-3.5 et GPT-4 dans de nombreux jeux, y compris le dilemme du prisonnier. Ils ont trouvé que ces modèles réagissaient durement à la trahison mais étaient initialement Coopératifs. Une fois trahis, ils ne choisissaient pas de coopérer à nouveau, même si leur adversaire montrait de la coopération plus tard.

D'autres études ont trouvé que GPT-3.5 et GPT-4 avaient du mal à garder leurs croyances cohérentes, ce qui les rendait moins adaptés aux expériences en sciences sociales. D'autres recherches impliquaient des modèles comme GPT-4 et Claude dans des jeux sociaux avec désinformation, utilisant une méthode pour les aider à raisonner dans des situations complexes.

Bien que de nombreux chercheurs aient examiné le comportement des LLM dans les jeux, leur focus diffère du nôtre. Notre travail s'intéresse spécifiquement à la stabilité des préférences des modèles et comment elles sont affectées par des changements d'enjeux ou de pénalités. De plus, on utilise strictement des modèles open source, ce qui permet une mesure plus fiable des préférences par rapport aux études ayant utilisé des modèles fermés.

Les LLMs préfèrent-ils des Stratégies basées sur la valeur ?

Les recherches montrent que GPT-3.5 et GPT-4 ont tendance à préférer des stratégies de plus haute valeur. Cependant, il n'est pas clair si d'autres modèles se comportent de manière similaire. Si un modèle montre des préférences basées sur la valeur, on veut savoir dans quelle mesure ces préférences sont fiables dans différentes circonstances. On se demande : les LLMs ont-ils tendance à avoir des préférences basées sur la valeur attribuée aux stratégies ?

Méthode expérimentale

Pour répondre à cette question, on crée un prompt avec trois stratégies étiquetées A1, A2 et A3, chacune attribuée une valeur de 5, 10 ou 20 points. On demande au modèle de fournir une évaluation de probabilité pour chaque stratégie basée sur un mot d'évaluation cohérent. On répète cela avec différents prompts pour s'assurer de capturer diverses préférences, ce qui donne 36 prompts uniques et 108 requêtes de modèle.

On évalue aussi si les modèles avec des préférences basées sur la valeur montrent de la cohérence quand ils sont considérés avec différents mots d'évaluation de sentiment, positifs et négatifs.

Pour vérifier l'influence des variations sur les préférences des modèles, on utilise PopulationLM pour créer des groupes de modèles qui diffèrent par leur architecture, leur taille ou leur formation. Cela nous aide à évaluer si le comportement des préférences reste cohérent à travers différents variants.

Enfin, on examine comment la taille du modèle affecte les préférences basées sur la valeur et si les modèles plus petits penchent vers des indices superficiels.

Résultats : Préférences basées sur la valeur

D'après nos expériences, seulement quelques modèles montrent des préférences stables basées sur la valeur. Parmi les modèles ayant montré des résultats positifs, Solar et Mistral ont montré la plus forte corrélation entre la probabilité d'évaluation et la valeur stratégique. Des modèles comme Gemma et Llama-2, malgré une certaine corrélation, n'ont pas montré de préférences cohérentes.

Effets de la taille du modèle

Notre analyse révèle que les modèles plus grands ont tendance à préférer des stratégies de plus haute valeur. Il semble y avoir un lien entre la taille du modèle et la capacité à apprendre des préférences basées sur des valeurs, bien que la taille seule ne garantisse pas cette capacité.

On a trouvé que les modèles plus petits tendent à baser leurs stratégies sur des indices superficiels, tandis que les modèles plus grands montrent une sensibilité décroissante à ces indices. De plus, il semble que les groupes de modèles s'appuient moins sur des étiquettes superficielles par rapport à leurs modèles de base.

Pourquoi Solar et Mistral ne sont-ils pas fragiles ?

D'après notre recherche, on voit que Solar surpasse tous les autres modèles en matière de jugements de préférences stables basées sur la valeur, suivi de près par Mistral. Tandis que des modèles comme Gemma et Llama-2 montrent des préférences basées sur la valeur similaires, ils tendent à être fragiles, ce qui signifie que leur performance varie considérablement en cas de légers changements.

L'historique de formation de ces modèles offre un aperçu. Mistral a été conçu pour s'appuyer sur l'architecture de Llama-2, améliorant sa performance. Solar a ensuite franchi un cap en augmentant le nombre de couches, ce qui a contribué à sa forte performance.

En revanche, Gemma, bien qu'entraînée sur plus de tokens que Llama-2, peine avec la stabilité. On émet l'hypothèse que les approches de formation uniques, surtout les mécanismes d'attention utilisés, jouent un rôle significatif dans la performance des modèles.

Les LLMs ont-ils des préférences humaines dans le dilemme du prisonnier ?

Étant donné que certains LLMs montrent des préférences stables basées sur la valeur, on veut savoir si ces préférences reflètent des décisions humaines dans des situations de jeu classiques, comme le dilemme du prisonnier. Dans ce jeu, les joueurs choisissent entre coopération et trahison, avec des résultats spécifiques pour chaque choix.

Des études précédentes indiquent que les humains choisissent souvent de coopérer, surtout lorsque les enjeux sont faibles, tandis qu'ils se trahissent davantage à des enjeux plus élevés.

Méthode expérimentale

Pour évaluer cela, on conçoit une version à faibles enjeux et une version à enjeux élevés du dilemme du prisonnier, les encadrant dans des scénarios réalistes. On construit des prompts pour les deux scénarios et effectue des évaluations similaires en utilisant le prompting contrefactuel comme décrit précédemment.

Résultats : Préférences des LLM dans le dilemme du prisonnier

Nos résultats montrent que dans les scénarios à faibles enjeux, des modèles comme Solar, Mistral et Llama-2 préfèrent des stratégies coopératives. Cependant, dans les scénarios à enjeux élevés, tous les modèles montrent une certaine préférence pour la trahison, même s'ils n'adhèrent pas entièrement à l'intérêt personnel.

Fait intéressant, le modèle Gemma a montré de l'incertitude dans ses préférences dans la version à faibles enjeux.

Dans l'ensemble, les résultats indiquent que des LLMs auto-cohérents et stables avec des préférences basées sur la valeur reflètent de près les préférences humaines dans le dilemme du prisonnier, notamment en ce qui concerne l'effet de la taille des enjeux.

Les LLMs ont-ils des préférences humaines dans le dilemme du voyageur ?

Ensuite, on examine le dilemme du voyageur, un autre jeu conçu pour mettre en avant comment les humains s'écartent souvent des prédictions standard en théorie des jeux. Dans ce scénario, deux inconnus ayant des objets identiques font face à des pénalités pour surenchérir lorsqu'ils réclament une compensation pour des objets endommagés.

Écart humain par rapport à l'équilibre de Nash

La théorie des jeux suggère généralement que les joueurs rationnels choisiront certains nombres dans ce contexte. Cependant, des études ont montré que les gens choisissent souvent des valeurs plus faibles que prévu, indiquant une préférence plus coopérative même lorsque les incitations suggèrent le contraire.

Méthode expérimentale

On effectue des tests utilisant des groupes de modèles et du prompting contrefactuel à nouveau, en mettant l'accent sur les citations près de l'équilibre de Nash sous différentes conditions de pénalité.

Résultats : Préférences des LLM dans le dilemme du voyageur

Lorsqu'on examine les effets des pénalités, on constate que les modèles Solar et Mistral montrent une indifférence entre deux choix à des pénalités plus basses. Cependant, à mesure que les pénalités augmentent, leur préférence commence à pencher vers la valeur inférieure.

Nos résultats impliquent que des modèles non fragiles avec des préférences basées sur la valeur montrent une sensibilité à la taille des pénalités dans le dilemme du voyageur, ce qui renvoie aux résultats observés dans le comportement humain.

Conclusions

En résumé, cette recherche évalue comment les LLMs préfèrent des stratégies basées sur des valeurs attribuées, en contrôlant les heuristiques superficielles. On trouve un lien entre des préférences stables et la taille du modèle ainsi que le nombre de tokens d'entraînement. Solar et Mistral émergent comme de forts candidats pour des applications impliquant l'interaction humaine grâce à leur capacité à modéliser des préférences stratégiques qui s'alignent étroitement avec le comportement humain.

Bien que ce travail aide à éclairer le comportement des LLM en contextes stratégiques, on reconnaît que tous les scénarios peuvent ne pas aboutir à des préférences humaines similaires. Cela dit, les connaissances acquises ici ouvrent la voie à d'autres recherches sur l'application des LLMs dans des situations réelles.

Travaux futurs

Les études futures devraient envisager les influences potentielles du cadrage sur les résultats, ainsi que la nature non transitive des relations de préférence. Comprendre ces nuances améliorera notre capacité à travailler avec des LLMs dans des applications nécessitant une compréhension de la prise de décision humaine.

En fin de compte, à mesure que nous continuons d'explorer, nous pourrions découvrir d'autres complexités sur la façon dont ces modèles apprennent et se comportent dans des contextes stratégiques, fournissant des informations précieuses pour leur intégration dans des domaines centrés sur l'humain.

Plus d'auteurs

Articles similaires