Simple Science

La science de pointe expliquée simplement

# Informatique# Intelligence artificielle

Présentation de Choice-75 : Un nouveau jeu de données pour la prise de décision dans les scripts

Choice-75 teste les modèles de langage sur la prise de décision à travers des scénarios détaillés.

― 9 min lire


Dataset Choice-75 pourDataset Choice-75 pourles Modèles de Décisiondécision dans le monde réel.les modèles de langage sur la prise deNouveau jeu de données qui met au défi
Table des matières

L'apprentissage des scripts est une manière d'étudier comment les événements du quotidien se déroulent. La plupart des recherches passées ont considéré les scripts comme une suite d'événements, ratant les nombreuses options qui peuvent influencer le résultat. On vous présente Choice-75, un nouveau dataset qui teste les systèmes intelligents sur leur capacité à prédire des décisions basées sur des Scénarios détaillés. Ce dataset contient 75 scripts et plus de 600 scénarios. Alors que les modèles de langage actuels montrent de bonnes performances, il reste encore beaucoup à améliorer, surtout dans les cas compliqués.

Les événements sont les briques de notre monde. Pour comprendre tout ça, on doit voir comment ces événements se connectent. Penser aux relations entre les événements est un effort collectif venant de plusieurs domaines, se concentrant sur des éléments comme le timing, l'organisation, et la création de scripts. Ces tâches sont difficiles parce que les connexions sont souvent floues et nécessitent du bon sens pour être résolues.

L'apprentissage des scripts est une zone importante car il analyse comment les événements habituels se déroulent, nous offrant une perspective centrée sur l'humain. L'idée des scripts existe depuis longtemps, et les chercheurs ont exploré de nombreux aspects de cet apprentissage, comme les histoires, les événements d'actualité, et les instructions. Ces études montrent que l'apprentissage des scripts peut contribuer à créer de meilleurs systèmes intelligents.

Cependant, la plupart des travaux antérieurs ont traité les scripts comme une série d'événements en ligne droite. Dans la vraie vie, les scripts ont souvent plusieurs chemins où le prochain événement peut se dérouler de différentes manières. En général, c'est une personne qui décide quel chemin prendre. Jusqu'à présent, aucun benchmark n'a testé les systèmes intelligents pour modéliser ce processus de prise de décision. Donc, on définit et explore cette tâche où, donné un scénario, un système intelligent doit déterminer la meilleure des deux options.

On donne un exemple simple : si quelqu'un veut acheter un billet d'avion pour voir un désert, il peut soit acheter un billet pour une grande ville puis prendre un train vers le désert, soit acheter un billet pour une petite ville juste à côté du désert. S'il n'y a pas de train disponible de la grande ville au désert à ce moment-là, acheter le billet pour la petite ville est plus logique.

Choice-75 est le premier dataset visant cette tâche de prise de décision, contenant 75 exemples, chacun ayant un objectif. On a également rassemblé plus de 600 scénarios, notés par difficulté, et listé les meilleures options. Pendant notre collecte de données, on a utilisé une méthode qui inclut des retours humains pour créer des exemples difficiles.

Pour tester notre dataset, on a utilisé des modèles de langage avancés, y compris text-davinci-003 et gpt-3.5-turbo, qui sont les modèles clés derrière ChatGPT. On a constaté que les performances des modèles correspondaient aux niveaux de difficulté déterminés par le jugement humain. Bien qu'ils aient bien performé sur les scénarios faciles et moyens, ils ont eu du mal avec les plus difficiles.

L'unité de base de notre dataset est un tuple composé d'un but, de deux options, d'une liste de scénarios et d'un choix de vérité. Le choix peut être soit l'option un, soit l'option deux, ou soit l'un ou l'autre si les deux choix ont des résultats similaires. Par exemple, si les deux options n'auraient qu'un impact minimal sur l'atteinte de l'objectif, la bonne réponse serait "soit".

On a utilisé proScript comme point de départ pour construire le dataset. ProScript contient 6 400 scripts qui décrivent des actions dans la vie quotidienne, ce qui en fait une excellente source pour nos Objectifs. On a sélectionné aléatoirement 75 buts dans proScript et créé manuellement deux options faisables pour chacun. Un étudiant diplômé connaissant le Raisonnement autour des événements a annoté ces options, et un autre étudiant les a vérifiées. Cette méthode nous a aidés à rassembler 75 tuples d'objectifs et d'options. On a ensuite ajouté des scénarios et les choix de vérité à ces tuples par des méthodes d'écriture manuelle et de retour humain.

Une fois qu'on avait tous les scénarios, on devait définir et évaluer la difficulté de chacun. On a regardé combien d'étapes de raisonnement étaient nécessaires pour faire le bon choix. Cela nous a permis d'explorer des scénarios qui nécessitaient plusieurs étapes de raisonnement dans le cadre de notre tâche. On a classé la difficulté en quatre niveaux : facile, moyen, difficile, et N/A (pour les scénarios sans choix optimal clair). Par exemple, un scénario nécessitant juste une étape de raisonnement est noté comme facile, tandis qu'un nécessitant un raisonnement plus complexe obtient une note de difficulté plus élevée.

Annotation Manuelle des Scénarios

Les scénarios qu'on a créés manuellement sont des phrases courtes. Parfois, ils décrivent un événement, comme "pas de trajet de train disponible de la grande ville au désert." D'autres fois, ils décrivent l'état émotionnel d'une personne, comme "déteste les vols avec correspondance." On fournit des statistiques récapitulatives sur la génération manuelle des scénarios.

Génération avec Humain dans la Boucle

En créant les scénarios difficiles, on a réalisé que c'était difficile de trouver des exemples de haute qualité. Donc, on a utilisé une méthode de retour humain pour créer deux ensembles de scénarios difficiles : des phrases générées par la machine et des profils utilisateurs. On a suivi un processus de collecte d'exemples difficiles puis utilisé un modèle de langage pour générer des scénarios similaires. Ensuite, on a manuellement révisé les scénarios générés pour assurer leur validité.

Pour le premier type de scénario difficile, on a demandé à un modèle de langage de créer un scénario qui mène à un choix, puis utilisé ce scénario pour créer un nouveau qui y mènerait. Le deuxième type de défi impliquait des profils utilisateurs. On a donné au modèle des infos à inclure ou à éviter, pour créer un profil qui mènerait à une option étant préférable à une autre.

Résultats d'Expérience pour les Prédictions par Niveaux de Difficulté

Dans les 75 objectifs du dataset, on a réservé aléatoirement 10 objectifs pour des démonstrations et utilisé le reste pour l'évaluation. On a structuré la tâche de prédiction du meilleur choix comme une tâche d'apprentissage. On a fourni un objectif, deux options et un scénario au modèle de langage, en lui demandant d'identifier le meilleur choix.

Dans nos expériences, on a testé deux modèles, text-davinci-003 et gpt-3.5-turbo. On a structuré nos invites en deux formats : une invite simple et une invite basée sur une histoire. Les résultats montrent une nette division des performances basée sur la difficulté des scénarios. Bien que les modèles aient bien fonctionné sur les scénarios plus faciles, ils ont vraiment eu du mal avec les plus difficiles et les cas où les deux options pouvaient fonctionner.

Niveaux de Difficulté et Analyse Qualitative des Erreurs

On a classé les scénarios en niveaux faciles, moyens, et difficiles selon leur complexité de raisonnement. Par exemple, une situation simple où la réponse est évidente est plus facile, tandis qu'une qui nécessite plusieurs étapes de raisonnement est plus dure.

À travers notre analyse, on a identifié des cas où les modèles de langage ont fait des prédictions qui n'alignaient pas avec les bonnes réponses. Dans un cas, un modèle n'a pas vu qu'un vol pour une ville éloignée nécessitait probablement un vol avec correspondance, le poussant à choisir l'option moins optimale.

En résumé, cette recherche introduit une nouvelle tâche dans le raisonnement machine centrée sur la prise de décision dans les scripts. On a compilé un dataset qui aide à tester comment bien les modèles de langage peuvent imiter la prise de décision humaine. Les résultats montrent une forte corrélation entre les évaluations humaines de la difficulté et la performance des modèles. On espère que ce dataset pose les bases pour une enquête plus approfondie sur la manière dont les modèles de langage peuvent gérer la prise de décision quotidienne comme le font les humains.

Limites

Une limite claire de ce dataset est sa distribution. Comme on l'a construit à partir d'une source de script spécifique, la gamme de mots, de styles et de sujets est limitée. Cela pourrait signifier que s'il est utilisé dans des contextes différents, le dataset pourrait mal performer sans ajustements.

De plus, le dataset est relativement petit à cause de ressources limitées pour l'annotation. Cette taille peut introduire un biais, même si une autre personne a vérifié le travail. De tels biais peuvent affecter la performance des modèles si les modèles sont ajustés sur notre dataset et ensuite utilisés par des personnes de milieux variés.

On a aussi fait des suppositions qui simplifient trop les scénarios de la vie réelle. Par exemple, on a supposé que chaque objectif avait juste deux choix alors qu'en réalité, il pourrait y avoir de nombreuses options qui se chevauchent.

Enfin, on n'a pas effectué de techniques détaillées d'ingénierie d'invite à cause de contraintes de ressources. On a seulement expérimenté avec des formats d'invite basiques et une configuration fixe pour les modèles de langage, laissant la place à des recherches futures pour explorer des réglages d'invite plus variés.

Ce travail n'aurait pas été possible sans le soutien et les idées de collègues et le financement de diverses organisations. Les résultats de cette étude ouvrent des voies pour de futures améliorations sur la façon dont les machines peuvent comprendre et imiter la prise de décision humaine.

Plus d'auteurs

Articles similaires