Simple Science

La science de pointe expliquée simplement

# Informatique# Intelligence artificielle

iWISDM : Un Outil pour Tester le Suivi d'Instructions Machine

Voici iWISDM, un nouveau standard pour évaluer la compréhension des instructions par les machines avec des visuels et du langage.

― 8 min lire


iWISDM : Instructions deiWISDM : Instructions detest de machinemachines sur des tâches complexes.Un nouvel outil pour évaluer les
Table des matières

Être capable de suivre des instructions, c'est super important autant pour les gens que pour les machines. Les humains font ça bien, gérant plein de tâches chaque jour sans avoir à y penser. Par contre, apprendre aux machines à suivre des instructions pour des tâches complexes, c'est galère. Cet article parle d'un nouvel outil pour tester à quel point les machines peuvent suivre des instructions en utilisant des visuels et du langage. Cet outil s'appelle iWISDM.

Le défi de suivre des instructions

Chaque jour, les gens effectuent une multitude de tâches. Par exemple, se préparer le matin peut comprendre plein d'étapes, comme prendre une douche, se brosser les dents et faire le petit déjeuner. La plupart de ces tâches se font sans vraiment y penser ; c'est des parties de la routine quotidienne. Les machines, surtout l'intelligence artificielle (IA), ont du mal avec ces actions simples. Même des tâches qui semblent faciles, comme faire du café, nécessitent plusieurs étapes, comme moudre des grains, infuser le café et le verser dans une tasse.

Quand les tâches deviennent plus complexes, comme assembler des meubles ou utiliser des appareils ménagers, la difficulté augmente. Les gens gèrent généralement bien ces tâches, mais les machines ont souvent du mal.

L'essor des grands modèles de langage et multimodaux

Les Grands Modèles de Langage (LLMs) ont beaucoup progressé dans la compréhension du langage humain sur divers sujets. Ils peuvent tenir des conversations, donner des conseils et analyser des données. Les Modèles multimodaux (LMMs) émergent maintenant, capables de travailler avec différents types d'entrées, comme du texte et des images. Par exemple, des modèles comme Gemini-Ultra acceptent du texte, des images et de l'audio, et répondent avec un mélange de texte et d'images.

Malgré les avancées, de nombreux tests existants pour ces modèles se concentrent principalement sur des types d'entrées uniques comme le texte ou les images. Ça limite notre compréhension de leur capacité à intégrer différents types d'informations.

Présentation d'iWISDM

Pour combler cette lacune, on a créé l'outil iWISDM (instructed-Virtual VISual Decision Making). Cet environnement virtuel génère une large gamme de tâches qui mélangent visuels et langage. Avec iWISDM, on peut créer trois types de benchmarks qui testent la capacité des machines à suivre des instructions avec différentes complexités.

Nos découvertes montrent qu'en gros, iWISDM est un bon benchmark, mais il y a encore un gros fossé entre la façon dont les machines et les humains suivent les instructions.

Comprendre les tâches quotidiennes

Une journée typique implique de gérer une tonne de tâches. Par exemple, entre le réveil et le début du travail, une personne peut compléter 10 à 20 tâches sans même s'en rendre compte. Ces tâches sont simples mais nécessitent plusieurs étapes. Apprendre aux machines à gérer ces tâches est complexe. Même faire du café, c'est plusieurs étapes, de moudre les grains à verser la boisson.

Les tâches complexes, comme utiliser un appareil avec plusieurs réglages, sont encore plus difficiles à maîtriser pour les machines. La plupart des gens peuvent accomplir ces tâches sans souci, tandis que les machines galèrent.

Le problème avec les benchmarks existants

Les tests de benchmark actuels manquent souvent dans différents aspects :

  1. Beaucoup de tests multimodaux n'évaluent pas réellement comment les modèles combinent différentes entrées.
  2. Les ensembles de données pour le raisonnement visuel manquent souvent d'une manière de mesurer comment les machines intègrent le temps et les décisions séquentielles.
  3. Les environnements d'apprentissage utilisés pour entraîner les agents d'apprentissage par renforcement ne sont pas toujours adaptés pour tester les LMMs.
  4. Peu de benchmarks se concentrent sur la capacité d'un modèle à suivre des instructions pendant les tâches de prise de décision, ce qui est une mesure essentielle de fiabilité.
  5. Les nouveaux benchmarks, bien qu'ils couvrent des tâches cognitives, peuvent être difficiles à étendre, les rendant moins utiles pour l'étude des LMMs.

Ces lacunes rendent difficile l'évaluation de la capacité des modèles à suivre des instructions spécifiques, en particulier des tâches en plusieurs étapes.

La structure d'iWISDM

Pour traiter ces problèmes, iWISDM génère des tâches en plusieurs étapes basées sur le comportement naturel des gens, décomposant les tâches complexes en actions plus simples. Cet outil utilise des graphes pour représenter les tâches, permettant une création de tâches presque illimitée avec des difficultés variées.

Caractéristiques clés d'iWISDM

  1. Génération de tâches : iWISDM permet de créer un grand nombre de tâches en combinant logiquement des tâches plus simples.
  2. Instructions en langage naturel : Chaque tâche vient avec des instructions claires qui expliquent ce qui doit être fait.
  3. Flexibilité : Les utilisateurs peuvent créer des tâches qui imitent des scénarios réels, ce qui en fait un outil polyvalent.
  4. Évaluation ciblée : Les benchmarks créés dans iWISDM peuvent évaluer à quel point les modèles suivent les instructions.

Les composants d'iWISDM

Construction de tâches

Dans iWISDM, les tâches sont construites en utilisant un processus structuré impliquant un graphe de tâches. Chaque tâche se compose de nœuds et d'arêtes :

  • Nœuds représentent des actions ou des décisions.
  • Arêtes connectent les nœuds pour montrer la relation.

Cette approche structurée permet aux utilisateurs de construire des tâches complexes à partir de composants plus simples.

Initialisation des nœuds

Chaque nœud reçoit des valeurs spécifiques qui définissent comment les tâches fonctionnent. Lors de l'initialisation d'une tâche, une approche rétrograde est utilisée pour s'assurer que le flux d'information est logique et cohérent tout au long de la tâche.

Instanciation des essais de tâches

Quand une tâche est prête, iWISDM crée une série de frames qui représentent l'information visuelle à chaque étape. Chaque tâche est présentée avec :

  • Une série d'images montrant la progression de la tâche.
  • Des instructions décrivant ce que l'utilisateur doit faire.
  • Une séquence d'actions attendues.

Distractions

Pour rendre les tâches plus difficiles, des distractions peuvent être ajoutées. Ce sont des éléments non pertinents qui obligent le modèle à se concentrer sur ce qui est essentiel pour éviter la confusion.

Évaluer les modèles avec iWISDM

On a testé plusieurs LMMs avancés en utilisant les benchmarks d'iWISDM. Ça incluait des modèles comme GPT-4V et d'autres, en comparant leurs performances avec celles des participants humains sur des tâches en plusieurs étapes de complexité croissante.

Résultats

Nos évaluations ont révélé des écarts de performance significatifs entre les modèles et les participants humains. Les sujets humains ont obtenu des scores remarquablement élevés sur toutes les tâches, tandis que les modèles ont eu du mal, surtout avec des tâches impliquant plusieurs images ou étapes.

Analyse de la performance des modèles

On a examiné de près comment différents modèles se sont comportés sur des tâches avec diverses caractéristiques. Certains modèles ont très mal réussi sur des tâches nécessitant de suivre où les objets étaient situés ou d'identifier correctement les catégories d'objets.

Directions futures

iWISDM a le potentiel d'être un benchmark essentiel dans de nombreux domaines :

  • Évaluation des modèles multimodaux : Il peut combler les lacunes laissées par les tests précédents et fournir des évaluations plus complètes.
  • Apprentissage continu : Les futurs cadres pourraient utiliser iWISDM pour évaluer à quel point les modèles s'adaptent à de nouvelles tâches au fil du temps.
  • Expansion de la complexité des tâches : Les chercheurs pourraient ajouter de nouvelles caractéristiques et tâches basées sur la structure d'iWISDM pour explorer davantage les capacités des modèles.

Aborder les limitations

Certaines limitations existantes pourraient être résolues en introduisant de nouveaux opérateurs et ensembles de données permettant des évaluations plus larges et la réduction des fuites de données potentielles.

Conclusion

iWISDM offre une ressource précieuse pour évaluer à quel point les machines peuvent suivre des instructions complexes. En créant un espace de tâches diversifié, il ouvre des voies pour de futures recherches, aidant à réduire le fossé entre les capacités humaines et celles des machines en matière de compréhension et d'exécution des instructions. Les insights obtenus grâce à cet outil peuvent informer les développements futurs en IA, permettant la création de modèles capables de mieux comprendre et remplir des tâches similaires à celles des humains.

Source originale

Titre: IWISDM: Assessing instruction following in multimodal models at scale

Résumé: The ability to perform complex tasks from detailed instructions is a key to many remarkable achievements of our species. As humans, we are not only capable of performing a wide variety of tasks but also very complex ones that may entail hundreds or thousands of steps to complete. Large language models and their more recent multimodal counterparts that integrate textual and visual inputs have achieved unprecedented success in performing complex tasks. Yet, most existing benchmarks are largely confined to single-modality inputs (either text or vision), narrowing the scope of multimodal assessments, particularly for instruction-following in multimodal contexts. To bridge this gap, we introduce the instructed-Virtual VISual Decision Making (iWISDM) environment engineered to generate a limitless array of vision-language tasks of varying complexity. Using iWISDM, we compiled three distinct benchmarks of instruction following visual tasks across varying complexity levels and evaluated several newly developed multimodal models on these benchmarks. Our findings establish iWISDM as a robust benchmark for assessing the instructional adherence of both existing and emergent multimodal models and highlight a large gap between these models' ability to precisely follow instructions with that of humans.The code of iWISDM is available on GitHub at https://github.com/BashivanLab/iWISDM.

Auteurs: Xiaoxuan Lei, Lucas Gomez, Hao Yuan Bai, Pouya Bashivan

Dernière mise à jour: 2024-07-21 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2406.14343

Source PDF: https://arxiv.org/pdf/2406.14343

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires