Faire progresser les systèmes d'interaction multimodaux
Améliorer la façon dont les machines aident les utilisateurs grâce à de meilleures interactions et mesures de réponse.
Dan Bohus, Sean Andrist, Yuwei Bao, Eric Horvitz, Ann Paradiso
― 6 min lire
Table des matières
L'interaction multimodale, c'est comment les gens et les machines peuvent communiquer de plusieurs manières, comme avec des mots parlés, des indices visuels et des gestes. L'idée, c'est de créer un système qui aide les utilisateurs dans leurs tâches en comprenant leurs besoins et en répondant de manière appropriée. Récemment, les chercheurs se sont concentrés sur la création de meilleures façons de mesurer l'efficacité de ces systèmes, surtout dans des situations réelles où les gens collaborent avec des machines.
Le problème avec les tests existants
Beaucoup de tests utilisés pour évaluer ces systèmes ne reflètent pas vraiment comment les gens interagissent naturellement. Ils reposent souvent sur des ensembles de données créés artificiellement, ce qui ne capture pas la dynamique et l'imprévisibilité des conversations réelles. Par exemple, les benchmarks existants pourraient utiliser des Questions générées après avoir observé quelqu'un utiliser un système, mais ces questions ne ressemblent peut-être pas à celles que les utilisateurs poseraient réellement pendant une tâche.
Pour améliorer ça, les chercheurs proposent de collecter des données d'une manière plus interactive lors de tâches réelles. En faisant ça, ils peuvent créer des benchmarks qui reflètent mieux les besoins des utilisateurs et les questions qui surgissent en temps réel.
Systèmes interactifs
Le rôle desUtiliser un système interactif, c'est un moyen de rassembler de meilleures données. Dans cette approche, le système génère des questions en fonction de la façon dont les utilisateurs interagissent avec lui. Par exemple, quand quelqu'un utilise un système d'Assistance, il pourrait poser des questions basées sur son expérience immédiate au lieu de questions préfabriquées. Cette méthode permet de collecter des questions uniques et variées qui sont plus pertinentes pour les tâches de la vie réelle.
Cette nouvelle approche montre que les questions que les utilisateurs posent peuvent être différentes de ce sur quoi se concentrent les benchmarks actuels. Les benchmarks traditionnels ne capturent peut-être pas les questions qui émergent de la collaboration en cours. En suivant les interactions des utilisateurs, les chercheurs peuvent identifier de nouveaux défis et développer des benchmarks qui reflètent vraiment les compétences nécessaires à une collaboration dans le monde réel.
L'importance des questions dans l'interaction
D'après les premières collectes de données, les chercheurs ont remarqué que toutes les questions ne créent pas une obligation pour le système de répondre. Les utilisateurs parlent souvent tout seul ou réfléchissent à voix haute pendant qu'ils effectuent des tâches, ce qui ne nécessite pas forcément une réponse du système. Par exemple, un utilisateur pourrait dire : “Ça ne rentre pas,” ce qui n'est peut-être pas une vraie question mais signale qu'il a besoin d'aide.
Savoir quand répondre aux propos des utilisateurs est crucial pour l'efficacité d'un système d'assistance. Les chercheurs ont identifié différents types de commentaires d'utilisateurs, y compris des demandes d'aide, des confirmations, des pensées intérieures et des transitions vers l'étape suivante. Faire la différence entre ces types aide le système à savoir quand s'engager et comment assister sans submerger l'utilisateur.
Défis uniques dans l'assistance située
Quand les utilisateurs interagissent avec le système, leurs questions sont souvent spécifiques à la tâche en cours. La plupart des questions concernent des problèmes liés à la compréhension de ce que le système dit, l'état des objets ou les actions à entreprendre ensuite. Cela diffère des questions plus générales qu'on trouve dans les benchmarks existants.
Par exemple, les utilisateurs pourraient demander : “C'est quoi déjà le boîtier de base ?” ou “C'est censé être aussi aiguisé ?” Ces questions sont étroitement liées au contexte physique et sont souvent remplies de pronoms et de références spécifiques à la tâche immédiate. Ce ancrage Contextuel des questions est important pour la conception des systèmes d'assistance, car il souligne le besoin pour le système de comprendre non seulement les mots prononcés mais aussi la situation environnante.
La valeur de bonnes réponses
De bonnes réponses sont tout aussi importantes que de bonnes questions. Les utilisateurs bénéficient de réponses claires et concises, au lieu de longues et génériques. Quand une machine répond aux questions des utilisateurs, elle devrait se concentrer sur ce qui a été partagé précédemment entre l'utilisateur et le système, permettant une connexion plus profonde et une meilleure compréhension.
De plus, les systèmes utiles doivent aller au-delà de simplement répondre aux questions. Ils devraient surveiller la situation et intervenir de manière proactive quand ils perçoivent de la confusion, de la frustration ou un besoin de clarification. Ce type d'assistance favorise une interaction plus fluide et efficace.
Construire de meilleurs benchmarks
Pour créer des benchmarks efficaces qui évaluent le bon fonctionnement de ces systèmes, les chercheurs doivent considérer divers aspects. Les benchmarks devraient non seulement se concentrer sur la qualité des questions mais aussi sur la capacité du système à produire de bonnes réponses. Ils devraient évaluer à quel point un système peut prédire quand un utilisateur pourrait avoir besoin d'aide.
En plus, les chercheurs explorent des benchmarks dynamiques qui peuvent évaluer comment un système gère l'information au fil du temps. Cela inclut la compréhension des émotions et des états cognitifs des utilisateurs en fonction de leurs comportements, comme le langage corporel ou le ton de voix. Cette attention aux détails peut améliorer significativement la qualité des interactions.
Directions futures
En regardant vers l'avenir, il y a des opportunités excitantes pour développer de meilleures façons d'évaluer ces systèmes. Les chercheurs prévoient de mener des études plus larges en utilisant des scénarios du monde réel pour voir comment les gens interagissent avec des machines dans leur vie quotidienne. Cette approche pourrait révéler de nouveaux défis qui surgissent dans des environnements naturels, menant à des benchmarks encore plus novateurs.
En résumé, l'objectif est de créer des systèmes d'interaction multimodale qui peuvent comprendre et répondre efficacement dans des situations réelles. En se concentrant sur les interactions utilisateurs, les questions et l'engagement proactif, les chercheurs peuvent ouvrir la voie à des technologies d'assistance plus utiles et adaptables. Construire de meilleurs benchmarks aidera finalement les développeurs à améliorer ces systèmes pour mieux servir les utilisateurs dans leurs tâches.
Titre: "Is This It?": Towards Ecologically Valid Benchmarks for Situated Collaboration
Résumé: We report initial work towards constructing ecologically valid benchmarks to assess the capabilities of large multimodal models for engaging in situated collaboration. In contrast to existing benchmarks, in which question-answer pairs are generated post hoc over preexisting or synthetic datasets via templates, human annotators, or large language models (LLMs), we propose and investigate an interactive system-driven approach, where the questions are generated by users in context, during their interactions with an end-to-end situated AI system. We illustrate how the questions that arise are different in form and content from questions typically found in existing embodied question answering (EQA) benchmarks and discuss new real-world challenge problems brought to the fore.
Auteurs: Dan Bohus, Sean Andrist, Yuwei Bao, Eric Horvitz, Ann Paradiso
Dernière mise à jour: 2024-08-30 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2409.10525
Source PDF: https://arxiv.org/pdf/2409.10525
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.