Simple Science

La science de pointe expliquée simplement

# Informatique# Interaction homme-machine# Intelligence artificielle

Rendre l'interaction avec l'info fluide

Connecter les utilisateurs à des infos importantes dans des situations du quotidien grâce à des systèmes innovants.

― 10 min lire


Simplifier l'interactionSimplifier l'interactiondes utilisateurs avecl'infointeragissent avec l'information.façon dont les utilisateursDes systèmes innovants améliorent la
Table des matières

L'idée de la "Réalité Augmentée Pervasive" vise à permettre aux utilisateurs d'accéder facilement à différents types d'infos à tout moment. Cependant, dans la vie de tous les jours, les gens sont souvent occupés physiquement ou mentalement, ce qui rend difficile l'utilisation efficace de ces infos. Pour aider les utilisateurs à interagir de manière fluide avec l'information, les futurs systèmes doivent offrir un accès rapide et intelligent aux actions en fonction de leur situation actuelle.

Pour mieux comprendre quels types d'actions les utilisateurs pourraient entreprendre, nous avons réalisé une étude de journal. Les participants à cette étude ont partagé des médias liés à leurs actions prévues, comme des photos ou des enregistrements vocaux, ainsi que ce qu'ils voulaient faire avec ces médias et le contexte de la situation. À partir de ces données, nous avons créé un aperçu complet des actions possibles que les utilisateurs pourraient entreprendre lorsqu'ils sont confrontés à différents types d'infos.

Nous avons développé un système qui utilise de grands modèles de langage (LLM) pour traiter les entrées sensorielles et prédire les actions à suivre en fonction des infos fournies. En utilisant les données empiriques collectées lors de l'étude de journal, nous avons testé différentes méthodes LLM (comme la Classification d'intention, l'apprentissage contextuel et le fine-tuning) pour voir laquelle était la plus efficace pour nos besoins. Nous avons aussi créé un prototype pour recueillir des retours des utilisateurs sur la façon dont ils réagissaient à nos prédictions et aux erreurs commises par le système.

Introduction à l’Information Multimodale dans la Vie Quotidienne

La poussée pour une "Réalité Augmentée Pervasive (AR)" envisage un accès facile à des informations comme du texte, des images et des sons, quand et où les gens le souhaitent. Pourtant, dans de nombreuses situations, les utilisateurs sont engagés dans d'autres tâches, rendant difficiles les interactions typiques, comme les gestes et la parole. Cela complique la tâche pour les utilisateurs d'agir sur les infos qu'ils voient ou entendent dans leur environnement.

Par exemple, un conducteur qui remarque une affiche de film pourrait avoir du mal à trouver le nom du film sur l'affiche tout en se concentrant sur la conduite. Cette situation montre le besoin pour les futurs systèmes de minimiser l'effort nécessaire pour interagir avec l'information.

En général, interagir avec l'information se déroule en deux étapes :

  1. Récupérer l'Information : Cela implique de sélectionner ce que tu veux parmi les infos disponibles (comme lire un panneau publicitaire).
  2. Agir : Après avoir trouvé ce dont tu as besoin, l'étape suivante est d'agir (comme chercher plus de détails en ligne).

Nous pensons que les futurs systèmes devraient pouvoir traiter les entrées sensorielles simultanément, un peu comme les gens utilisent leurs sens, et devraient suggérer des actions basées sur les infos trouvées. Cependant, pour y parvenir, nous devons relever deux défis principaux :

  1. Les systèmes actuels ont du mal à suggérer des actions sur la base de données combinées provenant de différents types d'infos.
  2. Il n’y a pas assez de connaissances sur ce que les utilisateurs souhaitent faire avec les infos qu'ils rencontrent dans des situations réelles.

Le second point est important pour concevoir ces systèmes afin que les actions suggérées soient pratiques et puissent être exécutées efficacement. Des études antérieures se sont penchées sur les besoins en information des utilisateurs mobiles, mais n'ont pas suffisamment exploré les actions qu'ils entreprennent lorsqu'ils interagissent avec les infos autour d'eux.

Pour combler cette lacune, nous avons mené une étude suivie d'une étude de journal qui nous a permis de recueillir des données sur les actions que les gens voulaient entreprendre face à différents types d'infos. Au lieu de simplement revenir sur des données déjà stockées sur leurs téléphones, nous avons incité les participants à enregistrer de nouvelles données immédiatement, comme ils le feraient dans une vraie expérience AR.

Dans cette étude, les participants ont collecté et documenté des infos sensorielles variées-comme des images, des sons et des vidéos-sur lesquelles ils avaient l'intention d'agir. Ces données ont formé la base de notre analyse.

Construire un Espace d'Actions à Partir de l'Interaction Réelle des Utilisateurs

Après avoir recueilli des données de la part des participants sur les actions qu'ils souhaitaient entreprendre, nous avons analysé leurs réponses pour créer un espace de design d'actions à suivre qui pourrait s'appliquer à différents types d'infos.

Les participants ont participé à un atelier où ils ont partagé des exemples de quand et comment ils utilisaient des informations multimédia. Les exemples ont été utilisés pour inspirer et guider l'étude de journal des participants. Nous avons recueilli leurs expériences et regroupé leurs actions prévues en catégories spécifiques.

À travers ce processus, nous avons identifié deux types principaux d'actions :

  1. Actions Générales : Catégories larges de ce que les utilisateurs veulent typiquement faire, comme partager des infos ou les sauvegarder pour plus tard.
  2. Actions Spécifiques : Actions plus détaillées qui relèvent des catégories générales.

Par exemple, sous la catégorie générale du partage, les actions spécifiques pourraient inclure envoyer un message texte ou publier sur les réseaux sociaux.

En analysant les données, nous avons remarqué que beaucoup d'utilisateurs souhaitaient entreprendre plusieurs actions en rencontrant une info. Par exemple, un participant pourrait prendre une photo d'un produit, décider de la partager avec un ami, puis la sauvegarder pour une utilisation ultérieure.

Les insights de l'étude de journal nous ont aidés à créer une approche structurée pour prédire les actions à suivre en fonction des Informations sensorielles reçues.

Notre Méthode pour Prédire les Actions

Nous avons développé un système qui traite les informations sensorielles entrantes et prédit les prochaines actions de l'utilisateur en fonction de nos conclusions de l'espace de design. Le système suit trois étapes principales :

  1. Conversion des Données Sensorielles : Il transforme les données brutes d'images et de sons en texte structuré en utilisant des technologies existantes qui peuvent analyser et décrire des éléments visuels et reconnaître la parole.
  2. Raisonnement avec les Données : Le système utilise une méthode de prompting Chain-of-Thought (CoT), qui aide le modèle à raisonner à travers les informations avant de faire des prédictions.
  3. Prédiction des Actions : Enfin, le système prédit quelles actions l'utilisateur pourrait entreprendre sur la base du texte structuré et du raisonnement effectué plus tôt.

Pour les informations visuelles, le système identifie les éléments dans les photos ou vidéos et décrit ce qu'ils représentent. Il reconnaît aussi tout texte qui pourrait être présent. Pour les informations audio, le système peut classifier les sons et transcrire la parole en texte.

En utilisant des données contextuelles-comme où se trouve l'utilisateur ou ce qu'il faisait-notre système peut améliorer ses prédictions. Les infos contextuelles aident à comprendre comment l'utilisateur pourrait vouloir interagir avec les infos qu'il rencontre.

Évaluation de Notre Système

Pour découvrir à quel point notre approche fonctionne, nous avons testé diverses techniques LLM. Les options incluaient des classificateurs d'intention traditionnels, le fine-tuning de modèles existants et des méthodes d'apprentissage contextuel. Chaque méthode a ses avantages et inconvénients, et nous avons cherché laquelle fournirait les meilleurs résultats pour nos prédictions.

Classificateur d'Intention

Cette méthode classe les actions sur la base de modèles entraînés mais nécessite souvent des ensembles de données plus petits. Pour notre but, nous avons affiné un modèle pré-entraîné pour répondre à nos besoins spécifiques, nous permettant de catégoriser les actions efficacement en fonction des entrées des utilisateurs.

Apprentissage Contextuel

Cette méthode fournit quelques exemples pour que le modèle puisse apprendre sans avoir à ajuster radicalement les paramètres internes. Cette flexibilité peut faciliter l'adaptation du modèle à de nouvelles tâches rapidement.

Fine-Tuning

Le fine-tuning consiste à ajuster les paramètres du modèle pour mieux correspondre à des tâches spécifiques. Cette méthode peut améliorer les performances mais nécessite une quantité plus importante de données d'entraînement pour réussir.

Grâce à nos évaluations, nous avons constaté que l'apprentissage contextuel avec des prompts CoT a donné les meilleurs résultats, atteignant une haute précision lors de la prédiction des actions utilisateurs. Cela a montré que la combinaison d'un raisonnement clair et d'exemples solides pouvait donner de meilleures performances.

Retour des Utilisateurs sur le Prototype

Une fois que nous avions un système fonctionnel, nous avons créé une application prototype pour recueillir les retours des utilisateurs. Les participants ont été invités à interagir avec le prototype dans un environnement contrôlé similaire à des lieux sociaux courants, comme des cafés. Ils ont été invités à accomplir plusieurs tâches en utilisant le prototype tout en exprimant leurs pensées à voix haute.

Les participants ont apprécié utiliser le système et l'ont trouvé facile à naviguer. Ils ont apprécié le potentiel de réduction de l'effort nécessaire pour accomplir des tâches et ont souligné comment cela pourrait changer la manière dont ils interagissent avec les futures interfaces AR.

Cependant, le système ne prédisait pas toujours les actions prévues correctement. Les utilisateurs utilisaient souvent l'option de voir plus d'actions disponibles quand les prédictions étaient erronées. Certains utilisateurs se sentaient accablés par le nombre d'options présentées, suggérant que simplifier les choix ou catégoriser les actions pourrait aider à améliorer l'expérience utilisateur.

Les participants ont également fourni des idées sur comment améliorer la formulation des prompts d'actions pour les rendre plus claires. Beaucoup pensaient que des exemples montrant le résultat de chaque action pourraient aider à clarifier ce qu'ils pouvaient attendre du système.

Réflexion sur Nos Conclusions

Au cœur de notre étude se trouvait l'exploration des actions que les gens entreprennent quand ils rencontrent des infos dans leur vie quotidienne. L'étude de journal nous a permis de capturer des moments authentiques où des actions étaient déclenchées par des interactions réelles.

Notre espace de design incluait sept catégories générales d'actions, chacune décomposée en actions spécifiques. En synthétisant ces informations, nous avons pu créer une approche structurée pour prédire comment les utilisateurs pourraient interagir avec l'information à l'avenir.

À mesure que la technologie continue d'évoluer, les façons dont les gens s'engagent avec l'information présentée à travers l'AR et d'autres plateformes évolueront aussi. Garder l'approche flexible et réactive aux retours des utilisateurs garantira que notre système reste pertinent à mesure que de nouvelles technologies sont développées.

Nous croyons que nos conclusions peuvent influencer significativement la conception des futurs systèmes interactifs. Nous espérons continuer à affiner nos méthodes à mesure que nous obtenons plus d'insights sur les interactions des utilisateurs avec l'information multimodale.

Source originale

Titre: OmniActions: Predicting Digital Actions in Response to Real-World Multimodal Sensory Inputs with LLMs

Résumé: The progression to "Pervasive Augmented Reality" envisions easy access to multimodal information continuously. However, in many everyday scenarios, users are occupied physically, cognitively or socially. This may increase the friction to act upon the multimodal information that users encounter in the world. To reduce such friction, future interactive interfaces should intelligently provide quick access to digital actions based on users' context. To explore the range of possible digital actions, we conducted a diary study that required participants to capture and share the media that they intended to perform actions on (e.g., images or audio), along with their desired actions and other contextual information. Using this data, we generated a holistic design space of digital follow-up actions that could be performed in response to different types of multimodal sensory inputs. We then designed OmniActions, a pipeline powered by large language models (LLMs) that processes multimodal sensory inputs and predicts follow-up actions on the target information grounded in the derived design space. Using the empirical data collected in the diary study, we performed quantitative evaluations on three variations of LLM techniques (intent classification, in-context learning and finetuning) and identified the most effective technique for our task. Additionally, as an instantiation of the pipeline, we developed an interactive prototype and reported preliminary user feedback about how people perceive and react to the action predictions and its errors.

Auteurs: Jiahao Nick Li, Yan Xu, Tovi Grossman, Stephanie Santosa, Michelle Li

Dernière mise à jour: 2024-05-06 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2405.03901

Source PDF: https://arxiv.org/pdf/2405.03901

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires