Avancées dans l'assistance multimodale aux activités
La recherche explore l'efficacité des modèles multimodaux pour aider aux activités multi-étapes.
― 8 min lire
Table des matières
- Le Rôle des Modèles Multimodaux
- Méthodologie
- Configuration de l’Expérience
- Participants et Activités
- Métriques d’Évaluation
- Résultats
- Performance des Modèles
- Difficultés de "Grounding"
- L'Importance du Contexte
- Comparaison des Performances Hors Ligne et En Ligne
- Modes d'Erreur
- Implications pour Future Recherche
- Conclusion
- Source originale
- Liens de référence
Dans nos vies de tous les jours, on fait souvent des activités en plusieurs étapes comme cuisiner, monter des meubles ou organiser des tâches. Parfois, on a besoin d’aide pour ces activités, et la technologie peut vraiment aider. Les récentes avancées dans les Modèles multimodaux utilisant des grands modèles de langage (LLMs) peuvent aider à créer des assistants qui utilisent à la fois des informations visuelles et textuelles pour guider les utilisateurs. Cette recherche se penche sur l’efficacité de ces modèles pour aider les utilisateurs à compléter des activités en plusieurs étapes, surtout avec une assistance basée sur la vision.
Le Rôle des Modèles Multimodaux
Les modèles multimodaux sont conçus pour combiner différents types d’informations, comme le texte et les images. Dans le contexte de l’assistance aux activités, ces modèles cherchent à comprendre les indices visuels à partir de vidéos et à fournir des conseils pertinents aux utilisateurs. On se concentre sur deux capacités principales de ces modèles :
- Comprendre l’historique visuel : Ça implique de reconnaître ce qui s’est passé en se basant sur le flux vidéo de la caméra d’un utilisateur.
- Prédire les actions futures : Ça signifie donner les prochaines étapes adaptées à ce qui a été observé.
Pour une assistance efficace, ces modèles doivent garder l’utilisateur dans la boucle. Ça veut dire qu’ils devraient adapter leurs suggestions en fonction des actions de l’utilisateur et des changements dans l’activité.
Méthodologie
Pour évaluer à quel point les modèles multimodaux fonctionnent dans des scénarios réels, on regarde deux approches populaires :
Modèles Socratiques : Ces modèles transforment les informations visuelles en texte en utilisant des techniques d’apprentissage machine. Ils s’appuient beaucoup sur le traitement du langage pour comprendre et prédire les actions en se basant sur un récit tiré de l’entrée visuelle.
Modèles de Langage Conditionnés par la Vision (VCLMs) : Au lieu de se fier uniquement au texte, ces modèles intègrent directement les indices visuels. Ils convertissent les images en données continues qui sont ensuite traitées avec les informations textuelles.
Pour évaluer ces modèles, on a mené des expériences où les participants portaient des caméras et réalisaient des activités de cuisine. L’objectif était de voir quel modèle offrait la meilleure assistance dans des conditions en temps réel.
Configuration de l’Expérience
Participants et Activités
On a recruté 18 participants pour réaliser trois tâches de cuisine différentes : préparer un latte espresso, faire une salade caprese et monter un sandwich BLT. Chaque participant a effectué deux de ces tâches tout en recevant l’assistance de l’un des deux types de modèles-soit le modèle Socratique soit le modèle VCLM.
Les activités étaient structurées en deux phases :
Phase de Progrès Partiel : Les participants ont commencé l’activité en complétant certaines étapes dans l’ordre qu’ils voulaient. Ça leur a permis de se familiariser avec les tâches.
Phase d’Évaluation de l’Assistance : Pendant cette phase, les modèles ont guidé les participants à travers les étapes restantes, en répondant aux demandes d'aide.
Métriques d’Évaluation
À la fin de chaque activité, les participants et les évaluateurs ont jugé si le plat fini répondait aux attentes. L’évaluation mesurait :
- Taux de réussite de l’achèvement de l’activité : Le participant a-t-il réussi à terminer la tâche ?
- Exactitude des actions recommandées : Les étapes fournies par l’assistant étaient-elles correctes et pertinentes ?
Résultats
Performance des Modèles
Pour les trois activités, le modèle Socratique a surpassé le modèle VCLM en termes de taux de réussite des activités et de qualité de ses recommandations. Ça suggère que l’approche socratique est particulièrement efficace pour des tâches qui impliquent de suivre le progrès sur une longue durée d’actions.
Difficultés de "Grounding"
Une grande découverte de nos expériences a été la difficulté rencontrée par les deux modèles en matière de "grounding". Le grounding fait référence à la capacité du modèle à reconnaître quelles actions ont déjà été complétées. Des erreurs de grounding ont conduit à des suggestions redondantes, où l’assistant recommandait des étapes que le participant avait déjà réalisées.
Par exemple, dans l’activité latte, les participants recevaient souvent des conseils pour effectuer des actions qu’ils avaient déjà faites, comme faire mousser le lait après l’avoir déjà versé. Ça met en lumière un défi majeur pour les conceptions utilisant des modèles de langage visuels.
L'Importance du Contexte
Le contexte dans lequel les actions sont effectuées est crucial pour le succès de ces modèles. Quand les participants sautaient des étapes suggérées par les assistants, c’était souvent dû à des recommandations hors-sujet ou à des actions qui ne correspondaient pas à la situation. Par exemple, suggérer de moudre du café pour un latte alors que l’utilisateur utilisait une machine automatique a causé de la confusion.
Comparaison des Performances Hors Ligne et En Ligne
Un aspect notable de cette recherche était de comparer la performance des modèles à la fois dans des évaluations hors ligne et dans des environnements réels. Les métriques utilisées dans les évaluations précédentes, comme la précision dans la prédiction des actions à partir des données vidéo, ne reflétaient pas avec précision les capacités observées lorsque ces modèles étaient utilisés en direct.
Les modèles ont montré des scores plus élevés lorsqu’ils étaient testés avec des vidéos préenregistrées que dans l’assistance en temps réel. En particulier, le modèle Socratique a montré des écarts considérables, car le succès des actions prédites hors ligne ne s'est pas traduit par une performance réussie dans le monde réel.
Modes d'Erreur
Grâce à l’analyse des erreurs commises par les modèles, on a identifié trois principaux types de modes de défaillance :
Erreurs de Grounding : Un nombre significatif d’erreurs était dû à l'incapacité du modèle à reconnaître les actions déjà complétées. Ça a entraîné des recommandations redondantes et hors sujet.
Erreurs de Planification : Ces erreurs se produisaient lorsque les modèles proposaient des étapes qui étaient dans le désordre ou qui ne faisaient pas partie de la tâche actuelle. Par exemple, ajouter des ingrédients avant qu'ils ne soient préparés ou demander à l'utilisateur d'effectuer des étapes inutiles.
Échec à Détecter l'Achèvement : Les deux modèles avaient du mal à déterminer quand une activité était correctement terminée, ce qui a conduit à des suggestions continues même après que la tâche ait été finie.
Implications pour Future Recherche
La recherche met en lumière les défis pratiques auxquels sont confrontés les modèles multimodaux lorsqu’ils sont employés dans des scénarios réels. Les erreurs de grounding ont été identifiées comme la source de défaillance la plus significative, indiquant le besoin d’améliorations dans la manière dont ces modèles suivent les actions dans le contexte d’activités en cours.
Nouvelles Directions : Les recherches futures pourraient explorer des moyens d’améliorer les capacités de grounding, comme :
- Des systèmes de reconnaissance visuelle améliorés qui peuvent suivre plus précisément les actions des participants.
- Des techniques de prédiction plus avancées qui peuvent tenir compte des variations dans le comportement des utilisateurs.
- Développer des stratégies pour mieux intégrer les retours des utilisateurs en temps réel, permettant aux modèles d’adapter leurs recommandations.
Conclusion
Dans l’ensemble, cette recherche souligne le potentiel des modèles multimodaux à aider dans les activités quotidiennes grâce à une assistance basée sur la vision. Bien que l’approche socratique ait montré des promesses, il reste encore beaucoup de travail à faire pour peaufiner ces systèmes pour une application plus efficace dans le monde réel.
Avec les avancées dans la compréhension des besoins des utilisateurs et l’amélioration de la capacité des modèles à traiter et à conserver le contexte, l’avenir des technologies d’assistance aux activités s’annonce prometteur. En s’attaquant aux limitations actuelles, on peut ouvrir la voie à des assistants qui améliorent réellement l’expérience utilisateur dans les tâches quotidiennes.
Titre: User-in-the-loop Evaluation of Multimodal LLMs for Activity Assistance
Résumé: Our research investigates the capability of modern multimodal reasoning models, powered by Large Language Models (LLMs), to facilitate vision-powered assistants for multi-step daily activities. Such assistants must be able to 1) encode relevant visual history from the assistant's sensors, e.g., camera, 2) forecast future actions for accomplishing the activity, and 3) replan based on the user in the loop. To evaluate the first two capabilities, grounding visual history and forecasting in short and long horizons, we conduct benchmarking of two prominent classes of multimodal LLM approaches -- Socratic Models and Vision Conditioned Language Models (VCLMs) on video-based action anticipation tasks using offline datasets. These offline benchmarks, however, do not allow us to close the loop with the user, which is essential to evaluate the replanning capabilities and measure successful activity completion in assistive scenarios. To that end, we conduct a first-of-its-kind user study, with 18 participants performing 3 different multi-step cooking activities while wearing an egocentric observation device called Aria and following assistance from multimodal LLMs. We find that the Socratic approach outperforms VCLMs in both offline and online settings. We further highlight how grounding long visual history, common in activity assistance, remains challenging in current models, especially for VCLMs, and demonstrate that offline metrics do not indicate online performance.
Auteurs: Mrinal Verghese, Brian Chen, Hamid Eghbalzadeh, Tushar Nagarajan, Ruta Desai
Dernière mise à jour: 2024-08-11 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2408.03160
Source PDF: https://arxiv.org/pdf/2408.03160
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://media.icml.cc/Conferences/CVPR2023/cvpr2023-author_kit-v1_1-1.zip
- https://github.com/wacv-pcs/WACV-2023-Author-Kit
- https://github.com/MCG-NKU/CVPR_Template
- https://ctan.org/pkg/axessibility?lang=en
- https://www.pamitc.org/documents/mermin.pdf
- https://www.computer.org/about/contact
- https://stackoverflow.com/questions/3175105/inserting-code-in-this-latex-document-with-indentation