Améliorer la reconnaissance vocale des robots pour mieux collaborer
Un nouveau modèle aide les robots à suivre des instructions humaines floues plus efficacement.
― 7 min lire
Table des matières
Beaucoup de robots sont conçus pour travailler avec des gens, en prenant des instructions par la parole. Mais comprendre le discours humain peut être difficile pour les robots à cause du bruit de fond, des accents ou des prononciations incorrectes. Dans la vie de tous les jours, quand les humains entendent des instructions floues, ils se basent sur le contexte et leur expérience pour comprendre ce qui est dit. Cette idée s'appelle le "Traitement descendant". On a développé un modèle intelligent appelé SIFToM, qui essaie d'aider les robots à mieux suivre les instructions humaines, même quand le discours est flou.
Importance de parler avec des robots
La communication est essentielle pour le travail en équipe, et les humains commencent à utiliser la langue parlée dès leur jeune âge. Les gens ont souvent besoin de demander de l'aide ou de donner des instructions, surtout quand ils travaillent ensemble. Par exemple, pendant le dîner, quelqu'un pourrait dire : "Peux-tu me passer le sel et le poivre ?" pour obtenir des condiments hors de portée. Donc, pour que les robots soient utiles à la maison ou au travail, ils doivent comprendre correctement les instructions données par les humains.
Imagine un cas où une personne demande à un robot une tomate en préparant une salade. Si le bruit de fond perturbe le discours, un système de reconnaissance vocale classique pourrait confondre "tomate" avec "pomme de terre". En revanche, un robot utilisant le modèle SIFToM peut comprendre que la personne est probablement en train de faire une salade et a besoin d'une tomate.
Le besoin d'une meilleure reconnaissance vocale chez les robots
Il y a un intérêt croissant à améliorer la façon dont les robots comprennent la parole et suivent les instructions. Beaucoup de systèmes actuels partent du principe que les robots peuvent reconnaître parfaitement la parole grâce à des méthodes de reconnaissance automatique de la parole (ASR). Cependant, le discours réel peut être perturbé par divers facteurs comme le bruit ou les prononciations erronées. Malgré ces défis, les humains peuvent toujours coopérer et communiquer efficacement, même avec du bruit autour d'eux ou en gérant différents accents. Cette capacité provient du fait que les humains ont un modèle mental des autres personnes et de leur environnement, ce qui les aide à deviner ce qui est dit en fonction du contexte.
Les méthodes d'évaluation traditionnelles pour la reconnaissance vocale reposent souvent sur le taux d'erreur de mots (WER), qui mesure combien de mots sont mal entendus. Cependant, cette méthode ne reflète pas toujours avec précision à quel point un robot peut accomplir des tâches avec un discours flou. Par exemple, si un robot comprend mal un mot clé, il pourrait ne pas être capable d'aider efficacement, même si d'autres mots sont reconnus correctement.
Explication du modèle SIFToM
Le modèle SIFToM est inspiré de la façon dont les humains traitent la parole. Il utilise deux approches différentes pour interpréter les instructions parlées. La première approche, appelée traitement ascendant, commence par un input audio qui est converti en texte et ensuite traduit en commandes pour le robot. La deuxième approche, connue sous le nom de traitement descendant, considère ce que l'humain veut probablement accomplir en se basant sur des observations visuelles. En combinant ces deux approches, le modèle SIFToM vise à déterminer les actions les plus appropriées pour le robot.
En pratique, le modèle commence par utiliser un système ASR pour comprendre l'instruction parlée. Si la commande reconnue semble plausible, le robot exécute cette commande. Si la commande est floue, le modèle passe au traitement descendant, utilisant des indices visuels pour identifier des objectifs et actions possibles. Cela aide le robot à faire de meilleurs suppositions sur ce qu'il doit faire.
Expériences simulées
Pour tester le modèle SIFToM, les chercheurs ont créé un ensemble de données appelé UnclearInstruct, impliquant des tâches ménagères simulées. Les participants devaient donner des instructions qu'ils donneraient à un robot pour accomplir des tâches à la maison. Ces instructions étaient enregistrées puis modifiées pour inclure du bruit, des accents ou des prononciations erronées.
Les chercheurs ont collecté plus de 3 000 fichiers audio, y compris des commandes originales et diverses versions altérées. Ils voulaient voir comment le modèle SIFToM se comportait par rapport aux méthodes existantes qui se concentrent principalement sur des indices visuels ou une reconnaissance vocale standard. Les participants humains ont aussi été testés pour comparer leur capacité à comprendre les instructions avec la performance du modèle.
Résultats de l'étude simulée
Dans l'ensemble, le modèle SIFToM a montré une amélioration significative dans la compréhension et l'exécution des commandes, surpassant les autres modèles. Il a mieux reconnu les objectifs du robot et a accompli les tâches dans un délai plus court. Fait intéressant, l'étude a révélé que malgré le bruit ou le discours flou, le modèle était plus susceptible de faire des suppositions utiles sur les actions à prendre comparé à d'autres approches.
Un aspect notable des résultats était que lorsque le modèle SIFToM faisait des erreurs, celles-ci étaient souvent moins significatives que celles faites par les modèles concurrents. C'est une découverte importante, car cela suggère que le modèle SIFToM peut quand même effectuer des actions utiles même quand il ne comprend pas parfaitement la commande.
Application dans le monde réel
Pour voir si le modèle SIFToM fonctionne bien dans des situations réelles, les chercheurs ont réalisé une expérience où une personne donnait des instructions à un robot mobile pour aider à préparer le petit déjeuner. Des vidéos ont été enregistrées incluant divers bruits ménagers pour simuler des défis du monde réel. Les chercheurs ont comparé la performance du modèle SIFToM avec d'autres modèles, y compris ceux qui s'appuyaient uniquement sur la parole ou des indices visuels.
Les résultats ont montré que le modèle SIFToM surpassait tous les autres modèles en inférant avec précision les tâches du robot à partir des instructions données. Tandis que les participants humains ont parfaitement compris les instructions, le modèle SIFToM a tout de même réussi une précision impressionnante d'environ 83%, démontrant son efficacité à interpréter des commandes à partir de discours bruyants ou flous.
Conclusion et travaux futurs
Le modèle SIFToM représente une étape importante pour permettre aux robots de mieux comprendre et suivre les instructions humaines, surtout dans des conditions où la parole n'est pas claire. En ancrant la reconnaissance des commandes dans le contexte des objectifs et actions humaines, SIFToM offre une approche plus pragmatique à la collaboration homme-robot.
Cependant, il reste des défis à relever. Le système ASR actuel ne fournit pas toujours des transcriptions précises, surtout dans des environnements bruyants. Les avancées futures pourraient se concentrer sur l'amélioration de la qualité des transcriptions et l'expansion de la capacité du modèle à fonctionner dans des scénarios plus complexes sans avoir besoin de spécifications complètes des objectifs au préalable.
En s'appuyant sur ces résultats, les chercheurs espèrent développer des robots qui peuvent travailler plus efficacement et coopérativement avec les humains dans une variété de Contextes. À mesure que la technologie progresse, le modèle SIFToM pourrait contribuer à créer des robots qui comprennent et répondent aux instructions de manière plus humaine, augmentant leur utilité dans les tâches quotidiennes.
Titre: SIFToM: Robust Spoken Instruction Following through Theory of Mind
Résumé: Spoken language instructions are ubiquitous in agent collaboration. However, in human-robot collaboration, recognition accuracy for human speech is often influenced by various speech and environmental factors, such as background noise, the speaker's accents, and mispronunciation. When faced with noisy or unfamiliar auditory inputs, humans use context and prior knowledge to disambiguate the stimulus and take pragmatic actions, a process referred to as top-down processing in cognitive science. We present a cognitively inspired model, Speech Instruction Following through Theory of Mind (SIFToM), to enable robots to pragmatically follow human instructions under diverse speech conditions by inferring the human's goal and joint plan as prior for speech perception and understanding. We test SIFToM in simulated home experiments (VirtualHome 2). Results show that the SIFToM model outperforms state-of-the-art speech and language models, approaching human-level accuracy on challenging speech instruction following tasks. We then demonstrate its ability at the task planning level on a mobile manipulator for breakfast preparation tasks.
Auteurs: Lance Ying, Jason Xinyu Liu, Shivam Aarya, Yizirui Fang, Stefanie Tellex, Joshua B. Tenenbaum, Tianmin Shu
Dernière mise à jour: 2024-09-16 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2409.10849
Source PDF: https://arxiv.org/pdf/2409.10849
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.