Avancées dans les robots de bureau
Une étude sur les robots de bureau utilisant des technologies de reconnaissance vocale et visuelle.
― 16 min lire
Table des matières
- Introduction aux robots de bureau
- Expériences et résultats
- Contexte sur les modèles de langage naturel
- Mouvement du robot et planification dynamique
- Gestion de multiples entrées
- Traitement des données à distance
- Structure du document
- Modèle ASR
- Modèle BERT
- Systèmes de contrôle pour robots
- Structure du bras robotique et communication
- Système de traitement du langage naturel
- Système de Vision par ordinateur
- Optimisation de la computation pour les appareils embarqués
- Hub de contrôle et de communication
- Capacités système complètes
- Vue d'ensemble du système de contrôle
- Système de compréhension du langage naturel
- Système de vision par ordinateur
- Hub de contrôle et de communication
- Architecture opérationnelle
- Tâches spécifiques et expériences
- Collecte de données expérimentales
- Comparaison des plateformes et des versions de YOLO
- Discussion des résultats
- Conclusion
- Source originale
- Liens de référence
Les auteurs de cette étude ont contribué de manière égale à la recherche et à la rédaction de ce travail.
Introduction aux robots de bureau
Ces dernières années, les robots intelligents capables d'opérer de manière autonome ont commencé à faire partie de notre quotidien et de notre travail. Les robots de bureau sont connus pour leur facilité d'utilisation, leur réactivité rapide et leur adéquation pour des tâches légères. Pour répondre à la demande croissante de robots de service, cette recherche propose d'utiliser un petit robot de bureau qui fonctionne sur ROS (Robot Operating System). Ce robot utilisera un modèle de Traitement du langage naturel (NLP-BERT), ainsi que des technologies de reconnaissance visuelle (CV-YOLO) et de reconnaissance vocale (ASR-Whisper), lui permettant de prendre des décisions et d'agir par lui-même.
Expériences et résultats
Trois expériences principales ont été réalisées pour tester le bras du robot. Les résultats ont montré de fortes performances dans tous les tests. Dans la première tâche, les taux de compréhension de la parole et d'exécution d'actions étaient de 92,6 % et 84,3 %, respectivement. Dans la deuxième tâche, les meilleurs taux ont atteint 92,1 % et 84,6 %. Dans la troisième tâche, ces taux étaient de 95,2 % et 80,8 %. Donc, la conclusion est que la méthode suggérée utilisant ASR, NLP et d'autres technologies sur de petits appareils est pratique et pose les bases pour la création de divers robots de bureau.
Contexte sur les modèles de langage naturel
Traditionnellement, les modèles de langage naturel se concentraient uniquement sur le texte sans tenir compte du monde physique. Cela limitait leur capacité à donner des réponses sensées pour des actions qu'ils ne pouvaient pas physiquement effectuer, comme passer quelque chose. Certaines émissions de télévision et films, comme "Rick et Morty", ont montré des concepts similaires, comme des robots conçus pour passer du beurre. L'inclusion d'entrées visuelles permet aux robots de voir leur environnement et de prendre des décisions concernant l'espace et le mouvement, ce qui déplace l'utilisation de l'IA de la théorie aux applications réelles. Cela signifie également prendre en compte plus de facteurs du monde réel lors de la planification des actions des robots, améliorant ainsi la praticité de leurs réponses.
Mouvement du robot et planification dynamique
Pour qu'un robot se déplace en toute sécurité et de manière flexible, une planification dynamique utilisant des modèles de langage naturel est essentielle. Cette planification implique de trouver les meilleures façons de se déplacer et de manipuler des objets dans différents environnements. Cela peut impliquer de changer de chemin en temps réel pour éviter des obstacles et accomplir des tâches. Cette fonction teste la rapidité avec laquelle le robot peut traiter des informations et aussi comment il peut s'adapter aux changements dans son environnement.
Gestion de multiples entrées
Utiliser plusieurs types d'entrées est un défi, surtout pour de petits robots de bureau qui doivent gérer leurs ressources avec précaution. En réalité, les robots accomplissent des tâches urgentes, comme trouver des objets et contrôler des mouvements, et des tâches moins urgentes qui peuvent être effectuées à l'aide d'ordinateurs plus puissants, comme ceux des ordinateurs personnels standard. Par exemple, les tâches nécessitant un traitement lourd, comme répondre aux commandes des utilisateurs, peuvent être envoyées à un ordinateur plus puissant avec une carte graphique. Cet ordinateur peut gérer des tâches compliquées comme l'analyse de la langue via des modèles comme Whisper et BERT.
Traitement des données à distance
Sur l'ordinateur distant, les données des capteurs du robot sont traitées via un réseau. L'audio est transformé en texte à l'aide du modèle Whisper, et les intentions sont reconnues avec BERT. Ce processus contrôle ensuite le robot en fonction des commandes en langage naturel.
Cette étude suggère de réduire la complexité en assignant des tâches de calcul intensif à des systèmes distants tout en conservant les tâches de contrôle essentielles sur le robot lui-même. Cela permet au robot de bureau de comprendre le langage naturel et d'effectuer des actions de manière autonome.
Structure du document
Le document est divisé en plusieurs sections concernant la conception et l'utilisation des robots de bureau avec plusieurs méthodes d'entrée, en se concentrant spécifiquement sur la reconnaissance vocale, le traitement du langage naturel et le contrôle des robots. Chaque section discutera des travaux connexes dans ces domaines.
Modèle ASR
Le modèle ASR, comme le modèle Whisper de bout en bout, est essentiel pour reconnaître les commandes vocales. Des recherches ont montré que l'utilisation d'un biais contextuel avec ce modèle peut améliorer son efficacité. Un composant spécifique appelé TCPGen et une méthode de formation sur mesure ont été introduits, permettant au modèle d'ajuster la sortie sans changer ses paramètres de base. Des tests utilisant trois ensembles de données différents ont indiqué une diminution significative des erreurs pour des mots spécifiques lorsque le biais contextuel était appliqué, en particulier dans des scénarios spécifiques au domaine. Ce résultat met en évidence le biais contextuel comme un outil puissant pour améliorer la performance de reconnaissance pour un vocabulaire spécifique tout en conservant une utilisation générale.
Modèle BERT
BERT, un modèle d'apprentissage profond créé par Google en 2018, a gagné une immense popularité dans le traitement du langage naturel en raison de ses meilleurs résultats dans diverses tâches linguistiques. Ce qui rend BERT unique, c'est son utilisation d'un encodeur bidirectionnel du modèle Transformer, qui l'aide à mieux comprendre le contexte linguistique.
Principes du modèle BERT
Modèle de langage masqué (MLM) : Pendant sa phase de pré-formation, certains mots de l'entrée sont remplacés aléatoirement par un jeton spécial [MASK]. La tâche du modèle BERT est de prédire ces mots masqués en fonction du contexte dans lequel ils se trouvent.
Prédiction de la phrase suivante (NSP) : BERT apprend les connexions entre les phrases en prédisant si deux phrases se suivent dans le texte original. Cette étape améliore sa capacité à aborder des tâches nécessitant la compréhension de la relation entre les phrases.
Systèmes de contrôle pour robots
Pour contrôler efficacement un bras robotique, il est crucial de comprendre ses mouvements. La cinématique d'un bras robotique à six degrés de liberté (6DOF) est exprimée à l'aide d'une méthode appelée paramétrisation Denavit-Hartenberg (DH). Cette méthode définit les caractéristiques géométriques du bras et comment ses articulations sont liées les unes aux autres.
Définir le système de coordonnées
Les systèmes de coordonnées pour la base du robot et chaque articulation doivent être définis. En général, le système de coordonnées de la base s'aligne avec le système de coordonnées du monde. Le système de coordonnées de chaque articulation est situé sur l'axe de l'articulation, avec son axe aligné à sa rotation spécifique.
Paramètres DH
Les paramètres décrivent les relations géométriques entre les systèmes de coordonnées de chaque articulation. Pour un bras à 6DOF, ces paramètres comprennent :
- L'angle de rotation autour de l'axe de l'articulation.
- La distance le long de l'axe entre deux articulations consécutives.
- La distance projetée le long de l'axe de rotation.
- L'angle de rotation de chaque articulation.
Matrice de transformation
Pour chaque articulation, une matrice de transformation peut être calculée sur la base de ces paramètres DH. En multipliant les matrices de transformation pour toutes les articulations, nous pouvons obtenir la matrice qui montre la position de l'effecteur terminal.
Structure du bras robotique et communication
En utilisant le STM32F07VET6, nous avons réalisé la modélisation cinématique du bras robotique 6DOF, établissant une communication avec le Jetson. Ce lien bidirectionnel permet des tâches spécifiques : une fois que le Jetson envoie des commandes de coordonnées, le STM32 calcule les angles pour chaque servo associé et renvoie cette information. De même, le STM32 peut également relayer des coordonnées au Jetson lorsqu'il reçoit des commandes d'angle d'articulation.
Système de traitement du langage naturel
Les systèmes NLP transforment le langage naturel provenant à la fois du texte et de l'audio en commandes que le robot peut traiter et exécuter. Pour le texte, le NLP analyse pour identifier des intentions spécifiques. Plusieurs types d'intentions sont calculés, et le modèle BERT aide à les classifier. Pour les entrées vocales, l'audio est d'abord converti en texte à l'aide du modèle Whisper avant que le même processus de reconnaissance d'intention n'ait lieu.
BERT joue un rôle central ici. Il comprend le langage en profondeur à travers deux étapes : la pré-formation sur de grands ensembles de données et l'ajustement basé sur des tâches spécifiques. Google fournit des modèles BERT pré-entraînés que les développeurs peuvent ajuster selon leurs besoins.
Vision par ordinateur
Système deLa technologie de vision par ordinateur implique l'utilisation de caméras et de capteurs qui permettent aux robots de recueillir des données d'image et de vidéo pour analyse. Cette capacité est clé pour détecter et interagir avec précision avec des objets. L'algorithme YOLO (You Only Look Once) excelle dans la détection d'objets en temps réel. Il traite la détection comme un problème de régression, prédisant directement les boîtes englobantes et les catégories à partir des images.
Pour une entrée d'image RGB, le modèle YOLO identifie divers objets et calcule leur position. Pour obtenir une détection d'objet tridimensionnelle précise, des caméras de profondeur sont utilisées en complément du modèle YOLO, fournissant des informations de profondeur cruciales pour chaque pixel. Cette intégration améliore la capacité du robot à manipuler efficacement les objets.
Optimisation de la computation pour les appareils embarqués
L'intégration de caméras de profondeur augmente considérablement la demande computationnelle sur les dispositifs de bureau. Pour améliorer les performances, cette étude a appliqué des techniques comme l'élagage et la quantification pour réduire la taille du modèle et les besoins en calcul.
L'élagage supprime les parties inutiles d'un réseau de neurones, ce qui aide à diminuer la taille du modèle. Ce processus implique d'évaluer l'importance de chaque neurone en fonction de son activité. La quantification réduit encore l'espace de stockage en représentant les poids et les valeurs d'activation avec moins de bits.
Après optimisation, le modèle a été testé sur de petits appareils, montrant que la taille réduite du modèle et la charge computationnelle ont entraîné des performances plus rapides et plus efficaces tout en maintenant une détection précise.
Hub de contrôle et de communication
Avec des systèmes de contrôle fondamentaux, une reconnaissance visuelle, et une compréhension du langage naturel en place, le robot est prêt à réaliser des tâches complexes. Un Hub de Communication Central permet l'exécution d'actions complexes et facilite la communication en temps réel entre le robot et un hôte distant.
Pour gérer les actions du robot, une machine d'état d'action est utilisée. Ce modèle formel décrit le comportement du robot et définit les transitions et les actions entreprises. Les états de base représentent des actions typiques comme "inactif", "chercher", et "prendre", tandis que des états spéciaux gèrent des conditions uniques, comme le traitement des pannes.
L'utilisation de diagrammes de transition d'état aide à visualiser le système de contrôle du robot. Ce diagramme met en évidence comment le robot passe d'un état à un autre en fonction de diverses conditions, améliorant ainsi sa flexibilité opérationnelle.
Capacités système complètes
Avec tous les composants fonctionnant ensemble, le robot est désormais capable de gérer une variété de tâches. Le hub de communication assure un contrôle efficace et une interaction intelligente, fournissant une base solide pour les fonctions du robot.
Vue d'ensemble du système de contrôle
L'efficacité du robot dépend de son système de contrôle, qui gère les opérations matérielles à travers son bras robotique 6DOF. Ce système intègre des capteurs qui relaient des informations sur le couple et la position. Des méthodes de cinématique inverse sont utilisées pour trouver les angles d'articulation nécessaires pour un mouvement précis du bras.
Système de compréhension du langage naturel
Ce système traduit les commandes vocales et écrites en actions que le robot peut comprendre. En utilisant BERT, les entrées textuelles sont analysées, et les commandes vocales sont converties en texte via le modèle Whisper. Cela garantit que le robot peut répondre de manière appropriée aux instructions humaines.
Système de vision par ordinateur
Ce système permet au robot de percevoir son environnement à l'aide d'algorithmes de détection d'objets comme YOLO. Les caméras de profondeur fournissent des données tridimensionnelles supplémentaires, ce qui supporte une manipulation et un mouvement précis des objets.
Hub de contrôle et de communication
Le hub central coordonne le flux de données et gère la communication en temps réel avec un hôte distant. Ce système permet des décisions complexes et la réception de commandes, rendant le robot plus efficace dans ses opérations.
Architecture opérationnelle
L'architecture est divisée en couches pour optimiser chaque composant :
- Contrôle et échantillonnage des capteurs : Gère le contrôle de base du bras robotique et la collecte de données.
- Application locale : Gère la reconnaissance d'objets en temps réel avec YOLO.
- Couche d'extension de commande : Fonctionne le hub de communication.
- Communication robotique : Assure des mises à jour en temps réel et la réception de commandes.
- Application distante : Exécute le système de compréhension du langage naturel pour une gestion de haut niveau.
Cette approche en couches permet au robot de fonctionner efficacement tout en équilibrant les besoins en temps réel avec les exigences computationnelles.
Tâches spécifiques et expériences
Le robot a été soumis à trois tâches principales : ouvrir des portes, allumer et éteindre des lumières, et livrer un verre d'eau. Chaque tâche a été conçue pour évaluer la performance du robot dans la compréhension des commandes vocales et l'exécution des tâches, tandis que des caméras de profondeur enregistraient les processus.
Tâche 1 : Opération de porte
La première tâche nécessitait que le bras robotique ouvre des portes de bureau en utilisant de grands interrupteurs. Les utilisateurs donnaient des commandes pour ouvrir la porte, et le succès était défini par la porte étant déverrouillée et prête à être ouverte. Cette tâche a testé les technologies intégrées du robot à travers 200 répétitions pour garantir l’efficacité.
Tâche 2 : Contrôle des lumières
La deuxième tâche impliquait d'allumer et d'éteindre les lumières dans différentes conditions d'éclairage. Le bras devait localiser et manœuvrer des interrupteurs intérieurs avec précision. Chaque commande a été répétée 200 fois pour mesurer la performance dans différentes conditions.
Tâche 3 : Livraison d'un verre
Dans la troisième et la plus complexe des tâches, le robot devait prendre un verre d'eau et le livrer à un utilisateur. Un bruit de fond a été introduit pour imiter un environnement de bureau typique rempli de distractions. Le bras devait reconnaître et réagir avec précision aux mouvements de l'utilisateur. Cette tâche a évalué la capacité du robot à fonctionner efficacement dans un cadre réel.
Collecte de données expérimentales
Les données de chaque tâche se concentraient sur la mesure des taux de reconnaissance vocale correcte et des taux d'achèvement des performances. Pour la première tâche, différentes phrases de commande ont été utilisées, et les deux taux ont été enregistrés pour évaluer l'efficacité globale.
Dans la deuxième tâche, les conditions de lumière ont changé, et diverses commandes ont été employées. Les taux de succès pour chaque commande ont été notés pour déterminer l'adaptabilité du robot.
Enfin, la troisième tâche a mesuré la performance du robot avec plusieurs variations de commandes et du bruit de fond. Cette tâche était cruciale pour voir à quel point le robot pouvait fonctionner dans des situations quotidiennes.
Comparaison des plateformes et des versions de YOLO
À la fin des expériences, des comparaisons ont été faites entre différentes versions de YOLO et diverses plateformes. L'objectif était d'évaluer les différences de performance lors des tâches deux et trois.
Discussion des résultats
Le bras robotique a montré des résultats louables dans l'exécution des tâches. Il a démontré des taux élevés tant pour la reconnaissance vocale que pour l'exécution d'actions. Les taux de succès globaux pour la tâche un étaient de 93,1 % pour la reconnaissance vocale et de 84,5 % pour l'achèvement d'action, prouvant l’efficacité de la solution proposée.
Dans la tâche deux, le taux de succès pour éteindre la lumière était supérieur de plus de 5 % par rapport à l'allumer. Ce résultat indique que les conditions d'éclairage ont un impact significatif sur la performance du système de reconnaissance visuelle.
Dans la tâche trois, les résultats ont varié, avec une baisse de performance notable pour les commandes moins précises. Malgré une bonne reconnaissance des commandes, la capacité d'exécution du bras était davantage influencée par la clarté des commandes. L'ajout de bruit de fond a également affecté l'exécution des actions, bien que la reconnaissance de la langue soit restée stable.
Conclusion
Ce travail présente un cadre pour un robot qui intègre plusieurs technologies, y compris la compréhension du langage naturel, la reconnaissance visuelle et des systèmes de contrôle robustes. Les expériences valident la capacité du robot à réaliser des tâches complexes, renforçant le potentiel des robots de bureau à gérer efficacement diverses opérations. Bien que des défis demeurent, les technologies fondamentales se sont avérées réalisables pour créer des robots efficaces qui interagissent naturellement avec les humains.
Titre: "Pass the butter": A study on desktop-classic multitasking robotic arm based on advanced YOLOv7 and BERT
Résumé: In recent years, various intelligent autonomous robots have begun to appear in daily life and production. Desktop-level robots are characterized by their flexible deployment, rapid response, and suitability for light workload environments. In order to meet the current societal demand for service robot technology, this study proposes using a miniaturized desktop-level robot (by ROS) as a carrier, locally deploying a natural language model (NLP-BERT), and integrating visual recognition (CV-YOLO) and speech recognition technology (ASR-Whisper) as inputs to achieve autonomous decision-making and rational action by the desktop robot. Three comprehensive experiments were designed to validate the robotic arm, and the results demonstrate excellent performance using this approach across all three experiments. In Task 1, the execution rates for speech recognition and action performance were 92.6% and 84.3%, respectively. In Task 2, the highest execution rates under the given conditions reached 92.1% and 84.6%, while in Task 3, the highest execution rates were 95.2% and 80.8%, respectively. Therefore, it can be concluded that the proposed solution integrating ASR, NLP, and other technologies on edge devices is feasible and provides a technical and engineering foundation for realizing multimodal desktop-level robots.
Auteurs: Haohua Que, Wenbin Pan, Jie Xu, Hao Luo, Pei Wang, Li Zhang
Dernière mise à jour: 2024-05-27 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2405.17250
Source PDF: https://arxiv.org/pdf/2405.17250
Licence: https://creativecommons.org/licenses/by-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://doi.org/#1
- https://doi.org/10.2991/978-2-494069-97-8
- https://dx.doi.org/10.1109/slt48900.2021.9383515
- https://api.semanticscholar.org/CorpusID:6706547
- https://aclanthology.org/D19-1586
- https://dx.doi.org/10.18653/v1/2020.acl-main.240
- https://dx.doi.org/10.18653/v1/n19-1423
- https://dx.doi.org/10.1109/cvpr.2016.91
- https://dx.doi.org/10.1109/icuas48674.2020.9213849