Avancées dans la navigation des drones grâce au dialogue
De nouvelles méthodes améliorent la navigation des drones en utilisant des instructions vocales et des données historiques.
― 7 min lire
Table des matières
- Navigation Aérienne à partir de l'Histoire des Dialogues (NAHD)
- Défis de la Navigation Guidée par le Langage
- Présentation du Transformer Graphique Sensible aux Cibles (TG-GAT)
- Entraînement et Mise en Œuvre
- Augmentation des Données
- Métriques d'Évaluation
- Résultats
- Conclusion
- Source originale
- Liens de référence
Ces dernières années, l'intérêt pour l'utilisation de drones pour différentes tâches, comme les livraisons et les missions de sauvetage, a beaucoup augmenté. Une partie de cette recherche se concentre sur la manière dont les drones peuvent naviguer vers des endroits spécifiques en comprenant les instructions données lors de conversations. Cela nécessite que le drone interprète des dialogues et les informations recueillies dans son environnement.
Navigation Aérienne à partir de l'Histoire des Dialogues (NAHD)
La tâche de Navigation Aérienne à partir de l'Histoire des Dialogues (NAHD) est un défi qui demande à un agent drone de relier des conversations avec des vues aériennes pour déterminer comment atteindre une zone cible. Le drone doit interpréter ce qu'il entend des gens puis regarder son flux vidéo pour figure où aller. Cette tâche est difficile car les drones doivent souvent suivre des chemins plus longs et voir plus de l'environnement en même temps.
Défis de la Navigation Guidée par le Langage
La navigation guidée par le langage avec des drones fait souvent face à plusieurs obstacles. D'abord, comme le drone doit suivre où il va en fonction des conversations, il doit gérer efficacement l'information des dialogues passés. Si le drone ne peut pas bien relier ces dialogues avec ce qu'il observe, il peut avoir du mal à trouver son chemin.
Ensuite, le drone doit reconnaître avec précision les points de repère mentionnés dans les conversations. S'il rate ces références, il pourrait ne pas savoir quand s'arrêter ou tourner. Enfin, recueillir suffisamment de données pour que le drone puisse apprendre peut être difficile. Des données limitées peuvent rendre compliqué le bon fonctionnement du drone dans de nouveaux environnements.
Présentation du Transformer Graphique Sensible aux Cibles (TG-GAT)
Pour surmonter ces défis, une nouvelle approche appelée le Transformer Graphique Sensible aux Cibles (TG-GAT) a été créée. Cette méthode combine plusieurs éléments pour aider le drone à mieux gérer les dialogues, comprendre son environnement, et améliorer son expérience d'apprentissage.
Innovations Clés
Le TG-GAT a trois améliorations principales :
Transformer Graphique Sensible : Cet élément permet au drone d'organiser des informations provenant de conversations et d'observations passées de manière structurée. Cela aide le drone à mieux comprendre ce qu'il entend et voit.
Tâche de Stabilisation Supplémentaire : C'est une méthode d'entraînement qui aide le drone à apprendre à identifier des points de repère spécifiques mentionnés dans les discussions. En s'entraînant à repérer ces zones, le drone devient plus à l'aise pour les reconnaître en temps réel.
Stratégie d'Augmentation Hybride : Cette approche améliore les données disponibles pour l'apprentissage. En utilisant des techniques inspirées des modèles de langage, le système peut créer des exemples d'entraînement supplémentaires. Ainsi, le drone peut apprendre de situations et d'instructions plus variées.
Entraînement et Mise en Œuvre
Le cadre TG-GAT a été testé lors d'une compétition appelée le AVDN Challenge, où il a surpassé les modèles précédents. Il a montré des améliorations significatives dans les métriques utilisées pour mesurer le succès des tâches de navigation.
Configuration de la Tâche
Dans cette tâche, le drone fonctionne sur la base de l'historique des dialogues. Il reçoit des conversations qui incluent des questions du drone et des instructions de la part des humains. L'objectif est de suivre un chemin prévu composé de différentes zones que le drone doit observer. Le point final de ce chemin est considéré comme la zone cible.
Chaque fois que le drone fait un pas, il examine son flux vidéo, qui montre ce qu'il voit d'en haut, ainsi que sa position et sa direction actuelles. Le défi est que le drone doit relier ce qu'il entend avec ce qu'il voit, atteignant finalement la zone cible.
Aperçu de la Méthode
Le modèle traite les entrées en plusieurs étapes. D'abord, il génère de nouvelles observations et dialogues. Ensuite, il décompose les informations en embeddings, qui sont des représentations des données. Ces embeddings sont stockés et utilisés plus tard pour prédire les prochaines actions pour le drone.
Encodage Multimodal
Le système utilise différentes méthodes pour traiter différents types d'entrées. Pour le texte, un modèle spécifique est utilisé pour convertir le dialogue en un format que le drone peut comprendre. Pour les images, le flux vidéo du drone est traité pour en extraire des caractéristiques importantes. Enfin, le drone intègre des informations directionnelles pour l'aider à naviguer efficacement.
Tâche de Stabilisation Visuelle
Pour améliorer la reconnaissance des points de repère, le système inclut une tâche spécifique visant à prédire les emplacements des zones clés mentionnées dans les conversations. Cet entraînement supplémentaire aide le drone à mieux identifier son environnement.
Augmentation des Données
Le jeu de données pour entraîner le drone était relativement petit. Pour lutter contre cette limitation, une stratégie d'augmentation des données hybride a été mise en œuvre. Cette méthode consistait à appliquer diverses techniques de traitement d'images pour créer de nouvelles images d'entraînement. De plus, un grand modèle de langage a aidé à générer des instructions alternatives, élargissant le matériel d'apprentissage pour le drone.
Métriques d'Évaluation
Pour mesurer l'efficacité du cadre TG-GAT, plusieurs métriques ont été utilisées :
- Taux de Succès (TS) : Cela indique à quelle fréquence le drone atteint avec succès sa cible.
- Succès pondéré par la Longueur de Chemin Inverse (SLPI) : Cette métrique prend en compte à la fois le succès du chemin emprunté et la distance impliquée.
- Progression vers l'Objectif (PO) : Cela mesure combien le drone avance vers la zone cible.
L'accent principal est mis sur le SLPI, car cela reflète à la fois la précision et l'efficacité de la navigation.
Résultats
Les résultats du défi AVDN ont montré que l'approche TG-GAT a surpassé les modèles précédents dans toutes les métriques évaluées. Le système a réalisé des augmentations notables tant en SLPI qu'en TS, indiquant des améliorations significatives dans la performance de navigation des drones.
Conclusion
Le développement du cadre TG-GAT représente un pas en avant pour permettre aux drones de comprendre et de suivre des instructions parlées tout en naviguant. La combinaison d'une mémoire structurée, d'une reconnaissance des points de repère améliorée, et d'un apprentissage enrichi par l'augmentation des données a montré son efficacité dans des scénarios réels. Bien que les résultats soient prometteurs, il reste encore de la place pour des améliorations, et les recherches en cours espèrent affiner cette technologie davantage.
Cette approche innovante ouvre la voie à de futures avancées dans la navigation des drones, avec des applications potentielles dans divers secteurs.
Titre: Target-Grounded Graph-Aware Transformer for Aerial Vision-and-Dialog Navigation
Résumé: This report details the methods of the winning entry of the AVDN Challenge in ICCV CLVL 2023. The competition addresses the Aerial Navigation from Dialog History (ANDH) task, which requires a drone agent to associate dialog history with aerial observations to reach the destination. For better cross-modal grounding abilities of the drone agent, we propose a Target-Grounded Graph-Aware Transformer (TG-GAT) framework. Concretely, TG-GAT first leverages a graph-aware transformer to capture spatiotemporal dependency, which benefits navigation state tracking and robust action planning. In addition,an auxiliary visual grounding task is devised to boost the agent's awareness of referred landmarks. Moreover, a hybrid augmentation strategy based on large language models is utilized to mitigate data scarcity limitations. Our TG-GAT framework won the AVDN Challenge, with 2.2% and 3.0% absolute improvements over the baseline on SPL and SR metrics, respectively. The code is available at https://github.com/yifeisu/TG-GAT.
Auteurs: Yifei Su, Dong An, Yuan Xu, Kehan Chen, Yan Huang
Dernière mise à jour: 2023-12-14 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2308.11561
Source PDF: https://arxiv.org/pdf/2308.11561
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.