Améliorer la navigation en extérieur avec des vidéos de conduite
Une nouvelle méthode améliore la navigation Visuel-Langage en utilisant des données d'entraînement provenant de vidéos de conduite.
― 10 min lire
Table des matières
- Aperçu de la Méthode Proposée
- Défis de la Navigation Vision-Langage
- Utilisation des Vidéos de Conduite
- Défis de la Génération d'instructions
- Processus d'Extraction de Modèles
- Prédiction d'actions à Partir des Vidéos
- Techniques de Détection d'objets
- Génération d'Instructions de Navigation
- Pré-entraînement et Ajustement du Modèle
- Évaluation et Résultats
- Applications Éducatives et Pratiques
- Directions Futures
- Conclusion
- Source originale
- Liens de référence
La navigation vision-langage en extérieur (VLN) c'est un truc où un agent doit se débrouiller dans un environnement 3D à l'extérieur en suivant des instructions données en langage naturel. Les méthodes actuelles pour le VLN ont du mal parce qu'elles manquent souvent de variété dans les environnements sur lesquels elles sont entraînées et n'ont pas assez de données d'entraînement.
Pour régler ces problèmes, on propose d'utiliser des vidéos de conduite de différentes villes aux États-Unis pour créer plus de données d'entraînement. Cette méthode inclut des Instructions de navigation générées automatiquement, en plus des actions qui peuvent aider à améliorer la performance des tâches VLN en extérieur. Notre approche combine des méthodes traditionnelles avec des techniques modernes d'apprentissage profond. On crée des instructions en remplissant des modèles, et on prédit des actions de navigation en fonction de la rotation des images.
On commence par pré-entraîner un modèle sur un ensemble de données spécifique appelé Touchdown, avec notre ensemble de données augmenté créé à partir des vidéos de conduite. Ce pré-entraînement implique trois tâches clés : prédire des mots masqués, faire correspondre des instructions avec des chemins, et deviner la prochaine action. Cet apprentissage aide le modèle à mieux prendre en compte le temps et le contexte visuel dans les instructions.
La représentation des instructions apprise est ensuite ajustée en utilisant le dataset Touchdown. Nos résultats montrent que cette méthode est meilleure que les modèles de pointe précédents, atteignant une amélioration de 2,1% des taux de réussite des tâches.
Aperçu de la Méthode Proposée
Notre méthode implique d'annoter des vidéos de conduite avec des instructions de navigation synthétiques. Cela se fait en extrayant des modèles de l'ensemble de données Touchdown et en utilisant un modèle pour prédire quelles actions devraient être remplies dans ces modèles. On détecte aussi des objets dans les vidéos pour améliorer la génération des instructions de navigation.
Notre modèle est pré-entraîné à la fois sur les données traitées des vidéos de conduite et les données Touchdown pour aider l'agent à apprendre des informations utiles. L'objectif final est d'affiner la capacité de l'agent à suivre les instructions pendant les tâches de navigation.
Défis de la Navigation Vision-Langage
Le VLN consiste à guider un agent à travers un espace 3D basé sur des instructions et des entrées visuelles. Un obstacle à l'amélioration de ces modèles est le manque de données d'entraînement suffisantes. En général, les données VLN sont collectées par des annotations humaines, où plusieurs personnes écrivent des instructions pour un chemin particulier. D'autres annotateurs suivent ensuite ces instructions pour voir si elles sont suffisamment claires. Ce processus est coûteux et prend du temps, ce qui rend difficile la création de grands ensembles de données.
Beaucoup de méthodes existantes se concentrent sur la résolution de ce manque de données pour des tâches de navigation en intérieur mais n'ont pas encore exploré les environnements extérieurs. Certaines solutions impliquent des modèles pré-entraînés à partir de grands ensembles de données, mais elles dépendent souvent de données limitées pour améliorer la performance du modèle.
On doit introduire de nouveaux environnements pour mieux préparer les modèles aux situations inconnues. Donc, on utilise de grands ensembles de données vidéo qui incluent une variété de cadres extérieurs, ce qui aidera les agents à raisonner plus efficacement.
Utilisation des Vidéos de Conduite
On se concentre sur la création de nouvelles données pour le VLN en extérieur en traitant des vidéos de conduite d'un ensemble de données spécifique. Chaque vidéo dure environ 40 secondes. On prend des images de ces vidéos à des intervalles d'une seconde, ce qui nous aide à capturer la séquence des actions effectuées pendant la conduite.
Pour créer des instructions de navigation utiles, on doit d'abord générer des indices linguistiques pour chaque vidéo. Cela nécessite de prédire des actions basées sur la relation entre les images consécutives. Le défi ici est la diversité des objets mentionnés dans les instructions. Par exemple, certains mots peuvent être utilisés fréquemment tandis que d'autres apparaissent moins souvent, ce qui rend difficile pour un modèle d'apprendre efficacement.
On fait aussi face à des problèmes avec la façon dont les instructions de navigation extérieures sont structurées, notamment la longueur et la complexité des instructions. Cependant, notre méthode aborde ces difficultés en utilisant une approche basée sur des modèles, en remplissant les lacunes avec des objets détectés à partir des observations et des actions prédites.
Génération d'instructions
Défis de laGénérer des instructions synthétiques vient avec son propre ensemble de défis. Par exemple, les objets référencés dans les instructions de navigation extérieures peuvent être difficiles à détecter dans les images vidéo. Cela crée une lutte pour faire correspondre efficacement ce qu'on voit dans la vidéo à ce qui est mentionné dans les instructions.
De plus, la longueur des instructions et le nombre limité d'exemples d'entraînement aggravent ces défis. Ainsi, notre objectif est d'extraire des modèles d'instructions à partir de données existantes et de les remplir avec des actions pertinentes prédites à partir des images vidéo.
Processus d'Extraction de Modèles
Pour créer des modèles d'instructions utiles, on prend des mesures pour extraire des phrases pertinentes de l'ensemble de données Touchdown. On les catégorise en fonction d'actions comme tourner à gauche, tourner à droite, ou avancer. En masquant certains mots, on filtre les modèles qui pourraient conduire à des instructions confuses.
En utilisant une combinaison de modèles pré-entraînés et de filtrage manuel, on s'assure que les modèles que l'on génère soient clairs et logiques. Cela donne un ensemble diversifié de modèles qui peuvent être remplis avec des objets détectés et des actions prédites pour créer des instructions de navigation cohérentes.
Prédiction d'actions à Partir des Vidéos
Prédire les bonnes actions de navigation à partir des images vidéo est clé pour notre méthode. Étant donné que les approches traditionnelles peuvent rencontrer des difficultés à cause d'une distribution déséquilibrée des actions, on propose une nouvelle méthode basée sur la rotation d'image.
Quand on analyse deux images consécutives, on fait pivoter une image à gauche et à droite pour voir quelle image inclinée correspond le mieux à l'image suivante. Cela nous permet d'inférer dans quelle direction la voiture est probablement en train de tourner.
On compare les scores de similarité des images pour comprendre quelle est l'action la plus probable : tourner à gauche, tourner à droite, ou avancer. Cette approche intuitive nous aide à générer des actions précises qui correspondent aux instructions de conduite.
Détection d'objets
Techniques dePour identifier des objets dans les images vidéo, on utilise un modèle pré-entraîné qui peut reconnaître une variété d'objets. Ce modèle s'assure qu'on puisse détecter les entités pertinentes qui seront remplies dans nos modèles d'instructions.
On filtre soigneusement les classes qui sont trop fréquentes ou non utiles pour la navigation afin de garder l'accent sur les objets les plus pertinents. Cette étape aide à produire des instructions de meilleure qualité que l'agent peut utiliser pour naviguer efficacement.
Génération d'Instructions de Navigation
Une fois qu'on a nos prédictions d'actions et les objets pertinents, on crée l'instruction de navigation finale pour chaque vidéo. En échantillonnant des images tout au long de la vidéo, on assemble des actions et on fusionne les actions successives lorsque c'est nécessaire.
En conséquence, on génère une phrase cohérente pour que l'agent puisse suivre, en s'assurant que les instructions soient à la fois claires et contextuellement pertinentes.
Pré-entraînement et Ajustement du Modèle
Notre approche consiste en deux étapes principales : le pré-entraînement et l'ajustement. Pendant la phase de pré-entraînement, on utilise à la fois l'ensemble de données Touchdown et les vidéos de conduite BDD100K.
On entraîne le modèle en utilisant diverses tâches proxy comme prédire des mots masqués dans des phrases et faire correspondre des instructions avec les chemins empruntés. Cet entraînement multifacette permet au modèle d'acquérir une compréhension bien arrondie de la façon de combiner les entrées visuelles avec des instructions basées sur le langage.
Lors de la phase d'ajustement, on adapte un modèle de navigation à la pointe pour améliorer sa capacité à suivre les instructions. En utilisant les représentations apprises de notre modèle pré-entraîné, on vise à optimiser les performances pour les défis de navigation.
Évaluation et Résultats
On évalue notre agent en utilisant l'ensemble de données Touchdown, qui présente divers paires d'instructions et de trajectoires. Notre analyse montre que le pré-entraînement de l'agent avec nos données de navigation synthétiques améliore considérablement les taux de réussite des tâches.
Comparé aux modèles de pointe existants, notre méthode atteint des améliorations notables dans la capacité à suivre les instructions et à atteindre des lieux cibles désignés.
Applications Éducatives et Pratiques
Les implications de notre recherche vont au-delà de la simple navigation extérieure. Cette approche offre des perspectives précieuses sur la façon dont les vidéos de conduite peuvent être utilisées pour diverses applications, y compris l'amélioration des assistants virtuels, des véhicules autonomes, et la navigation intelligente dans des environnements inconnus.
Comprendre comment combiner efficacement les données visuelles avec des instructions en langage naturel pourrait mener au développement de systèmes d'IA plus capables.
Directions Futures
En regardant vers l'avenir, il y a beaucoup d'opportunités pour une exploration plus poussée. Un domaine d'intérêt est l'application de nos méthodes à des environnements intérieurs, qui reste un champ sous-exploré dans le domaine du VLN. De plus, trouver de nouveaux ensembles de données divers au-delà des vidéos de conduite pourrait améliorer l'entraînement des agents, les rendant plus adaptables à différents scénarios.
Il y a aussi un besoin d'améliorations dans les méthodes de génération d'instructions pour rationaliser et automatiser davantage le processus. En tirant parti des techniques avancées d'apprentissage profond, on peut faire des progrès significatifs vers la création de systèmes de navigation plus fiables et efficaces.
Conclusion
Dans ce travail, on présente une méthode novatrice pour rassembler des données augmentées à partir de vidéos de conduite pour la navigation vision-langage en extérieur. Grâce à des techniques innovantes pour prédire des actions de navigation et générer des instructions, on atteint des améliorations substantielles des taux de réussite des tâches.
Notre recherche souligne le potentiel d'utiliser des ensembles de données vidéo pour améliorer l'entraînement pour les tâches de navigation, fournissant une solide base pour de futurs avancées dans ce domaine. En affinant davantage ces techniques, on peut développer des agents plus efficaces capables de naviguer dans des environnements réels avec aisance.
Titre: VLN-Video: Utilizing Driving Videos for Outdoor Vision-and-Language Navigation
Résumé: Outdoor Vision-and-Language Navigation (VLN) requires an agent to navigate through realistic 3D outdoor environments based on natural language instructions. The performance of existing VLN methods is limited by insufficient diversity in navigation environments and limited training data. To address these issues, we propose VLN-Video, which utilizes the diverse outdoor environments present in driving videos in multiple cities in the U.S. augmented with automatically generated navigation instructions and actions to improve outdoor VLN performance. VLN-Video combines the best of intuitive classical approaches and modern deep learning techniques, using template infilling to generate grounded navigation instructions, combined with an image rotation similarity-based navigation action predictor to obtain VLN style data from driving videos for pretraining deep learning VLN models. We pre-train the model on the Touchdown dataset and our video-augmented dataset created from driving videos with three proxy tasks: Masked Language Modeling, Instruction and Trajectory Matching, and Next Action Prediction, so as to learn temporally-aware and visually-aligned instruction representations. The learned instruction representation is adapted to the state-of-the-art navigator when fine-tuning on the Touchdown dataset. Empirical results demonstrate that VLN-Video significantly outperforms previous state-of-the-art models by 2.1% in task completion rate, achieving a new state-of-the-art on the Touchdown dataset.
Auteurs: Jialu Li, Aishwarya Padmakumar, Gaurav Sukhatme, Mohit Bansal
Dernière mise à jour: 2024-02-07 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2402.03561
Source PDF: https://arxiv.org/pdf/2402.03561
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.