Avançando a Navegação de Drones com AerialVLN
AerialVLN melhora a navegação de drones usando dados de linguagem e visuais.
― 6 min ler
Índice
- A Necessidade de Navegação Aérea
- Criando o Simulador AerialVLN
- Navegação Aérea Comparada à Navegação Terrestre
- Detalhes do Conjunto de Dados AerialVLN
- O Desafio dos Caminhos Longos
- Avaliação de Modelos de Navegação Aérea
- Importância das Entradas Visuais e Linguísticas
- Conclusão
- Fonte original
- Ligações de referência
Drones, ou veículos aéreos não tripulados (VANTs), estão ficando cada vez mais populares para várias tarefas, como entregar pacotes, monitorar o trânsito e explorar paisagens. Essas máquinas voadoras podem fazer várias coisas, mas guiar elas usando comandos em linguagem natural é um desafio. Tradicionalmente, os estudos sobre Navegação se concentraram em robôs ou agentes que se movem no chão. Isso deixa de fora uma área de pesquisa importante: como navegar no céu usando informações visuais e linguagem.
A Necessidade de Navegação Aérea
Navegar no ar é diferente de se mover no chão. Os drones precisam levar em conta a altura de voo e relações espaciais mais complexas. Quando se usa navegadores terrestres, as tarefas geralmente envolvem se mover por prédios ou ao longo de ruas. Em contraste, a navegação aérea tem requisitos únicos, como subir e descer enquanto evita obstáculos em um espaço tridimensional.
Para abordar essa lacuna, os pesquisadores criaram uma nova tarefa chamada AerialVLN. Essa tarefa foca em ajudar drones a navegar em ambientes externos, interpretando Instruções em linguagem natural e usando informações visuais coletadas enquanto voam.
Criando o Simulador AerialVLN
A tarefa AerialVLN conta com um simulador 3D que oferece visões quase realistas de 25 diferentes ambientes urbanos. Essas cenas incluem áreas centrais, fábricas, parques e vilarejos. O simulador permite que os drones naveguem continuamente por esses ambientes, estendendo os cenários e configurações conforme necessário.
A equipe de pesquisa desenvolveu um modelo inicial baseado em métodos existentes para navegar agentes terrestres. No entanto, eles descobriram que ainda há uma grande diferença entre o desempenho desse modelo e o que humanos conseguem fazer. Isso sugere que AerialVLN apresenta uma nova área de estudo desafiadora.
Navegação Aérea Comparada à Navegação Terrestre
Existem muitas tarefas de navegação com visão e linguagem para sistemas no chão. Vários estudos criaram tarefas, como R2R e Alfred, que envolvem navegar em ambientes internos ou externos usando comandos de linguagem. No entanto, essas tarefas se concentram principalmente na navegação terrestre, perdendo a possibilidade de atividades aéreas que estão se tornando cada vez mais comuns com os drones.
A navegação aérea é mais complexa por vários fatores. Primeiro, o drone tem um leque maior de ações. Ele precisa incluir movimentos como subir, descer e mover para a esquerda ou direita sem virar. Segundo, os ambientes ao ar livre são muito maiores e mais intrincados em comparação com os ambientes estáticos encontrados em estudos anteriores focados na navegação terrestre. Os drones podem precisar identificar prédios ou pontos de referência de uma visão de cima, o que adiciona complexidade.
Além disso, navegar em três dimensões exige mais do que apenas evitar obstáculos. Os drones devem aprender a manobrar em um espaço onde podem ficar presos em objetos no ar, o que é uma tarefa mais difícil do que desviar de obstáculos enquanto se move no chão.
Detalhes do Conjunto de Dados AerialVLN
Para criar o conjunto de dados AerialVLN, pesquisadores usaram pilotos experientes de drones para coletar caminhos reais de voo. Esses dados do mundo real ajudam a garantir que os modelos possam aprender com os comportamentos e decisões humanas. Os pilotos foram guiados por dicas sobre direções e distâncias para ajudá-los a completar voos pela simulação. Os caminhos completados foram então emparelhados com instruções em linguagem natural coletadas de anotadores humanos.
O conjunto de dados inclui mais de 25.000 instruções com um comprimento médio de cerca de 83 palavras. Cada instrução usa uma linguagem diversa para guiar o drone de forma eficaz. Ao exigir referências como "pousar no telhado do prédio perto da fonte", as instruções ajudam a evitar qualquer confusão que possa surgir de pontos de referência similares.
O Desafio dos Caminhos Longos
Um grande desafio para os drones é navegar por caminhos mais longos. No AerialVLN, o comprimento médio dos caminhos é de cerca de 661,8 unidades, equivalente a aproximadamente 661,8 metros. Comparado a Conjuntos de dados anteriores para navegação terrestre, esse comprimento é significativamente maior. O conjunto de dados também inclui muitos objetos referidos e exige que o drone entenda instruções complexas para navegar de forma eficaz.
Essa complexidade adiciona ao desafio geral, tornando o AerialVLN uma tarefa valiosa para estudos futuros, especialmente na compreensão de como os drones podem aprender a seguir instruções mais complicadas por longas distâncias.
Avaliação de Modelos de Navegação Aérea
Para avaliar o desempenho dos modelos de navegação, os pesquisadores usam várias métricas de avaliação. Os principais critérios incluem a taxa de sucesso em completar as tarefas dadas dentro de uma certa distância do alvo e o erro de navegação, que mede o quão longe o drone acaba do local desejado após completar seu voo.
Cinco modelos de base foram testados na tarefa AerialVLN, mostrando níveis variados de sucesso. No entanto, todos esses modelos ficaram aquém do desempenho humano. As descobertas indicam que, embora os modelos de máquina possam melhorar ao longo do tempo, ainda têm um longo caminho pela frente antes de igualar as habilidades dos pilotos humanos.
Importância das Entradas Visuais e Linguísticas
A tarefa AerialVLN depende muito tanto das percepções visuais quanto das instruções em linguagem natural. O design do conjunto de dados enfatiza a importância de combinar essas modalidades de forma eficaz. Os pesquisadores realizaram estudos para entender como a remoção de pistas visuais ou comandos de linguagem afeta o desempenho. Os resultados mostraram que ambos são essenciais para navegação bem-sucedida.
Remover a entrada Visual muitas vezes resultou em uma taxa de sucesso muito mais baixa, indicando que o drone não consegue navegar de forma eficaz sem informações visuais. Da mesma forma, remover as instruções de linguagem dificultou que os drones entendessem para onde ir.
Conclusão
O surgimento da tarefa AerialVLN representa um passo importante para avançar como os drones navegam em ambientes externos complexos usando entradas visuais e linguísticas. Ao conduzir pesquisas nessa área, a esperança é melhorar as capacidades dos drones e desenvolver sistemas mais eficazes para a navegação aérea.
Com estudos contínuos em torno do AerialVLN, futuros pesquisadores podem explorar diversos desafios na navegação de longos caminhos, aprendizado de ações e uso eficaz de instruções. O conjunto de dados AerialVLN está pronto para se tornar um componente fundamental para a exploração da navegação aérea, fornecendo uma plataforma detalhada para entender como melhorar o desempenho dos drones em aplicações do mundo real.
Título: AerialVLN: Vision-and-Language Navigation for UAVs
Resumo: Recently emerged Vision-and-Language Navigation (VLN) tasks have drawn significant attention in both computer vision and natural language processing communities. Existing VLN tasks are built for agents that navigate on the ground, either indoors or outdoors. However, many tasks require intelligent agents to carry out in the sky, such as UAV-based goods delivery, traffic/security patrol, and scenery tour, to name a few. Navigating in the sky is more complicated than on the ground because agents need to consider the flying height and more complex spatial relationship reasoning. To fill this gap and facilitate research in this field, we propose a new task named AerialVLN, which is UAV-based and towards outdoor environments. We develop a 3D simulator rendered by near-realistic pictures of 25 city-level scenarios. Our simulator supports continuous navigation, environment extension and configuration. We also proposed an extended baseline model based on the widely-used cross-modal-alignment (CMA) navigation methods. We find that there is still a significant gap between the baseline model and human performance, which suggests AerialVLN is a new challenging task. Dataset and code is available at https://github.com/AirVLN/AirVLN.
Autores: Shubo Liu, Hongsheng Zhang, Yuankai Qi, Peng Wang, Yaning Zhang, Qi Wu
Última atualização: 2023-08-13 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2308.06735
Fonte PDF: https://arxiv.org/pdf/2308.06735
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.