Avanços na Navegação de Robôs com Tecnologia de Visão
Novos métodos melhoram a navegação de robôs em ambientes complexos usando tecnologia de visão e sistemas que entendem o contexto.
― 6 min ler
Índice
Nos últimos anos, os robôs ficaram cada vez mais capazes de se mover tanto dentro quanto fora de prédios. Eles podem realizar várias tarefas, como entregar pacotes, monitorar canteiros de obras ou ajudar em situações de emergência. No entanto, para que os robôs se movimentem efetivamente nesses ambientes, eles precisam entender o que está ao redor e seguir algumas regras sociais. Este artigo apresenta um novo método que ajuda os robôs a navegar esses espaços de forma segura e eficiente, usando tecnologia de visão avançada.
Importância da Navegação para Robôs
Os robôs enfrentam desafios únicos em diferentes ambientes. Por exemplo, navegar em um espaço interno lotado exige que o robô seja atencioso com as pessoas ao redor. Ele deve evitar esbarrar nelas e respeitar o espaço pessoal. Por outro lado, a navegação ao ar livre pode envolver terreno irregular, ruas movimentadas ou áreas onde o robô precisa decidir quando e onde atravessar. Os humanos são ótimos nessa navegação porque conseguimos avaliar rapidamente o que está ao nosso redor e seguir normas sociais estabelecidas.
O Papel dos Modelos de Linguagem de Visão
Para ajudar os robôs a navegar melhor, usamos uma tecnologia chamada Modelos de Linguagem de Visão (VLMs). Esses modelos são ferramentas poderosas que conseguem entender imagens e textos. Eles ajudam os robôs a identificar o ambiente em que estão e decidir como agir com base nessa informação. Por exemplo, o robô pode reconhecer que está em um corredor ou na calçada e ajustar seu comportamento de acordo.
Como o Método Funciona
Para ajudar os robôs na navegação, nós criamos um método que inclui dois componentes principais. Primeiro, criamos um sistema que ajuda o robô a entender o contexto do seu ambiente usando VLMs. Segundo, desenvolvemos uma forma de melhorar a entrada visual do robô, que guia os VLMs de maneira mais eficaz.
Navegação Baseada em Contexto
A primeira parte do nosso método foca em entender o ambiente. Permitimos que o robô reconheça diferentes cenários, como estar em um corredor estreito ou em uma estrada movimentada. Usando comandos de texto simples, o robô pode receber instruções adaptadas ao seu contexto específico. Por exemplo, se ele estiver em um corredor, pode receber a orientação de "manter-se próximo à parede direita".
Método de Marcação Visual
A segunda parte da nossa abordagem melhora a informação visual que o robô utiliza. Normalmente, os robôs têm dificuldade em entender quais áreas estão livres para navegar, já que eles só conseguem ver uma imagem bidimensional. Para resolver isso, usamos uma técnica chamada marcação visual multimodal. Isso significa que rotulamos áreas na imagem do robô que estão livres de obstáculos, permitindo que o VLM se concentre em lugares onde o robô pode ir em segurança.
Criando um Caminho de Navegação Seguro
Uma vez que o robô coleta informações sobre seu entorno, ele precisa decidir qual caminho seguir. Nosso método ajuda o robô a formar um caminho de referência, que é uma rota clara que ele pode seguir. Esse caminho é criado com base no contexto, garantindo que esteja alinhado com regras sociais, como evitar multidões ou usar faixas de pedestres ao atravessar a rua.
Seguindo o Caminho de Referência
Depois de estabelecer um caminho de referência, o robô pode começar a se mover. Ele calcula sua posição em relação ao caminho e ajusta seus movimentos para se manter na rota. Se detectar alguma mudança no seu ambiente, o robô tem a capacidade de adaptar seu caminho conforme necessário.
Aplicações no Mundo Real
Nosso método foi testado em diferentes tipos de robôs em vários ambientes. Por exemplo, usamos um Turtlebot para ambientes internos e um robô Spot da Boston Dynamics para navegação ao ar livre. Ambos os robôs foram equipados com câmeras e sensores lidar, que são ferramentas que ajudam a entender melhor o que está ao redor.
Desempenho e Resultados
Os resultados dos nossos testes mostraram que os robôs conseguiram navegar por ambientes complexos de forma eficaz. Eles demonstraram comportamentos semelhantes aos humanos, como não interromper as pessoas por perto e escolher superfícies seguras para andar, como calçadas em vez de grama.
Em comparações com métodos de navegação existentes, nossa abordagem produziu caminhos que eram os mais semelhantes aos seguidos por operadores humanos. Isso foi medido usando várias métricas, como quão próximo o caminho do robô estava da rota escolhida por um humano e quão rapidamente o robô podia se mover.
Enfrentando Desafios na Navegação
Apesar do nosso sucesso, encontramos vários desafios pelo caminho. Por exemplo, os VLMs usados em nosso método requerem bastante poder computacional, o que pode afetar o tempo de resposta do robô. Isso é crucial para tarefas que exigem reações imediatas, como evitar obstáculos.
Limitações da Tecnologia Atual
A dependência de VLMs remotos também introduz atrasos. Em ambientes externos, fatores como clima podem influenciar a velocidade da rede, causando, às vezes, uma navegação menos eficiente. Além disso, quando enfrentam situações que mudam rapidamente, o desempenho do robô pode não ser ótimo, já que ele depende de consultas rápidas e precisas ao VLM.
Melhorando a Navegação Futura
Estamos animados para expandir nosso trabalho no futuro. Melhorias na tecnologia poderiam levar a VLMs mais rápidas que podem ser processadas localmente, reduzindo atrasos e aumentando a eficiência. Também planejamos incorporar uma maior conscientização do contexto, permitindo que os robôs façam melhores escolhas de navegação mesmo em ambientes dinâmicos.
Conclusão
O método que desenvolvemos representa um passo significativo à frente no campo da navegação de robôs. Ao utilizar tecnologia avançada de VLM e uma nova abordagem de marcação visual, os robôs conseguem entender melhor o que está ao seu redor e tomar decisões mais informadas. Isso significa que eles podem navegar tanto em espaços internos quanto externos, seguindo regras sociais que melhoram a segurança e a eficiência. À medida que continuamos a refinar essas tecnologias, esperamos que os robôs se tornem ainda mais hábeis em navegar ambientes complexos, servindo, no final das contas, uma ampla gama de aplicações práticas.
Título: CoNVOI: Context-aware Navigation using Vision Language Models in Outdoor and Indoor Environments
Resumo: We present ConVOI, a novel method for autonomous robot navigation in real-world indoor and outdoor environments using Vision Language Models (VLMs). We employ VLMs in two ways: first, we leverage their zero-shot image classification capability to identify the context or scenario (e.g., indoor corridor, outdoor terrain, crosswalk, etc) of the robot's surroundings, and formulate context-based navigation behaviors as simple text prompts (e.g. ``stay on the pavement"). Second, we utilize their state-of-the-art semantic understanding and logical reasoning capabilities to compute a suitable trajectory given the identified context. To this end, we propose a novel multi-modal visual marking approach to annotate the obstacle-free regions in the RGB image used as input to the VLM with numbers, by correlating it with a local occupancy map of the environment. The marked numbers ground image locations in the real-world, direct the VLM's attention solely to navigable locations, and elucidate the spatial relationships between them and terrains depicted in the image to the VLM. Next, we query the VLM to select numbers on the marked image that satisfy the context-based behavior text prompt, and construct a reference path using the selected numbers. Finally, we propose a method to extrapolate the reference trajectory when the robot's environmental context has not changed to prevent unnecessary VLM queries. We use the reference trajectory to guide a motion planner, and demonstrate that it leads to human-like behaviors (e.g. not cutting through a group of people, using crosswalks, etc.) in various real-world indoor and outdoor scenarios.
Autores: Adarsh Jagan Sathyamoorthy, Kasun Weerakoon, Mohamed Elnoor, Anuj Zore, Brian Ichter, Fei Xia, Jie Tan, Wenhao Yu, Dinesh Manocha
Última atualização: 2024-03-22 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2403.15637
Fonte PDF: https://arxiv.org/pdf/2403.15637
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.