Robôs em Espaços Abertos: Uma Nova Abordagem
Combinando instruções humanas e tecnologia pra uma navegação robótica mais segura.
Kasun Weerakoon, Mohamed Elnoor, Gershom Seneviratne, Vignesh Rajagopal, Senthil Hariharan Arul, Jing Liang, Mohamed Khalid M Jaffar, Dinesh Manocha
― 5 min ler
Índice
Os robôs hoje em dia estão ficando cada vez mais comuns nos nossos espaços ao ar livre. Eles ajudam com tarefas como entrega, inspeção e até busca e salvamento. Mas, pra que os robôs funcionem direitinho nesses ambientes, eles precisam seguir algumas regras ou comportamentos baseados em instruções humanas. Por exemplo, se um robô tá operando numa cidade, ele precisa saber que tem que parar nos sinais vermelhos, dar passagem pros ciclistas ou ficar na calçada.
Pra ajudar os robôs a entenderem e seguirem essas instruções, a gente desenvolveu uma nova abordagem que mistura instruções das pessoas com tecnologia avançada que consegue interpretar esses comandos. Isso permite que o robô reconheça pontos de referência importantes e entenda quais ações ele precisa tomar com base no que tá ao seu redor.
Como Funciona
Nosso sistema divide as instruções dadas pelas pessoas em duas partes principais: Instruções de Navegação e regras de comportamento.
Instruções de Navegação
As instruções de navegação dizem pro robô pra onde ir. Isso pode incluir comandos como "anda pra frente até ver um prédio" ou "vira à esquerda no parque." Essas instruções ajudam o robô a identificar marcos que guiam seu caminho.
Instruções de Comportamento
As instruções de comportamento guiam as ações do robô com base no ambiente. Por exemplo, um robô pode receber instruções como "fique na calçada" ou "pare para os pedestres." Essas instruções ajudam a garantir que o robô interaja de forma segura e apropriada com as pessoas e outros obstáculos.
Usando Tecnologia Avançada
Pra processar essas instruções humanas, usamos modelos avançados chamados Modelos de Linguagem Visual (VLMs). Esses modelos permitem que o robô entenda imagens e texto juntos, tornando possível interpretar os comandos humanos de forma eficaz.
Compreensão de Cena
Quando um robô tá navegando por uma área, ele precisa reconhecer informações do seu entorno. Por exemplo, ele precisa identificar prédios, calçadas e outros objetos. Os VLMs que usamos conseguem analisar imagens da câmera do robô e gerar um mapa que mostra onde diferentes objetos estão localizados.
Mapas de Custo Comportamental
Nós introduzimos algo chamado "mapa de custo comportamental." Esse mapa ajuda o robô a avaliar como agir em diferentes situações baseado no que ele vê. Por exemplo, se o robô detecta uma placa de pare, o mapa de custo pode sinalizar que ele deve desacelerar ou parar. Isso permite que o robô navegue com segurança ao redor de pessoas e outros obstáculos.
O mapa de custo comportamental é criado processando imagens do ambiente do robô e combinando-as com as ações comportamentais que o robô precisa seguir. A gente usa as informações sobre quais ações são preferíveis pra criar um mapa que diz pro robô o que fazer em diferentes cenários.
Planejamento e Navegação
Uma vez que o robô tem uma boa compreensão do seu ambiente através do mapa de custo comportamental, ele precisa de um plano pra navegar de forma eficaz.
Planejamento de Movimento
A gente desenvolveu um planejador que permite que o robô crie caminhos suaves enquanto segue as regras que aprendeu com as instruções humanas. Esse planejador não só foca em chegar ao destino, mas também garante que o robô evite obstáculos e siga as normas sociais.
O planejador usa dados em tempo real pra ajustar os movimentos do robô conforme necessário. Por exemplo, se uma pessoa de repente aparecer na frente do robô, o planejador pode reavaliar o caminho e fazer ajustes pra garantir que o robô não colida com ninguém.
Aplicação no Mundo Real
A gente testou nossa abordagem usando um tipo de robô chamado quadrúpede, que é projetado pra se mover em diferentes terrenos como grama, concreto e escadas. Nossos testes mostraram que o robô conseguiu navegar por vários ambientes enquanto seguia de perto as instruções comportamentais fornecidas.
Resultados
Nos nossos testes, a gente viu que o robô conseguiu melhorar seu desempenho com base nas orientações que recebeu. Por exemplo, ele mostrou um aumento significativo na sua capacidade de seguir comandos humanos e navegar com sucesso sem bater em obstáculos. No geral, o sistema teve uma taxa de sucesso maior em comparação com outros métodos existentes.
Desafios Práticos
Embora nossa abordagem tenha sido eficaz, a gente também notou algumas limitações. Por exemplo, o desempenho do robô poderia ser afetado por mudanças nas condições de iluminação. Em ambientes escuros ou muito claros, a capacidade do robô de ver e entender seu entorno pode diminuir. Além disso, pode haver momentos em que os VLMs não interpretam exatamente as informações, o que pode levar a erros na navegação.
Conclusão
Resumindo, a gente criou uma abordagem que ajuda os robôs a navegar em cenas ao ar livre usando instruções humanas combinadas com tecnologia avançada. Nosso sistema consegue interpretar comandos complexos, ajudando os robôs a entender o que eles veem e como agir em várias situações. Usando mapas de custo comportamental e um planejador inteligente, os robôs conseguem se mover de forma segura e eficaz em ambientes dinâmicos.
À medida que os robôs continuam a ter um papel maior nas nossas vidas diárias, melhorar a capacidade deles de entender instruções e navegar de forma segura vai ser crucial. Desenvolvimentos futuros podem focar em tornar esses sistemas ainda mais robustos a diferentes condições ambientais e melhorar suas capacidades de percepção.
Ao melhorar a forma como os robôs interagem com o seu entorno, a gente pode torná-los ajudantes mais capazes e confiáveis em muitas tarefas do dia a dia, abrindo caminho pra um futuro mais automatizado e eficiente.
Título: BehAV: Behavioral Rule Guided Autonomy Using VLMs for Robot Navigation in Outdoor Scenes
Resumo: We present BehAV, a novel approach for autonomous robot navigation in outdoor scenes guided by human instructions and leveraging Vision Language Models (VLMs). Our method interprets human commands using a Large Language Model (LLM) and categorizes the instructions into navigation and behavioral guidelines. Navigation guidelines consist of directional commands (e.g., "move forward until") and associated landmarks (e.g., "the building with blue windows"), while behavioral guidelines encompass regulatory actions (e.g., "stay on") and their corresponding objects (e.g., "pavements"). We use VLMs for their zero-shot scene understanding capabilities to estimate landmark locations from RGB images for robot navigation. Further, we introduce a novel scene representation that utilizes VLMs to ground behavioral rules into a behavioral cost map. This cost map encodes the presence of behavioral objects within the scene and assigns costs based on their regulatory actions. The behavioral cost map is integrated with a LiDAR-based occupancy map for navigation. To navigate outdoor scenes while adhering to the instructed behaviors, we present an unconstrained Model Predictive Control (MPC)-based planner that prioritizes both reaching landmarks and following behavioral guidelines. We evaluate the performance of BehAV on a quadruped robot across diverse real-world scenarios, demonstrating a 22.49% improvement in alignment with human-teleoperated actions, as measured by Frechet distance, and achieving a 40% higher navigation success rate compared to state-of-the-art methods.
Autores: Kasun Weerakoon, Mohamed Elnoor, Gershom Seneviratne, Vignesh Rajagopal, Senthil Hariharan Arul, Jing Liang, Mohamed Khalid M Jaffar, Dinesh Manocha
Última atualização: 2024-10-02 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2409.16484
Fonte PDF: https://arxiv.org/pdf/2409.16484
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.