Simple Science

Ciência de ponta explicada de forma simples

# Informática# Robótica# Inteligência Artificial

Robôs Aprendem a Navegar Usando Instruções Misturadas

Os robôs melhoram a navegação entendendo tanto fala quanto imagens.

― 7 min ler


Robôs e NavegaçãoRobôs e NavegaçãoMultimodalnavegar usando várias instruções.Novas abordagens ajudam os robôs a
Índice

No mundo de hoje, robôs tão ficando cada vez mais comuns. Eles ajudam a gente em várias tarefas, desde limpar a casa até dar uma força nos escritórios. Uma área onde os robôs podem melhorar muito é a Navegação. Os métodos tradicionais de fazer robôs se moverem de um lugar pra outro muitas vezes exigem que os usuários dêem direções específicas ou criem mapas detalhados antes. Isso pode ser meio limitante e não muito amigável. Pra deixar os robôs mais úteis e fáceis de usar, precisamos de uma nova abordagem que permita que eles entendam instruções tanto em fala quanto em imagens ao mesmo tempo.

O Desafio da Navegação Multimodal

Navegação multimodal é sobre fazer com que os robôs entendam e reajam a instruções que incluam diferentes formas de comunicação, como linguagem falada e imagens. Por exemplo, se alguém levanta uma caixa e pergunta: "Onde devo devolver isso?", um robô esperto deveria reconhecer tanto a pergunta quanto a dica visual pra guiar o usuário sobre onde colocar a caixa. Esse tipo de interação é bem natural pra gente, mas exige tecnologia avançada pra que os robôs consigam.

A Importância dos Passeios de Demonstração

Uma maneira eficaz de ajudar os robôs a entenderem o ambiente é usando passeios de demonstração. Esses são vídeos que mostram pro robô o lugar que ele tem que navegar. Quando um usuário anda por aí com o robô, pode gravar o passeio no celular. Esse método é fácil e combina bem com como os usuários costumam conhecer seus robôs.

Em muitos casos, o robô pode aprender sobre a disposição de um espaço sem precisar explorar tudo sozinho. Em vez disso, ele pode contar com as informações que foram dadas no vídeo de demonstração, economizando tempo e melhorando a usabilidade.

Como os Robôs Aprendem a Navegar

Pra navegar com sucesso usando instruções multimodais, os robôs precisam de uma combinação de Raciocínio de alto nível e planejamento de ações de baixo nível. A parte de raciocínio de alto nível é responsável por interpretar as instruções e combiná-las com quadros relevantes do vídeo de demonstração. Enquanto isso, o planejamento de baixo nível determina os movimentos precisos que o robô precisa fazer pra chegar ao local alvo.

A política de alto nível pega o vídeo de demonstração e as instruções do usuário pra identificar o melhor quadro pra navegar. Depois, a política de baixo nível usa esse quadro pra calcular os passos que o robô precisa dar, garantindo um caminho suave até o destino.

Testes no Mundo Real

Nos nossos testes, avaliamos nosso método em um ambiente de escritório real. O escritório tinha 836 metros quadrados, cheio de vários itens do dia a dia, como mesas e prateleiras. Criamos um passeio de demonstração fazendo um usuário andar com um robô e gravar o que estava ao redor.

Quando tínhamos os dados, demos pro robô diferentes tipos de instruções de usuários. Essas instruções foram agrupadas em categorias com base na complexidade e nos requisitos de raciocínio. Por exemplo, algumas instruções só precisavam de ações simples, enquanto outras exigiam que o robô entendesse melhor o contexto.

Taxas de Sucesso

Nossos experimentos mostraram altas taxas de sucesso do robô em navegar pelo escritório com base nas instruções dadas. Em muitas situações, o robô conseguiu lidar com tarefas complexas, até aquelas que antes eram consideradas desafiadoras. Por exemplo, quando recebeu a instrução "Onde devo devolver isso?" enquanto segurava uma caixa plástica, o robô conseguiu identificar o local certo no escritório pra devolver.

Os resultados mostraram que o robô conseguia navegar de forma eficiente, seguindo as instruções em linguagem natural e as dicas visuais do vídeo de passeio. A capacidade de integrar ambos os elementos fez uma grande diferença em como o robô entendia os pedidos dos usuários.

O Papel dos Modelos Visão-Linguagem

Uma parte crítica da nossa abordagem envolveu o uso de Modelos Avançados de Visão-Linguagem (VLMs). Esses modelos são projetados pra processar e entender tanto imagens quanto texto. No nosso sistema, o VLM pega a instrução do usuário e compara com os quadros do vídeo de demonstração pra identificar o mais relevante pra navegação.

Mas, os VLMs tradicionais podem ter dificuldades em ambientes grandes, especialmente se eles têm limites rígidos sobre o número de imagens que podem processar de cada vez. Então, incorporamos VLMs de longo contexto, que conseguem entender mais imagens e dar melhores respostas.

Como a Política Hierárquica Funciona

A política hierárquica que desenvolvemos consiste em dois níveis. A política de alto nível encontra o quadro alvo no vídeo que melhor se encaixa com a instrução do usuário. A política de baixo nível então calcula o melhor caminho pro robô seguir a partir da sua localização atual até o quadro alvo identificado.

Essa abordagem em duas etapas é essencial porque permite que o robô aproveite o contexto detalhado fornecido pelo passeio de demonstração, enquanto garante que consiga executar ações específicas de forma confiável.

Desempenho em Diferentes Cenários

O robô foi testado em várias condições e ambientes, incluindo um espaço de escritório simulado. Nesses testes, ele conseguiu replicar estratégias de navegação bem-sucedidas, alcançando taxas impressionantes de conclusão de tarefas baseadas nas instruções dos usuários.

Durante os testes ao vivo e simulados, o robô mostrou que conseguia se adaptar a novos ambientes. Ele processou com sucesso instruções multimodais, tornando-se uma ferramenta versátil pra navegar em espaços complexos.

A Importância da Interação com o Usuário

Um aspecto chave pra tornar os robôs mais eficazes é garantir que possam interagir de forma natural com os usuários. Nossa abordagem permite que os usuários forneçam instruções de um jeito que parece intuitivo. Só de levantar um objeto ou fazer uma pergunta, os humanos conseguem direcionar as ações do robô sem precisar entender muito sobre programação ou tecnologia.

Essa facilidade de interação é vital pra uma adoção maior dos robôs em cenários práticos, seja em casas, escritórios ou espaços públicos.

Limitações e Próximos Passos

Embora nossa abordagem mostre grande potencial, há áreas que precisam de melhorias. Uma limitação é que o sistema atual depende muito do passeio de demonstração e ainda não permite que o robô explore espontaneamente. Integrar capacidades de exploração poderia aumentar a adaptabilidade do robô.

Além disso, os tempos de resposta do VLM podem às vezes levar a atrasos nas interações, o que pode ser frustrante pros usuários. Otimizar esse aspecto será importante pra melhorar a experiência geral.

Conclusão

Em resumo, apresentamos uma nova maneira de fazer os robôs navegarem usando instruções multimodais, combinando linguagem natural e dicas visuais. Nosso método mostra que uma interação e navegação eficaz podem ser alcançadas através de passeios de demonstração e modelos avançados de aprendizado de máquina.

Com avanços e otimizações contínuas, os robôs podem se tornar ainda mais úteis, ajudando as pessoas em tarefas do dia a dia e melhorando suas interações com a tecnologia. O futuro parece promissor pra navegação multimodal, e estamos empolgados pra ver como esses desenvolvimentos vão se desenrolar.

Fonte original

Título: Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs

Resumo: An elusive goal in navigation research is to build an intelligent agent that can understand multimodal instructions including natural language and image, and perform useful navigation. To achieve this, we study a widely useful category of navigation tasks we call Multimodal Instruction Navigation with demonstration Tours (MINT), in which the environment prior is provided through a previously recorded demonstration video. Recent advances in Vision Language Models (VLMs) have shown a promising path in achieving this goal as it demonstrates capabilities in perceiving and reasoning about multimodal inputs. However, VLMs are typically trained to predict textual output and it is an open research question about how to best utilize them in navigation. To solve MINT, we present Mobility VLA, a hierarchical Vision-Language-Action (VLA) navigation policy that combines the environment understanding and common sense reasoning power of long-context VLMs and a robust low-level navigation policy based on topological graphs. The high-level policy consists of a long-context VLM that takes the demonstration tour video and the multimodal user instruction as input to find the goal frame in the tour video. Next, a low-level policy uses the goal frame and an offline constructed topological graph to generate robot actions at every timestep. We evaluated Mobility VLA in a 836m^2 real world environment and show that Mobility VLA has a high end-to-end success rates on previously unsolved multimodal instructions such as "Where should I return this?" while holding a plastic bin. A video demonstrating Mobility VLA can be found here: https://youtu.be/-Tof__Q8_5s

Autores: Hao-Tien Lewis Chiang, Zhuo Xu, Zipeng Fu, Mithun George Jacob, Tingnan Zhang, Tsang-Wei Edward Lee, Wenhao Yu, Connor Schenck, David Rendleman, Dhruv Shah, Fei Xia, Jasmine Hsu, Jonathan Hoech, Pete Florence, Sean Kirmani, Sumeet Singh, Vikas Sindhwani, Carolina Parada, Chelsea Finn, Peng Xu, Sergey Levine, Jie Tan

Última atualização: 2024-07-12 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.07775

Fonte PDF: https://arxiv.org/pdf/2407.07775

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes