Drones que Aprendem em Tempo Real
Revolucionando a navegação de drones com aprendizado auto-supervisionado e câmeras de eventos.
Jesse Hagenaars, Yilun Wu, Federico Paredes-Vallés, Stein Stroobants, Guido de Croon
― 7 min ler
Índice
Câmeras de evento são dispositivos especiais que capturam informações sobre mudanças de brilho em velocidades incríveis, usando pouca energia. Essa característica faz delas uma boa escolha para robôs pequenos, especialmente os voadores como drones. Eles conseguem reagir quase instantaneamente ao que veem, o que é super importante quando a gente quer que um robô evite obstáculos ou navegue em espaços apertados.
Tradicionalmente, robôs precisavam de muitos dados para aprender a reconhecer o que está ao redor. Isso significa coletar várias imagens em diferentes condições de luz e clima. Mas com as câmeras de evento, a gente pode ensinar os robôs diretamente do que tá ao redor, sem precisar juntar um monte de dados rotulados antes. Esse método é chamado de Aprendizado Auto-Supervisionado. Em resumo, permite que os robôs aprendam com suas experiências em tempo real.
O Desafio
Mas aqui vem o desafio: ensinar robôs em tempo real (trocadilho intencional) traz complicações. Primeiro, o robô precisa de poder computacional suficiente para aprender em tempo real enquanto ainda capta imagens. Isso é como tentar cozinhar um jantar gourmet enquanto tá numa montanha-russa – não é fácil!
Além disso, enquanto as câmeras de evento conseguem capturar um monte de dados rápido, os métodos típicos para aprender com esses dados nem sempre oferecem suporte eficiente. Normalmente, os dados reais – os valores conhecidos que ajudam no treinamento – chegam bem mais devagar do que a Câmera de Evento consegue capturar. Essa inconsistência pode atrasar o aprendizado.
Os autores desse trabalho decidiram encarar esses desafios de frente. Eles conseguiram fazer o processo de aprendizado ser mais rápido e menos exigente em termos de memória, tornando prático para drones aprenderem e melhorarem sua capacidade de perceber profundidade a partir dos dados de evento.
Como Funciona
O aprendizado auto-supervisionado através das câmeras de evento funciona permitindo que os robôs aprendam com as diferenças no brilho dos pixels. Ele usa algo chamado maximização de contraste para ajudar o robô a entender quão rápido as coisas estão se movendo e quão longe elas estão. Em vez de aprender com imagens totalmente rotuladas, ele aprende com as mudanças de brilho e padrões de movimento em tempo real.
A natureza rápida das câmeras de evento significa que elas podem ajudar os robôs a tomarem decisões rapidamente, permitindo processamento em tempo real. Por exemplo, se um drone vê um obstáculo, ele pode imediatamente ajustar seu caminho de voo. É como ter um tempo de reação super rápido, permitindo que o robô “veja” seu ambiente de formas novas.
Estimativa de Profundidade e Navegação
Uma aplicação importante dessa tecnologia é a estimativa de profundidade, que é como os robôs determinam quão longe os objetos estão. É como ter uma fita métrica embutida que ajuda eles a não colidirem com nada. As melhorias feitas no processo de estimativa de profundidade são cruciais para ajudar os robôs a navegarem em ambientes complexos.
Quando estão voando, os drones precisam identificar não só onde estão os obstáculos, mas também como manobrar ao redor deles com segurança. Os autores mostraram que seu método de aprendizado permite que os drones não apenas estimem profundidade, mas também usem essa informação em tempo real para evitar colisões potenciais. Em vez de colidir com paredes ou árvores, os drones agora conseguem "ver" seu entorno e reagir de uma forma parecida com como nós fazemos ao dirigir.
Aprendizado Online
O Processo deFocando no aprendizado auto-supervisionado, a equipe descobriu como permitir que os drones aprendam enquanto estão voando. Eles mostraram que, ao combinar pré-treinamento com aprendizado online, os drones poderiam adaptar sua percepção de profundidade e habilidades de navegação rapidamente.
Isso significa que, quando um drone decola, ele não se baseia apenas no que aprendeu antes. Ele pode continuar aprendendo com o que está vivendo durante o voo. Essa adaptabilidade em tempo real é especialmente importante para tarefas como navegar em ambientes internos, onde as coisas podem mudar rapidamente.
Configuração Experimental
A equipe construiu um pequeno drone quadricóptero equipado com uma câmera de evento. Esse drone pesava cerca de 800 gramas – não muito mais pesado do que um saco de farinha. Ele foi projetado para voar autonomamente, usando as informações que coletava para tomar decisões na hora.
Nos testes, eles descobriram que o drone conseguia voar e aprender ao mesmo tempo, tornando-o capaz de reconhecer e evitar obstáculos de forma eficiente. Os resultados mostraram que os drones conseguiam navegar melhor sem causar colisões, graças à sua percepção de profundidade melhorada e capacidades de aprendizado.
Resultados
E aí, o que eles descobriram? Os drones recém-treinados mostraram resultados impressionantes em evitar obstáculos. Os autores compararam os voos dos drones com e sem aprendizado online. Quando os drones puderam aprender durante os voos, eles precisaram muito menos de intervenção humana.
Isso significa que os drones que foram inicialmente treinados com uma variedade de dados se saíram melhor do que aqueles que foram jogados em ambientes desafiadores sem nenhum conhecimento prévio. É meio que como um estudante que estuda para uma prova se sair melhor do que alguém que vai de cabeça vazia.
Comparação de Performance
A performance da abordagem também foi medida em comparação a outros métodos. Enquanto os drones treinados usando aprendizado auto-supervisionado se saíram bem, ainda havia uma diferença notável se comparados a métodos supervisionados mais tradicionais. No entanto, o trabalho destacou o potencial do aprendizado auto-supervisionado para melhorar e se adaptar constantemente.
Mesmo que o aprendizado auto-supervisionado não tenha superado todas as abordagens tradicionais, ainda mostrou potencial. Os drones aprenderam a se adaptar rapidamente, tornando-os potencialmente mais úteis para aplicações do mundo real onde as situações podem mudar rapidamente.
Aplicações Práticas
Esse trabalho abre muitas aplicações práticas para aprendizado em tempo real em drones. A capacidade aprimorada de percepção de profundidade significa que drones futuros poderiam ser usados em tudo, desde entregas de pacotes até missões de busca e salvamento.
Imagine um drone voando por uma floresta, desviando de árvores e galhos em tempo real enquanto busca por um caminhante perdido. Ou imagine um drone de entrega que sempre encontra o caminho mais seguro para deixar seu pacote sem colidir com caixas de correio ou carros estacionados. As possibilidades são empolgantes!
Direções Futuras
Embora os resultados sejam animadores, ainda há espaço para melhorias. Os pesquisadores notaram que poderiam aprimorar ainda mais o algoritmo de aprendizado. À medida que técnicas de aprendizado auto-supervisionado amadurecem, os robôs ficarão ainda melhores em perceber seus ambientes sem precisar de muitos dados pré-coletados.
O trabalho futuro se concentrará em ajustar os métodos para minimizar a diferença de performance entre aprendizado auto-supervisionado e supervisionado. Com mais avanços, podemos ver drones não só voando autonomamente, mas também tomando decisões em frações de segundo com base no aprendizado contínuo de seus ambientes em constante mudança.
Conclusão
Resumindo, essa pesquisa mostra que é possível ensinar drones a ver e aprender com o que está ao redor em tempo real usando câmeras de evento. A capacidade de estimar profundidade enquanto voam abre novas oportunidades para como usamos robôs Autônomos.
Se os robôs puderem aprender com experiências em vez de depender apenas de conhecimento pré-estabelecido, eles serão muito mais capazes de navegar com segurança e eficiência no mundo real. Com os avanços contínuos nessa área, em breve poderemos ver drones que conseguem "pensar" e se adaptar tão rapidamente quanto voam.
E quem sabe? Talvez um dia eles consigam desviar daquela galho de árvore encrenqueiro como a gente faz ao passear com nossos cachorros!
Fonte original
Título: On-Device Self-Supervised Learning of Low-Latency Monocular Depth from Only Events
Resumo: Event cameras provide low-latency perception for only milliwatts of power. This makes them highly suitable for resource-restricted, agile robots such as small flying drones. Self-supervised learning based on contrast maximization holds great potential for event-based robot vision, as it foregoes the need to high-frequency ground truth and allows for online learning in the robot's operational environment. However, online, onboard learning raises the major challenge of achieving sufficient computational efficiency for real-time learning, while maintaining competitive visual perception performance. In this work, we improve the time and memory efficiency of the contrast maximization learning pipeline. Benchmarking experiments show that the proposed pipeline achieves competitive results with the state of the art on the task of depth estimation from events. Furthermore, we demonstrate the usability of the learned depth for obstacle avoidance through real-world flight experiments. Finally, we compare the performance of different combinations of pre-training and fine-tuning of the depth estimation networks, showing that on-board domain adaptation is feasible given a few minutes of flight.
Autores: Jesse Hagenaars, Yilun Wu, Federico Paredes-Vallés, Stein Stroobants, Guido de Croon
Última atualização: 2024-12-09 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2412.06359
Fonte PDF: https://arxiv.org/pdf/2412.06359
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.