Controlando Veículos Autônomos Usando Simulação
Um novo método permite que veículos autônomos sejam controlados sem dados do mundo real.
― 7 min ler
Índice
Esse artigo discute o desenvolvimento de um novo método para controlar um veículo autônomo em escala sem precisar de dados do mundo real. O foco é usar Simulação para criar um sistema de controle que funcione bem no mundo real sem experiência prévia de situações de direção reais. Isso é conhecido como Zero-Shot Transfer (ZST). A abordagem usa uma Rede Neural (NN) que aprende a partir de tipos específicos de cenários de direção simulados, permitindo que o veículo siga caminhos definidos tanto em velocidades constantes quanto variáveis.
Simulação no Design de Veículos
A simulação tem um papel crucial no design de robôs e veículos autônomos. Ao usar ambientes simulados, os pesquisadores podem reduzir os custos, acelerar o processo de design e testar muitos designs diferentes em várias situações que são difíceis de replicar na vida real. No entanto, existe um desafio conhecido como a lacuna "simulação-realidade". Essa lacuna significa que um algoritmo que funciona bem na simulação pode não ter o mesmo desempenho esperado no mundo real devido a complexidades difíceis de modelar, como atrasos nas operações ou imprecisões nos dados dos sensores.
Usar aprendizado de máquina para criar políticas de controle amplifica esse problema, já que o processo de aprendizado depende totalmente de informações simuladas. Abordagens anteriores ao ZST muitas vezes não mostraram eficácia no mundo real ou precisaram de uma mistura de dados simulados e reais para treino.
Abordagem Geral
Este estudo propõe um método geral que usa uma plataforma de simulação específica para criar um controlador baseado em aprendizado de máquina e, em seguida, testa isso em um veículo em escala. As principais contribuições dessa pesquisa são:
- Usar um simulador físico de alta fidelidade que permite desenvolver políticas de controle sem precisar ajustar a simulação para diferentes condições.
- Empregar uma Rede Neural que aprende por imitação, usando dados coletados de um número limitado de rotas de referência. Esses dados vêm de um motorista humano na simulação ou de um sistema de Controle Preditivo de Modelo (MPC) que opera o veículo com base em caminhos definidos.
- Demonstrar que a plataforma de simulação pode apoiar eficazmente o desenvolvimento de sistemas autônomos com características adequadas para aplicações do mundo real.
Trabalhos Relacionados
Embora outros estudos tenham tentado desenvolver controladores para veículos autônomos principalmente por meio de simulação, muitos deles ainda dependem de dados do mundo real para validação. Por exemplo, alguns se concentram em desenvolver soluções que usam câmeras e outros sensores para coletar informações do ambiente e informar diretamente os comandos de controle. Outros tentaram fechar a lacuna entre simulação e realidade transformando dados simulados para se parecerem com dados do mundo real, mas ainda requerem alguns dados reais para processamento.
Além disso, muitos métodos existentes utilizam Randomização de Domínio (DR) para tornar as simulações mais robustas. Isso envolve mudar o ambiente de simulação de maneiras que ajudem os algoritmos a performar melhor em situações reais. No entanto, este estudo evita intencionalmente o DR, enfatizando em vez disso a eficácia do simulador que está sendo usado.
Plataformas Chrono e ART/ATK
A pesquisa usa um motor de simulação chamado Chrono, que pode realizar modelagem detalhada de veículos e sensores. Esse motor permite a criação de vários cenários de direção, tornando-o adequado para o treinamento de sistemas de controle. A plataforma ART/ATK integra esse motor de simulação, possibilitando a simulação e o teste real de algoritmos autônomos no mesmo veículo.
A plataforma opera usando ROS2 (Sistema Operacional de Robôs), permitindo uma pilha de autonomia consistente que roda tanto em simulação quanto em testes no mundo real. Essa coerência em software e hardware oferece uma grande vantagem para testes em tempo real e avaliação de desempenho.
Modelo de Controle e Coleta de Dados
Para desenvolver um controlador para o veículo, um modelo simplificado é usado que captura dinâmicas essenciais enquanto permite cálculos eficientes. O modelo inclui estados como posição, ângulo de direção e velocidade. Os comandos de controle envolvem entradas de direção e aceleração, que guiam o veículo ao longo de um caminho predefinido.
Os dados de treinamento são coletados através de dois métodos principais: simulação com humano no circuito (HIL) e MPC. Nas simulações HIL, um motorista humano opera o veículo virtual, gravando suas ações e o estado correspondente do veículo ao se desviar de uma trajetória definida. Alternativamente, uma abordagem MPC gera comandos para manter o veículo na pista com base em condições predefinidas. Esses dados são críticos para treinar a NN para imitar o comportamento de direção.
Treinamento da Rede Neural
O estudo implementa uma Rede Neural do tipo feed-forward que aprende a controlar o veículo com base nos dados de treinamento coletados. Essa NN é estruturada com duas camadas ocultas, projetadas para prever comandos de controle apropriados com base nos estados de erro do veículo. O processo de treinamento foca em mapear esses estados de erro para ações específicas do veículo, permitindo que a NN aprenda a responder de forma eficaz na simulação e depois em direções do mundo real.
O treinamento da NN é rápido, levando apenas alguns minutos devido à simplicidade dos dados de entrada e saída, o que possibilita um treinamento eficiente do modelo e ciclos de iteração mais rápidos.
Testes e Resultados
Para avaliar o desempenho da NN, vários testes foram realizados em um estacionamento. A NN foi testada em condições de velocidade constante e variada ao longo de trajetórias distintas. Os resultados mostraram que a NN conseguiu navegar com sucesso pelos caminhos, transicionando suavemente entre os waypoints enquanto seguia os perfis de velocidade estabelecidos.
Nos testes de velocidade constante, o veículo seguiu uma rota com diferentes curvas e caminhos retos, permitindo a avaliação de quão precisamente a NN poderia manter sua trajetória quando comandada. Avaliações adicionais envolviam testar quão bem a NN poderia se adaptar a velocidades variáveis ao longo de sua rota.
As descobertas indicaram que o controlador NN transferiu efetivamente seu desempenho da simulação para a realidade, apesar das complexidades inerentes à direção no mundo real. Observações revelaram diferenças com base nos métodos de treinamento, com a NN treinada através de dados HIL exibindo um controle mais suave, mas menos precisão do que a NN treinada através do sistema MPC.
Conclusão
Este estudo destaca a aplicação bem-sucedida do Zero-Shot Transfer para controlar veículos autônomos em escala usando simulação. Ao focar em uma plataforma de simulação robusta e métodos de treinamento eficientes, a pesquisa demonstra que políticas de controle eficazes podem ser desenvolvidas sem depender de dados extensivos do mundo real.
A integração das plataformas Chrono e ART/ATK promove uma abordagem mais simplificada para criar e testar algoritmos de direção autônoma, aumentando o potencial para implementações práticas em ambientes do mundo real. O trabalho em andamento visa refinar ainda mais esses métodos e explorar sua aplicação em diferentes tipos de veículos autônomos e cenários, enfatizando a importância da adaptabilidade em tempo real e do aprendizado em condições dinâmicas.
Título: Zero-Shot Policy Transferability for the Control of a Scale Autonomous Vehicle
Resumo: We report on a study that employs an in-house developed simulation infrastructure to accomplish zero shot policy transferability for a control policy associated with a scale autonomous vehicle. We focus on implementing policies that require no real world data to be trained (Zero-Shot Transfer), and are developed in-house as opposed to being validated by previous works. We do this by implementing a Neural Network (NN) controller that is trained only on a family of circular reference trajectories. The sensors used are RTK-GPS and IMU, the latter for providing heading. The NN controller is trained using either a human driver (via human in the loop simulation), or a Model Predictive Control (MPC) strategy. We demonstrate these two approaches in conjunction with two operation scenarios: the vehicle follows a waypoint-defined trajectory at constant speed; and the vehicle follows a speed profile that changes along the vehicle's waypoint-defined trajectory. The primary contribution of this work is the demonstration of Zero-Shot Transfer in conjunction with a novel feed-forward NN controller trained using a general purpose, in-house developed simulation platform.
Autores: Harry Zhang, Stefan Caldararu, Sriram Ashokkumar, Ishaan Mahajan, Aaron Young, Alexis Ruiz, Huzaifa Unjhawala, Luning Bakke, Dan Negrut
Última atualização: 2023-09-18 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2309.09870
Fonte PDF: https://arxiv.org/pdf/2309.09870
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.