Prevendo Movimentos de Pedestres para Carros Autônomos Mais Seguros
Um novo método melhora as previsões de movimento de pedestres para veículos autônomos.
― 7 min ler
Índice
Prever pra onde os pedestres vão se mover pode ajudar carros autônomos a evitar acidentes. Isso é importante pra manter tanto os pedestres quanto os motoristas seguros. Pra prever esses movimentos, usamos informações sobre as posições dos pedestres e a velocidade do carro. Nossa abordagem se concentra em como fazer isso de forma rápida e precisa.
Contexto
Prever os movimentos dos pedestres é influenciado por muitos fatores. Isso inclui a presença de outras pessoas e carros, quão rápido um veículo tá se movimentando e as condições gerais ao redor. Recentemente, cientistas têm analisado métodos diferentes pra melhorar essa Previsão.
Alguns métodos comuns envolvem o uso de redes chamadas Long Short-Term Memory (LSTM) e Gated Recurrent Units (GRU). Essas têm sido muito usadas pra previsões baseadas em tempo. Recentemente, uma nova rede chamada transformers foi reconhecida pelo seu ótimo desempenho em lidar com Dados relacionados ao tempo.
Mas, transformers precisam de muitos dados e às vezes têm dificuldade com overfitting, o que significa que funcionam bem nos dados de treino, mas falham em dados novos que não foram vistos.
O contexto importa muito na hora de prever como os pedestres se movem. Por exemplo, informações como imagens do entorno ou a velocidade do carro podem dar dicas úteis. Alguns estudos mostram que, quando usamos tanto informações visuais quanto não visuais, as previsões podem melhorar bastante.
Ainda assim, mesmo que transformers sejam ótimos em usar dados contextuais, eles não foram muito aplicados na previsão de movimentos de pedestres até agora.
Nossa Abordagem
A gente apresenta um novo método baseado em transformers que combina tanto os movimentos dos pedestres quanto a velocidade do carro. Em vez de prever o próximo passo um por um, nosso método prevê todo o caminho futuro do pedestre de uma vez. Isso torna adequado pra cálculos rápidos em dispositivos pequenos, como os usados em carros autônomos.
Fizemos testes extensivos usando dois conjuntos de dados conhecidos, chamados PIE e JAAD. Os resultados mostraram que nosso método foi melhor do que os outros disponíveis. Ele teve a menor margem de erro ao prever os caminhos em diferentes intervalos de tempo, sendo 0.5 segundos, 1.0 segundos e 1.5 segundos. Além disso, nosso método provou ser mais rápido do que as técnicas existentes pra esses conjuntos de dados.
Principais Contribuições
Previsão de Uma Só Vez: Nosso método pega uma entrada única pra prever uma Trajetória futura inteira pros pedestres, combinando os dados observados dos pedestres e a velocidade do veículo pra aumentar a precisão. Isso significa que conseguimos prever como um pedestre vai se mover sem precisar de várias pequenas previsões repetidas.
Validação de Desempenho: Através de testes, mostramos que nosso método é melhor do que as técnicas existentes em benchmarks populares, com menos tempo necessário pra fazer previsões.
Código Aberto: Disponibilizamos nosso código pra que outros possam usar e desenvolver a partir dele, ajudando na pesquisa nessa área.
Trabalhos Relacionados
A pesquisa em previsão de movimento de pedestres pode ser dividida em dois tipos principais: a visão de cima pra baixo e a visão de perto. Nossa abordagem se encaixa na visão de perto, pois observa as coisas pela perspectiva do carro.
Visão de Cima
Nesse tipo de previsão, os movimentos são previstos a partir de uma perspectiva mais alta. Os métodos antigos costumavam usar redes LSTM. Algumas abordagens combinaram mapas de cena e dados de trajetória pra prever pra onde os pedestres vão, enquanto outros recentemente usaram transformers pra prever movimentos futuros de forma eficaz.
Visão de Perto
Esse método é mais complicado porque a perspectiva do movimento pode mudar com a velocidade do carro. Muitos métodos nessa área têm utilizado redes recorrentes. Por exemplo, alguns usaram LSTMs junto com outros dados pra prever os movimentos futuros dos pedestres. Outros métodos incluíram informações visuais pra ajudar a estimar se um pedestre quer atravessar a rua.
Como Nosso Método Funciona
Preparação do Problema
No nosso modelo, a gente define a posição do pedestre e pode criar uma área ao redor deles chamada caixa delimitadora. Nosso objetivo é desenvolver um método que preveja com precisão a posição futura do pedestre com base nos movimentos passados e na velocidade do carro.
Solução Proposta
Nossa abordagem usa a velocidade do veículo pra melhorar as previsões. Estudos mostraram que quão rápido um carro tá se movendo afeta como ele vê e interage com o ambiente. Assim, combinamos tanto os movimentos observados dos pedestres quanto a velocidade do carro pra fazer previsões sobre os movimentos futuros.
Desenvolvemos um modelo baseado em transformers que processa informações de uma maneira que permite aprender efetivamente tanto com os movimentos dos pedestres quanto com a velocidade do carro. Começamos extraindo características das localizações e Velocidades e, depois, combinamos essas informações em formatos que o modelo consegue entender.
Pra produzir previsões, usamos um decoder que pega as informações combinadas. Muitos métodos tradicionais usam valores passados reais pra ajudar a prever movimentos futuros. Nosso método, porém, usa uma entrada vazia simples junto com os dados aprendidos, o que permite que o modelo foque na previsão toda de uma vez.
Implementação
Treinamos nosso modelo com configurações específicas, otimizando-o pra desempenho. Fazendo isso, conseguimos alcançar um equilíbrio entre velocidade e precisão. Testamos em dois conjuntos de dados principais: JAAD e PIE, que incluem milhares de movimentos de pedestres registrados em alta taxa de quadros.
Métricas de Avaliação
Pra determinar como nosso modelo se sai, usamos o Erro Quadrático Médio (MSE) pra medir a diferença entre os movimentos previstos e os reais. Também analisamos quão próximas as posições previstas e reais estavam no final do intervalo de tempo previsto.
Nosso método mostrou desempenho melhor do que todas as abordagens existentes nos dois conjuntos de dados. O desempenho foi consistente em todos os horizontes de previsão, com melhorias ainda maiores nos intervalos de previsão mais longos.
Resultados
Pelé as avaliações, podemos resumir que usar a velocidade do veículo é crucial pra melhorar as previsões. Descobrimos que, quando excluímos a velocidade do modelo, o desempenho caiu, mostrando que ela tem um papel significativo, especialmente em previsões mais longas.
Testamos também o desempenho do modelo usando apenas a velocidade e notamos uma queda significativa na capacidade de previsão. Isso indica que a combinação de dados dos pedestres e do veículo é essencial pra aplicações práticas.
Comparações qualitativas também foram feitas. Em alguns exemplos, onde o carro estava em movimento versus parado, nosso método consistentemente superou os outros. Os movimentos previstos foram mais precisos e se alinharam bem com os movimentos reais observados.
Conclusão
Neste estudo, apresentamos uma nova abordagem usando um modelo transformer multimodal pra prever movimentos de pedestres com base em ações observadas e na velocidade do veículo. Esse método é projetado pra cálculos rápidos adequados a dispositivos de borda e alcança alto desempenho em diferentes cenários.
Nosso método não só demonstra resultados melhores do que as técnicas existentes, mas também destaca a importância de usar tanto a trajetória dos pedestres quanto dados de velocidade do veículo pra uma maior precisão. A redução significativa no tempo de inferência garante que nosso modelo possa ser aplicado de forma eficaz em aplicações em tempo real em carros autônomos. Agradecemos a várias organizações e recursos que apoiaram essa pesquisa e esperamos ver mais desenvolvimentos nessa área.
Título: Context-aware Pedestrian Trajectory Prediction with Multimodal Transformer
Resumo: We propose a novel solution for predicting future trajectories of pedestrians. Our method uses a multimodal encoder-decoder transformer architecture, which takes as input both pedestrian locations and ego-vehicle speeds. Notably, our decoder predicts the entire future trajectory in a single-pass and does not perform one-step-ahead prediction, which makes the method effective for embedded edge deployment. We perform detailed experiments and evaluate our method on two popular datasets, PIE and JAAD. Quantitative results demonstrate the superiority of our proposed model over the current state-of-the-art, which consistently achieves the lowest error for 3 time horizons of 0.5, 1.0 and 1.5 seconds. Moreover, the proposed method is significantly faster than the state-of-the-art for the two datasets of PIE and JAAD. Lastly, ablation experiments demonstrate the impact of the key multimodal configuration of our method.
Autores: Haleh Damirchi, Michael Greenspan, Ali Etemad
Última atualização: 2023-07-07 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2307.03786
Fonte PDF: https://arxiv.org/pdf/2307.03786
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.