Avanços no rastreamento de objetos 3D com BOTT
A BOTT traz uma abordagem inovadora pra rastrear objetos 3D em carros autônomos.
― 12 min ler
Índice
O rastreamento de objetos 3D é crucial para carros autônomos. Tradicionalmente, métodos baseados em Filtro de Kalman têm sido amplamente usados. No entanto, esses métodos envolvem muito trabalho manual na modelagem de movimento e não conseguem aproveitar totalmente a crescente quantidade de dados. Nesse contexto, uma nova abordagem chamada Box Only Transformer Tracker (BOTT) foi proposta, que aprende a conectar caixas 3D do mesmo objeto em diferentes quadros.
O BOTT usa todas as caixas 3D durante um determinado período como entrada. Ele emprega uma técnica chamada autoatenção de transformadores para permitir que as caixas compartilhem informações, ajudando a criar representações significativas das caixas. As semelhanças aprendidas entre essas representações podem ser usadas para conectar caixas pertencentes ao mesmo objeto. O BOTT pode funcionar perfeitamente em cenários de rastreamento online e offline. Seu design simples reduz significativamente o tempo de engenharia tradicionalmente necessário para métodos de Filtro de Kalman. Testes indicam que o BOTT tem um desempenho competitivo em principais benchmarks de rastreamento de objetos 3D.
A Importância do Rastreamento de Objetos 3D
A tecnologia de direção autônoma ganhou muito interesse nos últimos anos. Uma parte fundamental para tornar os veículos autônomos seguros é identificar e rastrear com precisão objetos 3D ao seu redor. Isso envolve tanto o reconhecimento de objetos quanto o acompanhamento de seus movimentos. Um progresso considerável foi feito na detecção de objetos 3D, graças a grandes conjuntos de dados públicos e métodos avançados de detecção. No entanto, rastrear objetos usando métodos de detecção continua sendo uma escolha popular, já que eles podem aproveitar o poder de detectores 3D avançados.
A maioria dos métodos de rastreamento existentes ainda depende do Filtro de Kalman. Esses rastreadores são ótimos devido ao seu encaixe natural para rastrear movimento 3D. No entanto, eles têm suas desvantagens. Primeiro, uma série de filtros de Kalman são necessários para diferentes tipos de movimento, tornando-os complexos. Em segundo lugar, esses rastreadores não podem utilizar plenamente os modernos grandes conjuntos de dados para melhorar seu desempenho.
Alguns métodos mais novos visam combinar detecção e rastreamento em um único passo. Embora esses possam identificar e rastrear objetos juntos, muitas vezes enfrentam desafios devido à forma como a detecção 3D funciona. Detectar objetos foca na localização deles em um momento específico, enquanto rastrear requer uma memória mais ampla dos movimentos ao longo do tempo. Portanto, treinar com dados significativamente maiores em aspectos espaciais e temporais continua sendo um desafio.
Arquitetura do BOTT
A arquitetura do BOTT inclui dois componentes principais: a rede BOTT e o módulo de rastreamento de caixas. O processo começa com uma janela deslizante que coleta todas as caixas 3D de quadros consecutivos. A rede BOTT então gera uma matriz que mostra como as caixas podem se conectar em três etapas: codificação de características para cada caixa, usando autoatenção para entender relações entre as caixas e gerando pontuações de ligação através de cálculos de produto escalar. O módulo de rastreamento de caixas usa essas pontuações para criar trilhas, suportando tanto rastreamento online quanto offline.
Uma das abordagens alternativas no campo é rastrear diretamente as Caixas Delimitadoras de objetos 3D. Esse método apresenta uma opção mais fácil em comparação com o Filtro de Kalman tradicional. Ao focar apenas nas propriedades geométricas das caixas, métodos de aprendizado de máquina podem aproveitar o crescente volume de dados. No entanto, eles enfrentam desafios principais: variações na quantidade de caixas desordenadas em cada quadro complicam a consistência de identidade, e as características geométricas não mantêm conexões espaciais e temporais consistentes.
Apesar desses obstáculos, humanos podem facilmente associar caixas do mesmo objeto ao vê-las de cima e interpretar seus arranjos e contextos. Essencialmente, características como posição, tamanho e forma deveriam ser suficientes para facilitar o rastreamento. O principal desafio é encontrar uma abordagem adequada para aprender essas informações para cada caixa. Um projeto inspirador chamado PolarMOT empregou uma rede neural gráfica para aprender características das caixas a partir de caixas locais. O BOTT propõe um design diferente que utiliza mecanismos de atenção para aprender características das caixas globalmente de todas as caixas em um modelo simples.
Principais Contribuições do BOTT
As principais características que fazem o BOTT se destacar incluem:
Rastreamento Baseado em Autoatenção: O BOTT foca em rastrear usando apenas caixas delimitadoras 3D. Sua simplicidade e eficácia podem abrir portas para métodos de rastreamento mais inovadores usando transformadores.
Algoritmos de Rastreamento Completos: Algoritmos para rastreamento online e offline são fornecidos sob a estrutura do BOTT.
Desempenho Competitivo: O BOTT foi avaliado em conjuntos de dados líderes de 3D MOT, alcançando resultados impressionantes.
Estudos Abrangentes: Estudos extensivos foram realizados para entender os principais designs que contribuem para um desempenho forte e quão bem o BOTT se sai em diferentes conjuntos de dados e frequências.
Trabalhos Relacionados
Esta seção fornece uma visão geral do trabalho existente sobre Rastreamento de Objetos 3D (MOT) baseado em métodos de detecção, bem como rastreadores baseados em transformadores e técnicas de MOT online/offline.
3D MOT
Métodos tradicionais como AB3DMOT prepararam o terreno para o rastreamento 3D MOT usando o simples Filtro de Kalman. Vários métodos foram propostos para melhorar o desempenho do rastreamento com base na mesma estrutura. A principal diferença entre esses métodos reside em suas métricas de ligação. Recentemente, algoritmos baseados em aprendizado usando redes neurais gráficas ganharam destaque, pois os grafos representam as relações entre objetos detectados de forma natural. Esses métodos têm promessas, mas o design de autoatenção do BOTT oferece uma maneira diferente e eficaz de conectar caixas.
Rastreadores de Transformadores
Nos últimos anos, os transformadores se tornaram populares para lidar com dados de sequência. Sua capacidade de gerenciar longas dependências e sua robustez a oclusões melhoraram o desempenho do rastreamento em configurações 2D MOT. Vários rastreadores utilizam transformadores com características de aparência, mas o BOTT aprende de forma única informações contextuais a partir de caixas delimitadoras 3D sem precisar de dados de aparência.
Rastreamento Online e Offline
Técnicas offline para auto-rotulagem em direção autônoma se tornaram importantes, já que ajudam a escalar a anotação de dados. O BOTT pode realizar rastreamento online e offline de forma eficaz. Métodos tradicionais de Filtro de Kalman enfrentam desafios para incorporar informações futuras, já que são projetados para trabalhar recursivamente. Enquanto isso, o BOTT se adapta facilmente a ambos os tipos de rastreamento.
Como o BOTT Funciona
A estrutura do BOTT consiste em um pipeline simples para processar caixas rastreadas.
Processamento de Dados de Entrada
Em uma cena com vários quadros, o BOTT coleta caixas 3D detectadas. Cada caixa tem características brutas, incluindo posição central, tamanho, ângulo de rotação, tempo e pontuações de classificação. Uma janela deslizante é definida, que inclui todas as caixas de quadros consecutivos.
A rede BOTT processa as caixas para gerar pontuações de ligação. A rede tem três etapas principais: codificação das características de cada caixa, usando autoatenção para relações entre caixas e estimando pontuações de ligação.
Codificando Características Individuais das Caixas
A primeira etapa foca em aprender características de alto nível a partir dos dados geométricos brutos de cada caixa. Para reduzir a variabilidade, as posições centrais das caixas são normalizadas. Características de tempo são codificadas com base nas diferenças entre os quadros das caixas. As características de cada caixa são processadas através de uma Percepção de Múltiplas Camadas (MLP) para gerar embeddings significativos.
Relações Entre Caixas
Uma vez que as características individuais das caixas são codificadas, elas são alimentadas em um módulo de autoatenção que captura relações entre as caixas. Este módulo utiliza múltiplos blocos de codificadores de transformadores para permitir que todos os embeddings de caixas de entrada troquem informações, levando a uma compreensão rica da dinâmica entre caixas.
Importante, no BOTT, a autoatenção é agnóstica à classe, o que significa que cada caixa pode aprender com todas as outras caixas, independentemente de sua classe. Essa capacidade simplifica o processo de lidar com múltiplas categorias de objetos.
Estimando Pontuações de Ligação
Caixas ligadas compartilham contextos espaciais e temporais semelhantes. Após obter os embeddings aprendidos, normalizações são realizadas, e cálculos de produto escalar geram pontuações de ligação que ilustram as potenciais conexões entre as caixas. Essas pontuações transformam a tarefa de rastreamento em um problema de classificação binária.
Durante o treinamento, uma função de perda especial é criada para refinar o processo de pontuação. Isso envolve ignorar casos específicos que podem afetar a precisão das pontuações.
Rastreamento com o BOTT
O BOTT pode criar trilhas de maneira eficiente usando as pontuações de ligação estabelecidas, adotando estratégias para rastreamento online e offline.
Rastreamento Online
Para rastreamento online, a última janela deslizante de caixas é processada para gerar pontuações de ligação. O objetivo aqui é conectar novas detecções a trilhas existentes. Uma estratégia de gerenciamento simples é usada para lidar com a criação, atualização e término de trilhas.
Cada detecção correspondente se torna parte de uma trilha existente e continua a compartilhar sua identidade. Detecções não correspondidas levam ao nascimento de uma nova trilha, que inicialmente carrega um status não confirmado. Se caixas suficientes se acumularem ao longo do tempo, ela se torna confirmada. Se nenhuma nova detecção ocorrer por um período especificado, a trilha é eventualmente encerrada.
Rastreamento Offline
No modo offline, todas as janelas deslizantes possíveis são criadas previamente, e pontuações de ligação são geradas para cada caixa. Um limite ótimo é então aplicado para filtrar pontuações baixas, e técnicas de supressão não máxima ajudam a reduzir a redundância.
A abordagem offline se beneficia da simplicidade do BOTT, pois pode gerar resultados impressionantes sem precisar de mecanismos complexos.
Configuração Experimental
O BOTT foi testado em dois principais benchmarks para 3D MOT: nuScenes e Waymo Open Dataset (WOD).
Conjuntos de Dados e Métricas
NuScenes consiste em 1000 cenas de direção, cada uma durando cerca de 20 segundos, com anotações detalhadas disponíveis em diferentes frequências. O Waymo Open Dataset tem características semelhantes com métricas distintas. As métricas de desempenho do BOTT incluem precisão média de rastreamento de objetos, recall e trocas de identidade em várias categorias de objetos.
Geração de Banco de Dados de Trilhas
O banco de dados de trilhas é criado emparelhando caixas de detecção com caixas verdadeiras. Inicialmente, as detecções são filtradas para remover sobreposições e detecções de baixa pontuação. Um processo de associação consciente de classe é então usado para combinar caixas de detecção com as caixas verdadeiras. IDs de trilha são atribuídos de acordo, permitindo uma clara divisão entre detecções e falsos positivos.
Detalhes de Implementação
Detalhes sobre a configuração específica da rede, procedimentos de treinamento e técnicas de aumento de dados empregadas na criação do BOTT também são significativos.
Configuração da Rede
O BOTT inclui várias camadas, com a MLP para codificação de caixa única tendo vários blocos Linear ReLU. Três blocos de codificadores idênticos são usados para a codificação entre caixas, criando efetivamente os embeddings de caixa aprendidos.
Processo de Treinamento
O treinamento do BOTT foca em abordar os desequilíbrios nas distribuições de ligação. A mineração de exemplos negativos difíceis é empregada para gerenciar o vasto número de ligações negativas durante o aprendizado. Todo o processo de treinamento é conduzido usando técnicas de otimização eficazes, permitindo que o BOTT se adapte rápida e eficientemente aos dados de entrada.
Aumento de Dados
O aumento de dados desempenha um papel crítico na melhoria da robustez do BOTT. Vários métodos, como descartar trilhas, inverter e girar caixas, são aplicados para aumentar a diversidade dos dados de entrada.
Avaliação de Desempenho
O desempenho do BOTT é avaliado em relação a rastreadores existentes utilizando as mesmas fontes de detecção. Os resultados demonstram a capacidade do BOTT de superar muitos rastreadores baseados em aprendizado, enquanto mostra desempenho comparável aos métodos tradicionais.
Resultados Qualitativos
Avaliações visuais das capacidades de rastreamento do BOTT mostram sua eficácia em vincular caixas ao longo de vários quadros, destacando o impacto atencioso de caixas próximas.
Estudos de Ablação
Uma série de estudos de ablação foram conduzidos para testar a eficácia do mecanismo de atenção e o impacto das restrições físicas no desempenho do rastreamento.
Conclusão
O BOTT representa um passo significativo em frente no campo do rastreamento de objetos 3D. Ao focar exclusivamente nas características geométricas das caixas 3D e empregar uma arquitetura baseada em transformadores, o BOTT alcança um desempenho impressionante com mínima complexidade. A abordagem não só simplifica os métodos tradicionais, mas também se adapta bem a cenários online e offline, abrindo caminho para futuros desenvolvimentos em tecnologias de rastreamento 3D.
Título: BOTT: Box Only Transformer Tracker for 3D Object Tracking
Resumo: Tracking 3D objects is an important task in autonomous driving. Classical Kalman Filtering based methods are still the most popular solutions. However, these methods require handcrafted designs in motion modeling and can not benefit from the growing data amounts. In this paper, Box Only Transformer Tracker (BOTT) is proposed to learn to link 3D boxes of the same object from the different frames, by taking all the 3D boxes in a time window as input. Specifically, transformer self-attention is applied to exchange information between all the boxes to learn global-informative box embeddings. The similarity between these learned embeddings can be used to link the boxes of the same object. BOTT can be used for both online and offline tracking modes seamlessly. Its simplicity enables us to significantly reduce engineering efforts required by traditional Kalman Filtering based methods. Experiments show BOTT achieves competitive performance on two largest 3D MOT benchmarks: 69.9 and 66.7 AMOTA on nuScenes validation and test splits, respectively, 56.45 and 59.57 MOTA L2 on Waymo Open Dataset validation and test splits, respectively. This work suggests that tracking 3D objects by learning features directly from 3D boxes using transformers is a simple yet effective way.
Autores: Lubing Zhou, Xiaoli Meng, Yiluan Guo, Jiong Yang
Última atualização: 2023-08-16 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2308.08753
Fonte PDF: https://arxiv.org/pdf/2308.08753
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.