Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones

Avances en el seguimiento de objetos 3D con BOTT

BOTT ofrece un enfoque innovador para rastrear objetos 3D en coches autónomos.

― 13 minilectura


BOTT: Nuevo Método deBOTT: Nuevo Método deSeguimiento 3Dobjetos en 3D para coches autónomos.BOTT simplifica el seguimiento de
Tabla de contenidos

Rastrear objetos en 3D es clave para los coches autónomos. Tradicionalmente, se han usado mucho los métodos basados en filtrado de Kalman. Sin embargo, estos métodos requieren bastante trabajo manual en el modelado de movimientos y no aprovechan al máximo la cantidad creciente de datos. En este contexto, se ha propuesto un nuevo enfoque llamado Box Only Transformer Tracker (BOTT), que aprende a enlazar cajas 3D del mismo objeto a través de diferentes cuadros.

BOTT usa todas las cajas 3D durante un período de tiempo como entrada. Emplea una técnica llamada auto-atención de transformador para permitir que las cajas compartan información, lo que ayuda a crear representaciones significativas de las cajas. Las similitudes aprendidas entre estas representaciones se pueden usar para enlazar cajas que pertenecen al mismo objeto. BOTT puede funcionar sin problemas en escenarios de seguimiento en línea y fuera de línea. Su diseño simple reduce significativamente el tiempo de ingeniería que tradicionalmente se necesita para los métodos de filtrado de Kalman. Las pruebas indican que BOTT rinde competitivamente en los principales benchmarks de rastreo de objetos 3D.

La Importancia de Rastrear Objetos en 3D

La tecnología de conducción autónoma ha ganado mucho interés en los últimos años. Una parte clave para hacer los vehículos autónomos seguros es identificar y rastrear con precisión los objetos 3D en su entorno. Esto implica tanto reconocer objetos como seguir sus movimientos. Se ha avanzado bastante en la detección de objetos en 3D, gracias a grandes conjuntos de datos públicos y métodos de detección avanzados. Sin embargo, rastrear objetos usando métodos de detección sigue siendo una opción popular, ya que pueden aprovechar la potencia de los detectores 3D avanzados.

La mayoría de los métodos de rastreo existentes aún dependen del filtrado de Kalman. Estos rastreadores son excelentes por su ajuste natural para rastrear movimientos en 3D. Sin embargo, tienen sus desventajas. Primero, se necesita una serie de filtros de Kalman para diferentes tipos de movimiento, lo que los hace complejos. Segundo, estos rastreadores no pueden aprovechar completamente los modernos grandes conjuntos de datos para mejorar su rendimiento.

Algunos métodos más nuevos buscan combinar detección y rastreo en un solo paso. Aunque pueden identificar y rastrear objetos juntos, a menudo enfrentan desafíos debido a la forma en que funciona la detección 3D. Detectar objetos se centra en su ubicación en un momento específico, mientras que el rastreo requiere una memoria más amplia de los movimientos a lo largo del tiempo. Por lo tanto, entrenar con muchos más datos en aspectos espaciales y temporales sigue siendo un reto.

Arquitectura de BOTT

La arquitectura de BOTT incluye dos componentes principales: la red BOTT y el módulo de seguimiento de cajas. El proceso comienza con una ventana deslizante que recoge todas las cajas 3D de cuadros consecutivos. La red BOTT genera una matriz que muestra cómo se pueden enlazar las cajas en tres pasos: codificando características para cada caja, utilizando auto-atención para entender las relaciones entre las cajas y generando puntuaciones de enlace a través de cálculos de producto punto. El módulo de seguimiento de cajas toma estas puntuaciones para crear trayectorias, apoyando tanto el seguimiento en línea como fuera de línea.

Uno de los enfoques alternativos en el campo es rastrear directamente las cajas delimitadoras de objetos 3D. Este método presenta una opción más fácil en comparación con el filtrado de Kalman tradicional. Al centrarse únicamente en las propiedades geométricas de las cajas, los métodos de aprendizaje automático pueden aprovechar la creciente cantidad de datos. Sin embargo, enfrentan desafíos clave: la variabilidad en la cantidad de cajas desordenadas en cada cuadro complica la consistencia de la identidad, y las características geométricas no mantienen enlaces espaciales-temporales consistentes.

A pesar de estos obstáculos, los humanos pueden asociar fácilmente cajas del mismo objeto al verlas desde arriba e interpretar sus arreglos y contextos. En esencia, características como posición, tamaño y forma deberían ser suficientes para facilitar el rastreo. El principal desafío es encontrar un enfoque adecuado para aprender esta información para cada caja. Un proyecto inspirador llamado PolarMOT empleó una red neuronal de grafos para aprender características de cajas a partir de cajas locales. BOTT propone un diseño diferente que utiliza mecanismos de atención para aprender características de cajas de manera global a partir de todas las cajas en un modelo simple.

Contribuciones Clave de BOTT

Las principales características que hacen que BOTT se destaque incluyen:

  1. Rastreo Basado en Auto-Atención: BOTT se centra en rastrear usando solo cajas delimitadoras 3D. Su simplicidad y eficacia pueden abrir puertas a métodos de rastreo más innovadores usando transformadores.

  2. Algoritmos de Rastreo Completos: Se proporcionan algoritmos para el seguimiento en línea y fuera de línea bajo el marco de BOTT.

  3. Rendimiento Competitivo: BOTT ha sido evaluado en los principales conjuntos de datos de MOT 3D, logrando resultados impresionantes.

  4. Estudios Exhaustivos: Se han realizado estudios extensivos para comprender los diseños clave que contribuyen a un buen rendimiento y cómo se desempeña BOTT en diferentes conjuntos de datos y frecuencias.

Trabajo Relacionado

Esta sección ofrece una visión general del trabajo existente sobre Rastrear Objetos en 3D (MOT) basado en métodos de detección, así como rastreadores basados en transformadores y técnicas de MOT en línea/fuera de línea.

MOT 3D

Los métodos tradicionales como AB3DMOT sentaron las bases para el rastreo de MOT 3D usando un simple filtrado de Kalman. Se han propuesto varios métodos para mejorar el rendimiento de rastreo basados en el mismo marco. La principal diferencia entre estos métodos radica en sus métricas de enlace. Recientemente, los algoritmos basados en aprendizaje que utilizan redes neuronales de grafos han ganado popularidad, ya que los grafos representan las relaciones entre objetos detectados de manera natural. Estos métodos tienen potencial, pero el diseño de auto-atención de BOTT ofrece una forma diferente y efectiva de enlazar cajas.

Rastreadores de Transformadores

En los últimos años, los transformadores se han vuelto populares para manejar datos de secuencia. Su capacidad para gestionar dependencias largas y su robustez ante oclusiones han mejorado el rendimiento del rastreo en configuraciones de MOT 2D. Varios rastreadores utilizan transformadores con características de apariencia, pero BOTT aprende de manera única la información contextual de las cajas delimitadoras 3D sin necesitar datos de apariencia.

Rastreo en Línea y Fuera de Línea

Las técnicas fuera de línea para etiquetar automáticamente en la conducción autónoma se han vuelto importantes, ya que ayudan a escalar la anotación de datos. BOTT puede realizar tanto rastreo en línea como fuera de línea de manera efectiva. Los métodos tradicionales de filtrado de Kalman enfrentan desafíos al incorporar información futura, ya que están diseñados para trabajar de manera recursiva. Mientras tanto, BOTT acomoda fácilmente ambos tipos de rastreo.

Cómo Funciona BOTT

El marco de BOTT consiste en una simple tubería para procesar las cajas rastreadas.

Procesamiento de Datos de Entrada

En una escena con múltiples cuadros, BOTT recoge las cajas 3D detectadas. Cada caja tiene características crudas, incluyendo posición central, tamaño, ángulo de rotación, tiempo y puntuaciones de clasificación. Se define una ventana deslizante que incluye todas las cajas de los cuadros consecutivos.

La red BOTT procesa las cajas para generar puntuaciones de enlace. La red tiene tres pasos principales: codificación de características individuales de la caja, uso de auto-atención para relaciones entre cajas y estimación de puntuaciones de enlace.

Codificación de Características Individuales de la Caja

El primer paso se centra en aprender características de alto nivel a partir de los datos geométricos crudos de cada caja. Para reducir la variabilidad, se normalizan las posiciones centrales de las cajas. Las características temporales se codifican basándose en las diferencias entre los cuadros de las cajas. Las características de cada caja se procesan a través de una Percepción de Múltiples Capas (MLP) para generar embeddings significativos.

Relaciones Entre Cajas

Una vez que se codifican las características individuales de las cajas, se alimentan a un módulo de auto-atención que captura relaciones entre cajas. Este módulo utiliza múltiples bloques de codificación de transformadores para permitir que todos los embeddings de entrada de las cajas intercambien información, llevando a una rica comprensión de la dinámica inter-cajas.

Es importante destacar que, en BOTT, la auto-atención es agnóstica a la clase, lo que significa que cada caja puede aprender de todas las otras cajas, independientemente de su clase. Esta capacidad simplifica el proceso de manejo de múltiples categorías de objetos.

Estimación de Puntuaciones de Enlace

Las cajas enlazadas comparten contextos espaciales-temporales similares. Después de obtener los embeddings aprendidos, se realizan normalizaciones, y los cálculos de producto punto generan puntuaciones de enlace que ilustran las conexiones potenciales entre cajas. Estas puntuaciones transforman la tarea de rastreo en un problema de clasificación binaria.

Durante el entrenamiento, se crea una función de pérdida especial para refinar el proceso de puntuación. Esto implica ignorar casos específicos que pueden afectar la precisión de las puntuaciones.

Rastreando con BOTT

BOTT puede crear trayectorias de manera eficiente usando las puntuaciones de enlace establecidas, adoptando estrategias tanto para el rastreo en línea como fuera de línea.

Rastreo en Línea

Para el rastreo en línea, se procesa la última ventana deslizante de cajas para generar puntuaciones de enlace. El objetivo aquí es conectar nuevas detecciones a trayectorias existentes. Se utiliza una estrategia de gestión simple para manejar la creación, actualización y finalización de trayectorias.

Cada detección emparejada se convierte en parte de una trayectoria existente y continúa compartiendo su identidad. Las detecciones no emparejadas dan lugar al nacimiento de una nueva trayectoria, que primero lleva un estado no confirmado. Si suficientes cajas se acumulan a lo largo del tiempo, se confirma. Si no ocurren nuevas detecciones durante un tiempo especificado, la trayectoria se termina eventualmente.

Rastreo Fuera de Línea

En el modo fuera de línea, se crean previamente todas las ventanas deslizantes posibles, y se generan puntuaciones de enlace para cada caja. Se aplica un umbral óptimo para filtrar puntuaciones bajas, y las técnicas de supresión de no máximo ayudan a reducir la redundancia.

El enfoque fuera de línea se beneficia de la simplicidad de BOTT, ya que puede obtener resultados impresionantes sin necesitar mecanismos complejos.

Configuración Experimental

BOTT fue probado en dos grandes benchmarks para MOT 3D: nuScenes y Waymo Open Dataset (WOD).

Conjuntos de Datos y Métricas

NuScenes consiste en 1000 escenas de conducción, cada una durando alrededor de 20 segundos, con anotaciones detalladas disponibles a diferentes frecuencias. Waymo Open Dataset tiene características similares con métricas distintas. Las métricas de rendimiento de BOTT incluyen precisión promedio de rastreo de objetos, recuerdo y cambios de identidad en varias categorías de objetos.

Generación de Base de Datos de Trayectorias

La base de datos de trayectorias se crea emparejando cajas de detección con cajas de verdad de terreno. Inicialmente, se filtran las detecciones para eliminar superposiciones y detecciones de baja puntuación. Luego, se utiliza un proceso de asociación consciente de la clase para emparejar cajas de detección con cajas de verdad de terreno. Se asignan IDs de trayectorias en consecuencia, permitiendo una clara división entre detecciones y falsos positivos.

Detalles de Implementación

Los detalles sobre la configuración específica de la red, los procedimientos de entrenamiento y las técnicas de aumento de datos empleadas en la creación de BOTT también son significativos.

Configuración de Red

BOTT incluye varias capas, con la MLP para la codificación de una sola caja que tiene múltiples bloques Lineales ReLU. Se utilizan tres bloques de codificación idénticos para la codificación inter-cajas, creando efectivamente los embeddings de caja aprendidos.

Proceso de Entrenamiento

El entrenamiento de BOTT se centra en abordar los desequilibrios en las distribuciones de enlaces. Se emplea minería de muestras negativas difíciles para gestionar la gran cantidad de enlaces negativos durante el aprendizaje. Todo el proceso de entrenamiento se lleva a cabo utilizando técnicas de optimización efectivas, lo que permite que BOTT se adapte rápida y eficientemente a los datos de entrada.

Aumento de Datos

El aumento de datos juega un papel crítico en mejorar la robustez de BOTT. Se aplican varios métodos, como eliminar trayectorias, voltear y rotar cajas, para mejorar la diversidad de los datos de entrada.

Evaluación de Rendimiento

El rendimiento de BOTT se evalúa en comparación con rastreadores existentes usando las mismas fuentes de detección. Los resultados demuestran la capacidad de BOTT para superar a muchos rastreadores basados en aprendizaje mientras muestra un rendimiento comparable con métodos tradicionales.

Resultados Cualitativos

Las evaluaciones visuales de las capacidades de rastreo de BOTT muestran su efectividad para enlazar cajas a través de varios cuadros, destacando el impacto atencional de las cajas cercanas.

Estudios de Ablación

Se realizaron una serie de estudios de ablación para poner a prueba la efectividad del mecanismo de atención y el impacto de las restricciones físicas en el rendimiento del rastreo.

Conclusión

BOTT representa un paso adelante significativo en el campo del rastreo de objetos 3D. Al centrarse únicamente en las características geométricas de las cajas 3D y emplear una arquitectura basada en transformadores, BOTT logra un rendimiento impresionante con mínima complejidad. El enfoque no solo simplifica los métodos tradicionales, sino que también se adapta bien a escenarios tanto en línea como fuera de línea, allanando el camino para futuros desarrollos en tecnologías de rastreo 3D.

Fuente original

Título: BOTT: Box Only Transformer Tracker for 3D Object Tracking

Resumen: Tracking 3D objects is an important task in autonomous driving. Classical Kalman Filtering based methods are still the most popular solutions. However, these methods require handcrafted designs in motion modeling and can not benefit from the growing data amounts. In this paper, Box Only Transformer Tracker (BOTT) is proposed to learn to link 3D boxes of the same object from the different frames, by taking all the 3D boxes in a time window as input. Specifically, transformer self-attention is applied to exchange information between all the boxes to learn global-informative box embeddings. The similarity between these learned embeddings can be used to link the boxes of the same object. BOTT can be used for both online and offline tracking modes seamlessly. Its simplicity enables us to significantly reduce engineering efforts required by traditional Kalman Filtering based methods. Experiments show BOTT achieves competitive performance on two largest 3D MOT benchmarks: 69.9 and 66.7 AMOTA on nuScenes validation and test splits, respectively, 56.45 and 59.57 MOTA L2 on Waymo Open Dataset validation and test splits, respectively. This work suggests that tracking 3D objects by learning features directly from 3D boxes using transformers is a simple yet effective way.

Autores: Lubing Zhou, Xiaoli Meng, Yiluan Guo, Jiong Yang

Última actualización: 2023-08-16 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2308.08753

Fuente PDF: https://arxiv.org/pdf/2308.08753

Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares