Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones

Avances en la fusión de sensores para vehículos autónomos

Estamos combinando datos de cámaras y radares para mejorar la detección de objetos en los vehículos autónomos.

― 13 minilectura


Fusión de cámara y radarFusión de cámara y radarconducción autónoma.Mejorando la detección de objetos en la
Tabla de contenidos

Los vehículos modernos están usando cada vez más tecnología para volverse más autónomos. Aunque aún no han alcanzado la autonomía total, los investigadores están avanzando en esta área. Uno de los principales factores que impulsa estos avances es la mejora en cómo los coches perciben su entorno. En los vehículos autónomos (AVs), el sistema de percepción ayuda al vehículo a identificar y entender el ambiente a su alrededor. Esto incluye detectar otros usuarios de la carretera, como coches y peatones, así como reconocer infraestructura clave, como señales de tráfico y marcas de carril.

Para lograr estas tareas, los AVs dependen de una variedad de sensores. Una configuración típica incluye una cámara frontal de alta resolución para la detección general de objetos, junto con Cámaras de menor resolución para crear una vista completa alrededor del vehículo. Además, se utilizan sensores LiDAR de alta densidad para mediciones de distancia precisas, mientras que una combinación de radares de corto y largo alcance ayuda a recopilar datos sobre distancia y velocidad.

Los datos recogidos por estos sensores vienen en diferentes formas, como imágenes y Nubes de Puntos. Crear un modelo del entorno usando estos datos brutos de sensores puede ser bastante difícil. Los algoritmos tradicionales a menudo tienen problemas para manejar los datos diversos recopilados de varias situaciones de conducción en el mundo real, por eso las técnicas de aprendizaje automático se han vuelto esenciales para procesar las entradas del sensor. Las redes neuronales, en particular, han demostrado ser muy prometedoras para realizar tareas de Detección de Objetos, superando las habilidades humanas para reconocer objetos en imágenes. De manera similar, aunque interpretar nubes de puntos de sensores LiDAR y Radar puede ser complicado para los humanos, las redes neuronales pueden encontrar patrones en estos datos con facilidad.

Para asegurar que el sistema de percepción del AV funcione bien, se emplean algoritmos de fusión de datos. Estos algoritmos combinan datos de sensores individuales para producir una salida de percepción final. El resultado suele ser más confiable, ya que aprovecha las fortalezas de cada sensor. En casos donde un sensor está bloqueado o encuentra problemas, el algoritmo de fusión puede proporcionar una capa adicional de seguridad al depender de las lecturas más confiables. La fusión de datos se puede categorizar en dos tipos principales: fusión de alto nivel y fusión de bajo nivel. La fusión de alto nivel combina información sobre objetos detectados de diferentes sensores, mientras que la fusión de bajo nivel trabaja con flujos de datos en bruto.

Importancia de la Fusión de Sensores

Para los vehículos autónomos, la fusión de bajo nivel generalmente implica imágenes y datos de nubes de puntos. Las imágenes son capturadas por cámaras de grado automotriz, que son cruciales para el sistema de percepción, mientras que las nubes de puntos provienen de sensores LiDAR y radar. Aunque ambos producen nubes de puntos 3D con mediciones de distancia precisas, hay diferencias significativas entre los dos tipos de sensores. LiDAR típicamente genera una nube de puntos más densa con cientos de miles de puntos, mientras que el radar produce datos mucho más escasos con solo unos pocos cientos de puntos. Mientras que LiDAR puede proporcionar información detallada, tiende a ser más caro y menos adecuado para producción masiva. En cambio, los sensores de radar son más resistentes a factores ambientales y proporcionan información adicional sobre la velocidad de los puntos detectados, lo que puede ser muy beneficioso para entender el tráfico.

Debido a estas diferencias, ambos sensores pueden trabajar bien juntos con imágenes de cámara para proporcionar información complementaria. Sin embargo, cuando se trata de aprendizaje profundo y fusión de sensores, hay menos soluciones disponibles para la fusión cámara-radar en comparación con la fusión cámara-LiDAR.

En este artículo, discutimos métodos de fusión de bajo nivel cámara-radar que aprovechan redes neuronales. Presentamos un nuevo enfoque para combinar datos de estos sensores. Basándonos en investigaciones anteriores, utilizamos una estrategia de múltiples vistas para el procesamiento de cámaras y el procesamiento de nubes de puntos de radar por voxe. Los mapas de características resultantes se combinan luego en un nuevo bloque de fusión de bajo nivel de Coincidencia Espacial de Dominio Cruzado (CDSM) para producir una representación de vista de pájaro (BEV). A partir de esta representación, los modelos de detección pueden crear cajas delimitadoras 3D de objetos.

Antecedentes sobre Detección de Objetos

La detección de objetos usando imágenes de cámara fue uno de los primeros campos en aplicar con éxito redes neuronales. Desde entonces, los investigadores han mejorado continuamente estos algoritmos al introducir nuevas arquitecturas y mecanismos para aumentar el rendimiento. Los métodos de detección de objetos se pueden dividir en dos grupos principales: aquellos que operan en un plano de imagen 2D y aquellos que trabajan en un espacio 3D monocular.

Una arquitectura bien conocida en el ámbito de los detectores 2D es YOLO (You Only Look Once). Con el tiempo, se han realizado mejoras para optimizar su rendimiento. YOLOv2 adoptó un mecanismo de caja de anclaje para predecir tamaños de cajas delimitadoras basados en tamaños de anclaje predefinidos, mientras que YOLOv3 incorporó entrenamiento a múltiples escalas para detectar objetos de varios tamaños en diferentes niveles de la red neuronal. YOLOv4 optimizó aún más la arquitectura introduciendo nuevas estructuras de espalda, mecanismos de atención y cálculos de pérdida mejorados.

Aunque detectar objetos en un espacio 3D a partir de una sola imagen de cámara es más complejo, estudios recientes han demostrado que arquitecturas de redes neuronales específicas pueden producir resultados significativos. Por ejemplo, el método CenterNet separa la detección de objetos 3D en dos etapas: predecir el centro de un cubo en una imagen dada y luego regresar parámetros 3D adicionales como la profundidad y los ángulos de rotación.

Procesamiento de Nubes de Puntos

Los datos de nubes de puntos de sensores como LiDAR y radar consisten en una lista de puntos con características correspondientes, como la intensidad para LiDAR o velocidades para radar. Procesar nubes de puntos con redes neuronales plantea ciertos desafíos, principalmente porque la red debe manejar variaciones en el orden de los datos. La lista de puntos puede variar en longitud y puede ser escasa en el espacio 3D.

Para abordar estos problemas, se pueden usar dos enfoques: métodos punto a punto y métodos voxel a voxel. Los enfoques punto a punto extraen características de cada punto utilizando capas de transformación, mientras que los métodos voxel a voxel agregan puntos en cubos o voxeles más pequeños. El método VoxelNet divide el espacio en cubos más pequeños y procesa estos voxeles para minimizar la carga computacional. PointPillars mejora este enfoque apilando voxeles a lo largo del eje Z, lo que hace posible usar convoluciones 2D más rápidas en lugar de convoluciones 3D.

La detección de objetos 3D solo con radar es menos común, pero trabajos recientes se han centrado en usar detecciones de picos de radar para crear nubes de puntos escasas que se pueden procesar para la detección de objetos 3D.

Técnicas de Fusión de Sensores

Los algoritmos de fusión combinan datos de diferentes sensores para lograr un rendimiento mejorado. Esto es especialmente cierto para imágenes y nubes de puntos, ya que las cámaras y los sensores LiDAR o radar perciben el entorno de maneras complementarias. Dadas las diferencias en cómo estos sensores capturan datos, fusionar información puede ser un desafío.

En configuraciones de múltiples vistas, los datos de cada sensor se procesan por una subred distinta para obtener mapas de características específicos de la vista. Estos mapas se combinan típicamente en una red de propuesta de región de fusión para identificar regiones de interés para la detección de objetos. El proceso de fusión tiene como objetivo combinar información detallada de manera efectiva a lo largo del proceso de entrenamiento.

Otro enfoque para la fusión mejora la vista frontal de los datos LiDAR al incorporar información de píxeles de la cámara. Este método implica crear una vista frontal fusionada que se procesa mediante una red neuronal, permitiendo un enfoque más integrado para la detección de objetos.

A pesar de los progresos realizados con la fusión de datos de LiDAR y cámaras, siguen existiendo pocas soluciones que combinen efectivamente imágenes de cámara con nubes de puntos de radar. Algunos métodos existentes mejoran las imágenes de cámara con detecciones de radar proyectadas, mientras que otros han explorado configuraciones de múltiples sensores para mejorar la precisión de detección de objetos.

Metodología de Fusión Propuesta

Nuestro enfoque para la fusión de sensores adopta una configuración de múltiples vistas. Usamos arquitecturas de red separadas para procesar imágenes de cámara y nubes de puntos de radar. Las imágenes se procesan en un dominio 2D, y los datos de nubes de puntos se procesan en un espacio 3D.

El elemento central de nuestra innovación es el bloque de fusión CDSM. Este bloque tiene como objetivo alinear datos de diferentes dominios de sensores para que se puedan combinar de manera efectiva.

Arquitectura de Red de Imagen

Para el procesamiento de imágenes de cámara, diseñamos un detector de una sola etapa basado en la arquitectura EfficientDet. Este modelo consta de una estructura de EfficientNetV2 para la extracción de características, un BiFPN para agregar características, y cabezales de clasificación y regresión para predecir clases de objetos y cajas delimitadoras. La resolución de entrada para las imágenes se ajustó para coincidir con la relación de aspecto del conjunto de datos, y se extrajeron características de varias etapas de la red para acomodar diferentes tamaños de objetos.

Arquitectura de Red de Nube de Puntos

Para procesar nubes de puntos de radar, nos inspiramos en técnicas de procesamiento de nubes de puntos LiDAR. Dividimos el espacio 3D en una cuadrícula de voxeles y calculamos características basadas en puntos de radar en cada voxel. Similar a la red de imágenes, la red de nubes de puntos también contiene una estructura de espalda, un bloque BiFPN y cabezales de predicción. Sin embargo, debido a la naturaleza escasa de las nubes de puntos de radar, se realizaron ajustes para optimizar la arquitectura para procesar estos datos.

Bloque de Fusión CDSM

La principal innovación en nuestro enfoque es el bloque de fusión CDSM, que se centra en alinear los datos del sensor de la cámara y el radar. Utilizamos un sistema de coordenadas del vehículo (VCS) para posicionar ambas lecturas del sensor en un espacio unificado. Esto asegura que la información de ambos sensores esté correctamente orientada antes de ser fusionada.

En el bloque CDSM, el primer paso implica alinear los mapas de características de la cámara para coincidir con la orientación de la nube de puntos de radar. Esto se logra a través de una capa de rotación personalizada que aplica rotaciones cuaternión para lograr la alineación espacial. Una vez que las características están alineadas, podemos combinar los datos de ambos sensores de manera efectiva.

La siguiente etapa implica agregar mapas de características de la cámara en una única representación BEV. Esto es seguido por un proceso de refinamiento que mejora las características a través de varias capas convolucionales, permitiendo la creación de mapas de características de nivel superior. Finalmente, los mapas de características refinados y agregados de la cámara se concatenan con las características de radar para producir una sola representación 3D. Estos datos combinados se procesan luego a través de un segundo bloque BiFPN para obtener las predicciones finales 3D para la detección de objetos.

Resultados Experimentales

Realizamos experimentos utilizando el conjunto de datos NuScenes, que contiene datos de conducción del mundo real recopilados de varios entornos. Para nuestra investigación, nos centramos en datos de una cámara RGB de vista frontal, junto con lecturas de sensores LiDAR y radar.

Para preparar los datos para el procesamiento, redimensionamos las imágenes de la cámara y mapeamos las coordenadas de la nube de puntos de radar a un VCS definido. También filtramos etiquetas basadas en visibilidad y detecciones de radar para crear un conjunto de entrenamiento consistente centrado en objetos de coches.

El entrenamiento implicó crear modelos separados para la detección de cámara y radar, así como un modelo combinado de fusión de múltiples sensores con el bloque CDSM. Monitoreamos el rendimiento utilizando la métrica de precisión promedio (mAP), que evalúa la precisión de la detección de objetos basada en relaciones de precisión-recall.

Los resultados demostraron que el modelo de fusión CDSM superó significativamente tanto a los modelos de un solo sensor. Mientras que el modelo solo de visión logró altas tasas de detección, tuvo problemas con la estimación de profundidad. El modelo de radar proporcionó posicionamiento preciso, pero careció de frecuencia de detección. El modelo de fusión aprovechó las fortalezas de ambos sistemas, produciendo predicciones mejoradas en términos de posición y tamaño para los objetos detectados.

Además, nuestro modelo de fusión superó las soluciones existentes de vanguardia en el dominio de detección de objetos 3D. Comparamos el rendimiento con otros métodos basados en la métrica mAP, revelando que nuestro enfoque logró resultados sobresalientes dentro de la configuración de cámara y radar.

Conclusión

En este artículo, nos centramos en fusionar datos de sensores de cámaras y dispositivos de radar para aplicaciones de vehículos autónomos. Examinamos trabajos relevantes en detección de objetos con un solo sensor y soluciones de fusión. Nuestro método propuesto, que presenta el enfoque de Coincidencia Espacial de Dominio Cruzado (CDSM), mostró resultados prometedores en el conjunto de datos NuScenes.

Los hallazgos de nuestros experimentos destacan las ventajas de la fusión de sensores, particularmente en la mejora del rendimiento y precisión de detección en varios escenarios. Aunque nuestros resultados son prometedores, hay potencial para una mejora adicional, especialmente aplicando técnicas de aprendizaje automático directamente a los datos de radar. A medida que la investigación en este campo continúe, podemos esperar avances que apoyen el desarrollo de vehículos autónomos más seguros y eficientes.

Fuente original

Título: Cross-Domain Spatial Matching for Camera and Radar Sensor Data Fusion in Autonomous Vehicle Perception System

Resumen: In this paper, we propose a novel approach to address the problem of camera and radar sensor fusion for 3D object detection in autonomous vehicle perception systems. Our approach builds on recent advances in deep learning and leverages the strengths of both sensors to improve object detection performance. Precisely, we extract 2D features from camera images using a state-of-the-art deep learning architecture and then apply a novel Cross-Domain Spatial Matching (CDSM) transformation method to convert these features into 3D space. We then fuse them with extracted radar data using a complementary fusion strategy to produce a final 3D object representation. To demonstrate the effectiveness of our approach, we evaluate it on the NuScenes dataset. We compare our approach to both single-sensor performance and current state-of-the-art fusion methods. Our results show that the proposed approach achieves superior performance over single-sensor solutions and could directly compete with other top-level fusion methods.

Autores: Daniel Dworak, Mateusz Komorkiewicz, Paweł Skruch, Jerzy Baranowski

Última actualización: 2024-04-25 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2404.16548

Fuente PDF: https://arxiv.org/pdf/2404.16548

Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares