Evaluando la detección de objetos 3D para autos autónomos
Un estudio que evalúa cómo los modelos de detección responden a los desafíos del mundo real.
― 8 minilectura
Tabla de contenidos
La Detección de Objetos en 3D es una tarea clave en los coches autónomos. Ayuda a estos vehículos a entender su entorno al identificar objetos como coches, peatones y ciclistas. Esto implica predecir qué son estos objetos y dónde están ubicados en el espacio tridimensional usando cajas delimitadoras.
Los SensoresLiDAR y de cámara son esenciales para este proceso. LiDAR proporciona información de profundidad creando nubes de puntos dispersas, mientras que las Cámaras capturan imágenes a color que ofrecen información visual detallada. Al combinar los datos de ambos sensores, los modelos pueden detectar mejor objetos en diferentes entornos.
Sin embargo, estos sistemas de detección pueden tener Problemas en situaciones del mundo real. Por ejemplo, el mal tiempo o problemas con los sensores pueden llevar a lecturas incorrectas. Esto plantea preocupaciones de seguridad para los coches autónomos. Para asegurarse de que funcionan bien en diferentes condiciones, los investigadores necesitan evaluar qué tan bien estos sistemas de detección manejan diferentes tipos de problemas de datos.
Evaluación de Modelos de Detección de Objetos en 3D
Para evaluar qué tan bien los modelos de detección de objetos en 3D pueden manejar problemas del mundo real, se realizó un estudio para crear un conjunto de pruebas. Los investigadores diseñaron 27 tipos diferentes de problemas comunes que pueden ocurrir al usar sensores LiDAR y de cámara. Estos problemas se categorizaron en cinco grupos: problemas meteorológicos, de sensores, de movimiento, de objetos y de alineación.
Al aplicar estos problemas a conjuntos de datos existentes, los investigadores crearon tres pruebas de referencia: KITTI-C, nuScenes-C y Waymo-C. Luego realizaron pruebas extensas en 24 modelos diferentes de detección de objetos en 3D para ver cómo se desempeñaban en estas condiciones.
Problemas Comunes en la Detección de Objetos en 3D
Problemas Meteorológicos
Las condiciones climáticas pueden afectar mucho el rendimiento de los sistemas de detección. Por ejemplo, la niebla puede reducir la visibilidad, dificultando ver los objetos claramente. La lluvia también puede oscurecer imágenes y distorsionar nubes de puntos de LiDAR. La nieve y las lluvias fuertes también pueden llevar a lecturas pobres.
Estos problemas meteorológicos son críticos a considerar al probar modelos, ya que simulan condiciones reales a las que a menudo se enfrentan los coches autónomos.
Problemas de Sensores
Los sensores pueden introducir errores debido a diversos factores. Problemas internos como defectos en la cámara o problemas externos por vibraciones pueden causar que los datos se vuelvan ruidosos o faltantes. Por ejemplo, si un sensor pierde parte de su campo de visión, puede llevar a vacíos en los datos recogidos.
Al crear problemas específicos relacionados con sensores, los investigadores podrían evaluar mejor qué tan bien los modelos pueden manejar este tipo de problemas.
Problemas de Movimiento
Cuando un coche autónomo se está moviendo, puede enfrentar varios desafíos. El movimiento en sí puede causar distorsiones en los datos que se están recolectando. Por ejemplo, si el coche va rápido, el sensor de imagen podría capturar imágenes borrosas. Además, si otro objeto se mueve rápidamente cerca, puede interferir con lecturas precisas.
Estos problemas relacionados con el movimiento se incluyeron en las pruebas para ver cómo reaccionaban los modelos a entornos dinámicos.
Problemas de Objetos
La variedad de objetos en el mundo real añade complejidad a la detección de objetos en 3D. Diferentes formas y materiales pueden confundir a los sistemas de detección. Además, el ángulo o la posición desde la que se ve un objeto puede afectar qué tan fácilmente puede ser reconocido.
Para abordar estos desafíos, los investigadores diseñaron reparaciones que simulan varios aspectos relacionados con objetos.
Problemas de Alineación
Para que un sistema combinado de LiDAR y cámara funcione de manera efectiva, los datos de ambos sensores deben estar bien alineados. Sin embargo, esto puede ser complicado, especialmente a lo largo de períodos prolongados, ya que los sensores pueden desplazarse o desalinearse. Esta desalineación puede llevar a lecturas incorrectas, lo que podría comprometer la seguridad de los coches autónomos.
Creación de las Referencias
Para crear las tres referencias, los investigadores tomaron conjuntos de datos existentes y aplicaron los 27 problemas comunes a ellos. El objetivo era tener una manera integral de evaluar qué tan bien los modelos de detección de objetos en 3D pueden manejar una variedad de problemas.
Referencia KITTI-C
El conjunto de datos KITTI se usa ampliamente para evaluar tecnología de conducción autónoma. Los investigadores tomaron su conjunto de validación y aplicaron 24 tipos de problemas para crear la referencia KITTI-C. Se centraron en problemas que podrían encontrarse de manera realista en escenarios de conducción.
Referencia nuScenes-C
El conjunto de datos nuScenes ofrece una mirada detallada a las condiciones de conducción urbana. Los investigadores aplicaron los 27 problemas al conjunto de validación de nuScenes. Esta referencia tiene como objetivo proporcionar una evaluación completa de cómo los modelos responden a diferentes entornos de conducción.
Referencia Waymo-C
Por último, el conjunto de datos Waymo contiene una variedad de escenarios de conducción. Los investigadores crearon la referencia Waymo-C aplicando todos los 27 problemas a su conjunto de validación. Esto asegura una evaluación exhaustiva a través de diversas condiciones.
Realización de Experimentos
Una vez creadas las referencias, los investigadores llevaron a cabo una serie de pruebas. Examinaron qué tan bien se desempeñaron diferentes modelos de detección de objetos en 3D bajo condiciones corruptas.
Resultados en KITTI-C
Los resultados de la referencia KITTI-C mostraron que los modelos con mejor rendimiento en datos limpios también tendían a desempeñarse mejor bajo datos corruptos. Específicamente, los modelos tuvieron más problemas con los problemas meteorológicos y de movimiento, mientras que fueron más resistentes a problemas relacionados con objetos y sensores.
Resultados en nuScenes-C
En la referencia nuScenes-C, la tendencia general fue similar. Los modelos mostraron mayor robustez cuando tuvieron mejor rendimiento en limpio. Sin embargo, los problemas a nivel de movimiento resultaron ser particularmente desafiantes para muchos de los modelos probados, llevando a caídas significativas en el rendimiento.
Resultados en Waymo-C
La referencia Waymo-C proporcionó una comparación algo limitada debido a la menor cantidad de modelos disponibles para pruebas. Sin embargo, aquí también, emergió una tendencia clara donde ciertos modelos demostraron más resiliencia contra los problemas desarrollados.
Conclusiones de los Experimentos
Los experimentos revelaron varios puntos críticos sobre la robustez de los modelos de detección de objetos en 3D:
Correlación con la Precisión Limpia: La capacidad de un modelo para desempeñarse bajo condiciones corruptas a menudo se correlacionó con su capacidad para funcionar bien en datos limpios.
Impacto de los Problemas de Movimiento: Los problemas relacionados con el movimiento fueron particularmente dañinos, causando caídas significativas en el rendimiento en todos los modelos.
Resiliencia de los Modelos de Fusión: Los modelos que combinaban datos de LiDAR y cámara tendían a desempeñarse mejor bajo problemas relacionados con sensores que aquellos que dependían únicamente de un tipo de sensor.
Vulnerabilidad de los Modelos Solo de Cámara: Los modelos que solo usaban datos de cámara mostraron debilidades significativas, especialmente frente a problemas meteorológicos y de movimiento, destacando la importancia de los datos de LiDAR.
Intercambios en los Modelos de Fusión: Los experimentos ilustraron que, si bien los modelos de fusión podían manejar eficazmente un tipo de corrupción (como el ruido de la nube de puntos), podían sufrir errores acumulativos cuando ambos tipos de entrada estaban corruptos simultáneamente.
Aumento de Datos como Potencial Solución
Los investigadores también investigaron si las técnicas de aumento de datos podían mejorar la robustez del modelo. Probaron varios métodos, pero encontraron que la mayoría no mejoraba consistentemente el rendimiento. De hecho, algunos métodos parecían perjudicar la robustez al degradar el rendimiento limpio.
Modelos Solo de LiDAR
Los métodos de aumento de datos mostraron resultados mixtos para modelos solo de LiDAR, indicando que, si bien algunas técnicas ayudaron ligeramente, muchas no mejoraron el rendimiento o incluso lo redujeron.
Modelos de Fusión LiDAR-Cámara
Para los modelos de fusión, la exploración de métodos de aumento de datos multimodales mostró un éxito limitado. Los investigadores concluyeron que desarrollar estrategias de aumento efectivas sigue siendo un desafío en el campo de la visión por computadora.
Conclusión
En general, la investigación proporcionó una evaluación exhaustiva de los modelos de detección de objetos en 3D bajo problemas comunes del mundo real. Los hallazgos enfatizaron la necesidad de mejoras continuas en el diseño de modelos, especialmente en la mejora de la robustez para garantizar la seguridad de los vehículos autónomos. Las referencias establecidas allanan el camino para investigaciones futuras y buscan guiar el desarrollo de sistemas de detección de objetos en 3D más confiables.
Título: Benchmarking Robustness of 3D Object Detection to Common Corruptions in Autonomous Driving
Resumen: 3D object detection is an important task in autonomous driving to perceive the surroundings. Despite the excellent performance, the existing 3D detectors lack the robustness to real-world corruptions caused by adverse weathers, sensor noises, etc., provoking concerns about the safety and reliability of autonomous driving systems. To comprehensively and rigorously benchmark the corruption robustness of 3D detectors, in this paper we design 27 types of common corruptions for both LiDAR and camera inputs considering real-world driving scenarios. By synthesizing these corruptions on public datasets, we establish three corruption robustness benchmarks -- KITTI-C, nuScenes-C, and Waymo-C. Then, we conduct large-scale experiments on 24 diverse 3D object detection models to evaluate their corruption robustness. Based on the evaluation results, we draw several important findings, including: 1) motion-level corruptions are the most threatening ones that lead to significant performance drop of all models; 2) LiDAR-camera fusion models demonstrate better robustness; 3) camera-only models are extremely vulnerable to image corruptions, showing the indispensability of LiDAR point clouds. We release the benchmarks and codes at https://github.com/kkkcx/3D_Corruptions_AD. We hope that our benchmarks and findings can provide insights for future research on developing robust 3D object detection models.
Autores: Yinpeng Dong, Caixin Kang, Jinlai Zhang, Zijian Zhu, Yikai Wang, Xiao Yang, Hang Su, Xingxing Wei, Jun Zhu
Última actualización: 2023-03-20 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2303.11040
Fuente PDF: https://arxiv.org/pdf/2303.11040
Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.