Avances en la detección de objetos en 3D para vehículos autónomos
Un nuevo método mejora la detección en 3D usando datos de imagen y LiDAR.
― 10 minilectura
Tabla de contenidos
- Importancia de la Detección de Objetos en 3D
- Desafíos en la Detección de Objetos en 3D
- Usando Datos Combinados para Mejores Resultados
- Enfoque de Aprendizaje Estante-Supervisado
- Beneficios del Aprendizaje Estante-Supervisado
- Evaluación Experimental
- Técnicas de Aprendizaje Auto-Supervisado
- Destilación de Información de Modelos 2D
- Refinando Pseudo-Etiquetas
- Entrenamiento con Pseudo-Etiquetas
- Conclusiones de los Experimentos
- Limitaciones y Direcciones Futuras
- Avanzando
- Fuente original
- Enlaces de referencia
La detección de objetos en 3D es clave para muchas aplicaciones, sobre todo en vehículos autónomos. Para reconocer objetos en tres dimensiones, a menudo usamos grandes conjuntos de datos llenos de información etiquetada. Sin embargo, marcar cada objeto 3D en un conjunto de datos puede ser muy lento y costoso, especialmente al usar sensores especiales como LiDAR. Investigaciones recientes han demostrado que podemos mejorar la precisión de los sistemas de detección entrenándolos con datos que no han sido etiquetados, usando técnicas que aprenden del propio dato. Este método se llama Aprendizaje Auto-Supervisado.
La mayoría de los métodos actuales se enfocan en adaptar técnicas del procesamiento de imágenes para trabajar con nubes de puntos 3D. Sin embargo, los conjuntos de datos 3D disponibles son mucho más pequeños y menos variados que los de imágenes. Esto limita qué tan bien funciona el aprendizaje auto-supervisado en 3D. Curiosamente, los datos recogidos por vehículos autónomos a menudo vienen en pares, como imágenes y datos LiDAR. En lugar de usar solo técnicas auto-supervisadas, combinar métodos del procesamiento de imágenes y datos de nubes de puntos puede llevar a mejores resultados.
Proponemos un método llamado aprendizaje estante-supervisado, que utiliza modelos de imagen robustos para crear Cajas delimitadoras 3D a partir de datos combinados de RGB (imágenes de color) y LiDAR. Al pre-entrenar sistemas de detección 3D con estas "Pseudo-etiquetas", podemos lograr un rendimiento mucho mejor que solo usando métodos auto-supervisados.
Importancia de la Detección de Objetos en 3D
En la conducción autónoma, reconocer el entorno con precisión es crucial para una navegación segura. Esto implica detectar varios objetos como coches, peatones y señales de tráfico. La detección de objetos en 3D ayuda a los vehículos a entender dónde están esos objetos en el espacio, lo que les permite tomar decisiones informadas. Los métodos tradicionales dependen mucho de conjuntos de datos etiquetados, que pueden ser difíciles de producir.
Desafíos en la Detección de Objetos en 3D
Crear conjuntos de datos etiquetados para la detección de objetos en 3D puede ser increíblemente lento y caro. Requiere que los anotadores dibujen cajas delimitadoras 3D alrededor de los objetos, lo que a menudo implica usar equipo especializado como LiDAR. Dado que los enfoques auto-supervisados han mostrado promesas en la mejora de la precisión de detección al trabajar con datos limitados, los investigadores están interesados en usar estos métodos.
Sin embargo, las técnicas auto-supervisadas actuales adaptadas para datos 3D aún enfrentan problemas. La razón principal es que la mayoría de los conjuntos de datos 3D son más pequeños y no tan diversos como los conjuntos de datos de imágenes. Como resultado, los métodos auto-supervisados que funcionan bien para imágenes no rinden de manera efectiva en configuraciones 3D.
Usando Datos Combinados para Mejores Resultados
Una ventaja de los conjuntos de datos 3D en la industria de vehículos autónomos es que a menudo vienen junto con imágenes. Esto significa que cuando los vehículos recogen datos, generalmente capturan tanto información de LiDAR como de RGB. En lugar de depender únicamente del aprendizaje auto-supervisado, tiene sentido combinar información de modelos de imagen y datos LiDAR. Al hacer esto, podemos crear cajas delimitadoras 3D incluso sin datos 3D etiquetados.
Enfoque de Aprendizaje Estante-Supervisado
Presentamos el enfoque de aprendizaje estante-supervisado, que utiliza modelos existentes y robustos entrenados en datos de imagen para crear pseudo-etiquetas para la detección de objetos en 3D. Estas pseudo-etiquetas se pueden usar para pre-entrenar modelos de detección 3D.
Generación de Pseudo-Etiquetas
Para generar cajas delimitadoras 3D, comenzamos usando un modelo de visión-lenguaje que puede entender tanto imágenes como texto. Introducimos nombres de clases de objetos (ej., coches o camiones) para generar cajas delimitadoras 2D. Luego, usamos un modelo de segmentación para convertir esas cajas 2D en máscaras de instancia precisas.
A continuación, necesitamos convertir estas máscaras en cajas delimitadoras 3D. Tomamos los puntos de LiDAR que corresponden a las máscaras 2D y calculamos la posición central, dimensiones y orientación de la caja 3D. Esta combinación de datos nos permite crear una representación 3D bien informada de los objetos.
Beneficios del Aprendizaje Estante-Supervisado
Un beneficio importante de este método es que nos permite crear tareas más alineadas para el entrenamiento. En lugar de usar solo el aprendizaje auto-supervisado en nubes de puntos, podemos aprender de las pseudo-etiquetas 3D generadas a partir de los datos combinados de RGB y LiDAR. Esto lleva a un mejor rendimiento en comparación con métodos previos basados únicamente en la auto-supervisión.
Evaluación Experimental
Para evaluar la efectividad de nuestro enfoque, realizamos experimentos extensos usando grandes conjuntos de datos como nuScenes. Encontramos que nuestro método estante-supervisado propuesto mejora constantemente la precisión de detección, especialmente en situaciones de bajos datos. Los resultados mostraron que nuestro enfoque puede superar métodos previos que dependían exclusivamente del aprendizaje auto-supervisado.
Técnicas de Aprendizaje Auto-Supervisado
El aprendizaje auto-supervisado ha ganado atención debido a su capacidad de usar grandes cantidades de datos no etiquetados. Típicamente, estos métodos crean tareas pretextuales para derivar supervisión directamente de los datos en bruto y luego adaptan esas representaciones aprendidas a tareas posteriores usando una cantidad limitada de datos etiquetados.
Recientemente, los investigadores han explorado cómo aplicar el aprendizaje auto-supervisado a la detección de objetos en 3D. Sin embargo, a menudo encuentran que el tamaño más pequeño y la diversidad reducida de los conjuntos de datos 3D hacen que estos métodos sean menos efectivos.
Importancia de Modelos Basados en Imágenes en la Detección 3D
En lugar de depender únicamente de métodos auto-supervisados, argumentamos que usar modelos fundacionales basados en imágenes funciona mejor. Estos modelos ya entienden relaciones y cualidades de los objetos gracias a un extenso entrenamiento en diversos datos de imagen.
Al introducir representaciones de nubes de puntos con conocimiento de modelos de visión-lenguaje, podemos mejorar el rendimiento de los detectores 3D. La idea es usar detecciones 2D de alta calidad para informar y mejorar la comprensión 3D.
Destilación de Información de Modelos 2D
Usando modelos de visión-lenguaje, podemos destilar información valiosa de sus representaciones 2D al espacio 3D. Este proceso implica proyectar puntos LiDAR 3D en las máscaras de segmentación 2D y generar las cajas delimitadoras necesarias para el entrenamiento.
Pipeline de Generación de Pseudo-Etiquetas
Nuestro pipeline funciona generando primero predicciones de máscaras 2D basadas en los nombres de clases. Luego, tomamos los puntos LiDAR y los agrupamos según las máscaras 2D. Después, calculamos las posiciones centradas 3D, orientaciones y dimensiones de cada caja delimitadora.
Nuestro método también requiere refinamientos adicionales, ya que muchos componentes proporcionan estimaciones aproximadas. Podemos mejorar las pseudo-etiquetas 3D a través de una variedad de estrategias.
Refinando Pseudo-Etiquetas
Para mejorar la calidad de nuestras cajas delimitadoras 3D, podemos usar varias técnicas:
Ingeniería de Prompts
Usar los prompts correctos para los modelos de visión-lenguaje es crítico. Al proporcionar sinónimos y nombres de clases relacionados, podemos mejorar las capacidades de detección. Sin embargo, no todas las clases pueden ser detectadas con precisión, especialmente cuando están ambiguamente definidas.
Erosión de Máscaras y Acumulación de LiDAR
Para mejorar la densidad de nubes de puntos, también empleamos erosión de máscaras para eliminar puntos LiDAR poco fiables cerca de los bordes. Acumular múltiples barridos de LiDAR puede ayudar a proporcionar estimaciones más claras y robustas de los centros de los objetos.
Compensación de Medoides
Debido a cómo funciona LiDAR, los medoides estimados pueden estar sesgados hacia el vehículo ego. Para corregir esto, empujamos los medoides predichos radialmente hacia afuera según el tamaño del objeto, mejorando la precisión general.
Supresión de No Múltiples
Cuando múltiples cámaras capturan regiones superpuestas, nuestro método puede producir detecciones duplicadas. Para abordar esto, aplicamos supresión de no-máximos, que ayuda a eliminar detecciones repetidas para los mismos objetos.
Técnicas de Fusión Tardía
Por último, implementamos estrategias de fusión tardía para combinar las salidas de diferentes modelos, asegurando que mantengamos las predicciones más confiables mientras descartamos cualquier detección falsa.
Entrenamiento con Pseudo-Etiquetas
Una vez que tenemos nuestras pseudo-etiquetas refinadas, podemos pre-entrenar varios detectores 3D. Entrenar con estas etiquetas funciona de manera similar a cómo entrenaríamos con anotaciones verdaderas. Después del pre-entrenamiento con pseudo-etiquetas, podemos ajustar el modelo usando un conjunto de datos limitado.
En nuestros experimentos, encontramos que este método conduce a mejoras considerables en comparación con trabajos anteriores, particularmente en configuraciones de bajos datos.
Conclusiones de los Experimentos
Nuestros experimentos revelan importantes ideas sobre el rendimiento de nuestro método propuesto:
Evaluación de Rendimiento Cero-Tiro
En nuestras evaluaciones de cero-tiro, encontramos que nuestras pseudo-etiquetas superaron significativamente técnicas anteriores. Esto indica que nuestro método puede aprovechar efectivamente los datos multimodales que introducimos.
Ganancias de Aprendizaje Semi-Supervisado
Cuando afinamos modelos usando una pequeña cantidad de datos etiquetados después del pre-entrenamiento con pseudo-etiquetas, observamos mejoras adicionales en precisión. Alinear las tareas de pre-entrenamiento y afinación también lleva a mejores resultados.
Resultados Cualitativos
Visualizar las etiquetas de verdad de terreno y nuestras cajas delimitadoras predichas muestra las fortalezas y debilidades de nuestro método. Aunque muchas predicciones localizan y dimensionan correctamente los objetos, todavía hay desafíos, particularmente en situaciones de oclusión o desalineación con los datos de carriles.
Limitaciones y Direcciones Futuras
Aunque nuestro método muestra promesas, tiene limitaciones:
Desafíos en la Estimación de Orientación
Usar la dirección del carril de mapas HD para la orientación del vehículo puede ser problemático, especialmente cuando los vehículos están girando o cuando los mapas no están disponibles. Los esfuerzos futuros podrían centrarse en refinar la estimación de orientación utilizando métodos alternativos.
Estrategias de Muestreo de Datos
Muestrear datos de entrenamiento de manera uniforme no refleja situaciones prácticas. Explorar técnicas para muestrear datos de cuadros continuos puede generar mejores muestras de entrenamiento.
Problemas de Generalización
Aunque nuestro enfoque funciona bien para tareas específicas, puede que no se generalice de manera efectiva a otros contextos. Deberíamos considerar cómo hacer que nuestras estrategias de pre-entrenamiento se apliquen de manera más amplia.
Avanzando
Hay oportunidades emocionantes para futuras investigaciones que amplíen nuestros hallazgos. Encontrar formas de combinar tareas pretextuales, refinar nuestros enfoques para la estimación de orientación y mejorar los métodos de muestreo puede realzar el rendimiento y la aplicabilidad de nuestro modelo.
En general, nuestro método estante-supervisado demuestra el potencial de aprovechar una combinación de datos de imagen y LiDAR para mejorar la detección de objetos 3D, marcando un paso significativo hacia adelante en la industria de vehículos autónomos.
Título: Shelf-Supervised Cross-Modal Pre-Training for 3D Object Detection
Resumen: State-of-the-art 3D object detectors are often trained on massive labeled datasets. However, annotating 3D bounding boxes remains prohibitively expensive and time-consuming, particularly for LiDAR. Instead, recent works demonstrate that self-supervised pre-training with unlabeled data can improve detection accuracy with limited labels. Contemporary methods adapt best-practices for self-supervised learning from the image domain to point clouds (such as contrastive learning). However, publicly available 3D datasets are considerably smaller and less diverse than those used for image-based self-supervised learning, limiting their effectiveness. We do note, however, that such 3D data is naturally collected in a multimodal fashion, often paired with images. Rather than pre-training with only self-supervised objectives, we argue that it is better to bootstrap point cloud representations using image-based foundation models trained on internet-scale data. Specifically, we propose a shelf-supervised approach (e.g. supervised with off-the-shelf image foundation models) for generating zero-shot 3D bounding boxes from paired RGB and LiDAR data. Pre-training 3D detectors with such pseudo-labels yields significantly better semi-supervised detection accuracy than prior self-supervised pretext tasks. Importantly, we show that image-based shelf-supervision is helpful for training LiDAR-only, RGB-only and multi-modal (RGB + LiDAR) detectors. We demonstrate the effectiveness of our approach on nuScenes and WOD, significantly improving over prior work in limited data settings. Our code is available at https://github.com/meharkhurana03/cm3d
Autores: Mehar Khurana, Neehar Peri, James Hays, Deva Ramanan
Última actualización: 2024-10-15 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2406.10115
Fuente PDF: https://arxiv.org/pdf/2406.10115
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.