Avances en la detección de objetos en 3D para vehículos autónomos

Tabla de contenidos

Importancia de la Detección de Objetos en 3D
Desafíos en la Detección de Objetos en 3D
Usando Datos Combinados para Mejores Resultados
Enfoque de Aprendizaje Estante-Supervisado
Beneficios del Aprendizaje Estante-Supervisado
Evaluación Experimental
Técnicas de Aprendizaje Auto-Supervisado
Destilación de Información de Modelos 2D
Refinando Pseudo-Etiquetas
Entrenamiento con Pseudo-Etiquetas
Conclusiones de los Experimentos
Limitaciones y Direcciones Futuras
Avanzando
Fuente original
Enlaces de referencia

La detección de objetos en 3D es clave para muchas aplicaciones, sobre todo en vehículos autónomos. Para reconocer objetos en tres dimensiones, a menudo usamos grandes conjuntos de datos llenos de información etiquetada. Sin embargo, marcar cada objeto 3D en un conjunto de datos puede ser muy lento y costoso, especialmente al usar sensores especiales como LiDAR. Investigaciones recientes han demostrado que podemos mejorar la precisión de los sistemas de detección entrenándolos con datos que no han sido etiquetados, usando técnicas que aprenden del propio dato. Este método se llama Aprendizaje Auto-Supervisado.

La mayoría de los métodos actuales se enfocan en adaptar técnicas del procesamiento de imágenes para trabajar con nubes de puntos 3D. Sin embargo, los conjuntos de datos 3D disponibles son mucho más pequeños y menos variados que los de imágenes. Esto limita qué tan bien funciona el aprendizaje auto-supervisado en 3D. Curiosamente, los datos recogidos por vehículos autónomos a menudo vienen en pares, como imágenes y datos LiDAR. En lugar de usar solo técnicas auto-supervisadas, combinar métodos del procesamiento de imágenes y datos de nubes de puntos puede llevar a mejores resultados.

Proponemos un método llamado aprendizaje estante-supervisado, que utiliza modelos de imagen robustos para crear Cajas delimitadoras 3D a partir de datos combinados de RGB (imágenes de color) y LiDAR. Al pre-entrenar sistemas de detección 3D con estas "Pseudo-etiquetas", podemos lograr un rendimiento mucho mejor que solo usando métodos auto-supervisados.

Importancia de la Detección de Objetos en 3D

En la conducción autónoma, reconocer el entorno con precisión es crucial para una navegación segura. Esto implica detectar varios objetos como coches, peatones y señales de tráfico. La detección de objetos en 3D ayuda a los vehículos a entender dónde están esos objetos en el espacio, lo que les permite tomar decisiones informadas. Los métodos tradicionales dependen mucho de conjuntos de datos etiquetados, que pueden ser difíciles de producir.

Desafíos en la Detección de Objetos en 3D

Crear conjuntos de datos etiquetados para la detección de objetos en 3D puede ser increíblemente lento y caro. Requiere que los anotadores dibujen cajas delimitadoras 3D alrededor de los objetos, lo que a menudo implica usar equipo especializado como LiDAR. Dado que los enfoques auto-supervisados han mostrado promesas en la mejora de la precisión de detección al trabajar con datos limitados, los investigadores están interesados en usar estos métodos.

Sin embargo, las técnicas auto-supervisadas actuales adaptadas para datos 3D aún enfrentan problemas. La razón principal es que la mayoría de los conjuntos de datos 3D son más pequeños y no tan diversos como los conjuntos de datos de imágenes. Como resultado, los métodos auto-supervisados que funcionan bien para imágenes no rinden de manera efectiva en configuraciones 3D.

Usando Datos Combinados para Mejores Resultados

Una ventaja de los conjuntos de datos 3D en la industria de vehículos autónomos es que a menudo vienen junto con imágenes. Esto significa que cuando los vehículos recogen datos, generalmente capturan tanto información de LiDAR como de RGB. En lugar de depender únicamente del aprendizaje auto-supervisado, tiene sentido combinar información de modelos de imagen y datos LiDAR. Al hacer esto, podemos crear cajas delimitadoras 3D incluso sin datos 3D etiquetados.

Enfoque de Aprendizaje Estante-Supervisado

Presentamos el enfoque de aprendizaje estante-supervisado, que utiliza modelos existentes y robustos entrenados en datos de imagen para crear pseudo-etiquetas para la detección de objetos en 3D. Estas pseudo-etiquetas se pueden usar para pre-entrenar modelos de detección 3D.

Generación de Pseudo-Etiquetas

Para generar cajas delimitadoras 3D, comenzamos usando un modelo de visión-lenguaje que puede entender tanto imágenes como texto. Introducimos nombres de clases de objetos (ej., coches o camiones) para generar cajas delimitadoras 2D. Luego, usamos un modelo de segmentación para convertir esas cajas 2D en máscaras de instancia precisas.

A continuación, necesitamos convertir estas máscaras en cajas delimitadoras 3D. Tomamos los puntos de LiDAR que corresponden a las máscaras 2D y calculamos la posición central, dimensiones y orientación de la caja 3D. Esta combinación de datos nos permite crear una representación 3D bien informada de los objetos.

Beneficios del Aprendizaje Estante-Supervisado

Un beneficio importante de este método es que nos permite crear tareas más alineadas para el entrenamiento. En lugar de usar solo el aprendizaje auto-supervisado en nubes de puntos, podemos aprender de las pseudo-etiquetas 3D generadas a partir de los datos combinados de RGB y LiDAR. Esto lleva a un mejor rendimiento en comparación con métodos previos basados únicamente en la auto-supervisión.

Evaluación Experimental

Para evaluar la efectividad de nuestro enfoque, realizamos experimentos extensos usando grandes conjuntos de datos como nuScenes. Encontramos que nuestro método estante-supervisado propuesto mejora constantemente la precisión de detección, especialmente en situaciones de bajos datos. Los resultados mostraron que nuestro enfoque puede superar métodos previos que dependían exclusivamente del aprendizaje auto-supervisado.

Técnicas de Aprendizaje Auto-Supervisado

El aprendizaje auto-supervisado ha ganado atención debido a su capacidad de usar grandes cantidades de datos no etiquetados. Típicamente, estos métodos crean tareas pretextuales para derivar supervisión directamente de los datos en bruto y luego adaptan esas representaciones aprendidas a tareas posteriores usando una cantidad limitada de datos etiquetados.

Recientemente, los investigadores han explorado cómo aplicar el aprendizaje auto-supervisado a la detección de objetos en 3D. Sin embargo, a menudo encuentran que el tamaño más pequeño y la diversidad reducida de los conjuntos de datos 3D hacen que estos métodos sean menos efectivos.

Importancia de Modelos Basados en Imágenes en la Detección 3D

En lugar de depender únicamente de métodos auto-supervisados, argumentamos que usar modelos fundacionales basados en imágenes funciona mejor. Estos modelos ya entienden relaciones y cualidades de los objetos gracias a un extenso entrenamiento en diversos datos de imagen.

Al introducir representaciones de nubes de puntos con conocimiento de modelos de visión-lenguaje, podemos mejorar el rendimiento de los detectores 3D. La idea es usar detecciones 2D de alta calidad para informar y mejorar la comprensión 3D.

Destilación de Información de Modelos 2D

Usando modelos de visión-lenguaje, podemos destilar información valiosa de sus representaciones 2D al espacio 3D. Este proceso implica proyectar puntos LiDAR 3D en las máscaras de segmentación 2D y generar las cajas delimitadoras necesarias para el entrenamiento.

Pipeline de Generación de Pseudo-Etiquetas

Nuestro pipeline funciona generando primero predicciones de máscaras 2D basadas en los nombres de clases. Luego, tomamos los puntos LiDAR y los agrupamos según las máscaras 2D. Después, calculamos las posiciones centradas 3D, orientaciones y dimensiones de cada caja delimitadora.

Nuestro método también requiere refinamientos adicionales, ya que muchos componentes proporcionan estimaciones aproximadas. Podemos mejorar las pseudo-etiquetas 3D a través de una variedad de estrategias.

Refinando Pseudo-Etiquetas

Para mejorar la calidad de nuestras cajas delimitadoras 3D, podemos usar varias técnicas:

Ingeniería de Prompts

Usar los prompts correctos para los modelos de visión-lenguaje es crítico. Al proporcionar sinónimos y nombres de clases relacionados, podemos mejorar las capacidades de detección. Sin embargo, no todas las clases pueden ser detectadas con precisión, especialmente cuando están ambiguamente definidas.

Erosión de Máscaras y Acumulación de LiDAR

Para mejorar la densidad de nubes de puntos, también empleamos erosión de máscaras para eliminar puntos LiDAR poco fiables cerca de los bordes. Acumular múltiples barridos de LiDAR puede ayudar a proporcionar estimaciones más claras y robustas de los centros de los objetos.

Compensación de Medoides

Debido a cómo funciona LiDAR, los medoides estimados pueden estar sesgados hacia el vehículo ego. Para corregir esto, empujamos los medoides predichos radialmente hacia afuera según el tamaño del objeto, mejorando la precisión general.

Supresión de No Múltiples

Cuando múltiples cámaras capturan regiones superpuestas, nuestro método puede producir detecciones duplicadas. Para abordar esto, aplicamos supresión de no-máximos, que ayuda a eliminar detecciones repetidas para los mismos objetos.

Técnicas de Fusión Tardía

Por último, implementamos estrategias de fusión tardía para combinar las salidas de diferentes modelos, asegurando que mantengamos las predicciones más confiables mientras descartamos cualquier detección falsa.

Entrenamiento con Pseudo-Etiquetas

Una vez que tenemos nuestras pseudo-etiquetas refinadas, podemos pre-entrenar varios detectores 3D. Entrenar con estas etiquetas funciona de manera similar a cómo entrenaríamos con anotaciones verdaderas. Después del pre-entrenamiento con pseudo-etiquetas, podemos ajustar el modelo usando un conjunto de datos limitado.

En nuestros experimentos, encontramos que este método conduce a mejoras considerables en comparación con trabajos anteriores, particularmente en configuraciones de bajos datos.

Conclusiones de los Experimentos

Nuestros experimentos revelan importantes ideas sobre el rendimiento de nuestro método propuesto:

Evaluación de Rendimiento Cero-Tiro

En nuestras evaluaciones de cero-tiro, encontramos que nuestras pseudo-etiquetas superaron significativamente técnicas anteriores. Esto indica que nuestro método puede aprovechar efectivamente los datos multimodales que introducimos.

Ganancias de Aprendizaje Semi-Supervisado

Cuando afinamos modelos usando una pequeña cantidad de datos etiquetados después del pre-entrenamiento con pseudo-etiquetas, observamos mejoras adicionales en precisión. Alinear las tareas de pre-entrenamiento y afinación también lleva a mejores resultados.

Resultados Cualitativos

Visualizar las etiquetas de verdad de terreno y nuestras cajas delimitadoras predichas muestra las fortalezas y debilidades de nuestro método. Aunque muchas predicciones localizan y dimensionan correctamente los objetos, todavía hay desafíos, particularmente en situaciones de oclusión o desalineación con los datos de carriles.

Limitaciones y Direcciones Futuras

Aunque nuestro método muestra promesas, tiene limitaciones:

Desafíos en la Estimación de Orientación

Usar la dirección del carril de mapas HD para la orientación del vehículo puede ser problemático, especialmente cuando los vehículos están girando o cuando los mapas no están disponibles. Los esfuerzos futuros podrían centrarse en refinar la estimación de orientación utilizando métodos alternativos.

Estrategias de Muestreo de Datos

Muestrear datos de entrenamiento de manera uniforme no refleja situaciones prácticas. Explorar técnicas para muestrear datos de cuadros continuos puede generar mejores muestras de entrenamiento.

Problemas de Generalización

Aunque nuestro enfoque funciona bien para tareas específicas, puede que no se generalice de manera efectiva a otros contextos. Deberíamos considerar cómo hacer que nuestras estrategias de pre-entrenamiento se apliquen de manera más amplia.

Avanzando

Hay oportunidades emocionantes para futuras investigaciones que amplíen nuestros hallazgos. Encontrar formas de combinar tareas pretextuales, refinar nuestros enfoques para la estimación de orientación y mejorar los métodos de muestreo puede realzar el rendimiento y la aplicabilidad de nuestro modelo.

En general, nuestro método estante-supervisado demuestra el potencial de aprovechar una combinación de datos de imagen y LiDAR para mejorar la detección de objetos 3D, marcando un paso significativo hacia adelante en la industria de vehículos autónomos.

Avances en la detección de objetos en 3D para vehículos autónomos

Un nuevo método mejora la detección en 3D usando datos de imagen y LiDAR.

Importancia de la Detección de Objetos en 3D

Desafíos en la Detección de Objetos en 3D

Usando Datos Combinados para Mejores Resultados

Enfoque de Aprendizaje Estante-Supervisado

Generación de Pseudo-Etiquetas

Beneficios del Aprendizaje Estante-Supervisado

Evaluación Experimental

Técnicas de Aprendizaje Auto-Supervisado

Importancia de Modelos Basados en Imágenes en la Detección 3D

Destilación de Información de Modelos 2D

Pipeline de Generación de Pseudo-Etiquetas

Refinando Pseudo-Etiquetas

Ingeniería de Prompts

Erosión de Máscaras y Acumulación de LiDAR

Compensación de Medoides

Supresión de No Múltiples

Técnicas de Fusión Tardía

Entrenamiento con Pseudo-Etiquetas

Conclusiones de los Experimentos

Evaluación de Rendimiento Cero-Tiro

Ganancias de Aprendizaje Semi-Supervisado

Resultados Cualitativos

Limitaciones y Direcciones Futuras

Desafíos en la Estimación de Orientación

Estrategias de Muestreo de Datos

Problemas de Generalización

Avanzando

Enlaces de referencia

Temas referenciados

Avances en la detección de objetos en 3D para vehículos autónomos

Un nuevo método mejora la detección en 3D usando datos de imagen y LiDAR.

#Importancia de la Detección de Objetos en 3D

#Desafíos en la Detección de Objetos en 3D

#Usando Datos Combinados para Mejores Resultados

#Enfoque de Aprendizaje Estante-Supervisado

#Generación de Pseudo-Etiquetas

#Beneficios del Aprendizaje Estante-Supervisado

#Evaluación Experimental

#Técnicas de Aprendizaje Auto-Supervisado

#Importancia de Modelos Basados en Imágenes en la Detección 3D

#Destilación de Información de Modelos 2D

#Pipeline de Generación de Pseudo-Etiquetas

#Refinando Pseudo-Etiquetas

#Ingeniería de Prompts

#Erosión de Máscaras y Acumulación de LiDAR

#Compensación de Medoides

#Supresión de No Múltiples

#Técnicas de Fusión Tardía

#Entrenamiento con Pseudo-Etiquetas

#Conclusiones de los Experimentos

#Evaluación de Rendimiento Cero-Tiro

#Ganancias de Aprendizaje Semi-Supervisado

#Resultados Cualitativos

#Limitaciones y Direcciones Futuras

#Desafíos en la Estimación de Orientación

#Estrategias de Muestreo de Datos

#Problemas de Generalización

#Avanzando

Enlaces de referencia

Temas referenciados

Importancia de la Detección de Objetos en 3D

Desafíos en la Detección de Objetos en 3D

Usando Datos Combinados para Mejores Resultados

Enfoque de Aprendizaje Estante-Supervisado

Generación de Pseudo-Etiquetas

Beneficios del Aprendizaje Estante-Supervisado

Evaluación Experimental

Técnicas de Aprendizaje Auto-Supervisado

Importancia de Modelos Basados en Imágenes en la Detección 3D

Destilación de Información de Modelos 2D

Pipeline de Generación de Pseudo-Etiquetas

Refinando Pseudo-Etiquetas

Ingeniería de Prompts

Erosión de Máscaras y Acumulación de LiDAR

Compensación de Medoides

Supresión de No Múltiples

Técnicas de Fusión Tardía

Entrenamiento con Pseudo-Etiquetas

Conclusiones de los Experimentos

Evaluación de Rendimiento Cero-Tiro

Ganancias de Aprendizaje Semi-Supervisado

Resultados Cualitativos

Limitaciones y Direcciones Futuras

Desafíos en la Estimación de Orientación

Estrategias de Muestreo de Datos

Problemas de Generalización

Avanzando