Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones

Mejorando la segmentación de instancias 3D con anotaciones ruidosas

Un método para mejorar la segmentación de nubes de puntos usando técnicas de aprendizaje débilmente supervisado.

― 6 minilectura


Mejorando las técnicas deMejorando las técnicas desegmentación 3Dobjetos en 3D.débil para mejorar la segmentación deUn nuevo método que usa supervisión
Tabla de contenidos

La segmentación de instancias en nubes de puntos es clave para entender entornos 3D. Se trata de identificar y etiquetar objetos individuales dentro de un escaneo 3D, que suele hacerse a partir de una serie de imágenes. Los métodos tradicionales para este proceso suelen depender de anotaciones precisas para cada punto en el escaneo. Pero esas anotaciones detalladas pueden ser muy lentas y requieren un montón de esfuerzo. Por eso, los investigadores están buscando formas menos estrictas de etiquetar estos objetos, conocidas como métodos débilmente supervisados.

Un método débilmente supervisado muy popular consiste en usar cajas delimitadoras 3D para representar objetos. Anotar una caja delimitadora es mucho más fácil que etiquetar cada punto individualmente. Aunque este enfoque ofrece una forma más rápida de proporcionar información de instancias, también trae sus propios desafíos. A menudo, las cajas delimitadoras creadas manualmente pueden ser inexactas debido a varios factores, lo que lleva a un peor rendimiento en la segmentación de los objetos.

Desafíos con Anotaciones Ruidosas

Cuando las anotaciones de las cajas delimitadoras no son perfectas, pueden afectar el rendimiento de los modelos de segmentación. En la práctica, es común ver pequeños errores cuando los humanos dibujan estas cajas delimitadoras. Incluso inexactitudes menores pueden causar problemas significativos en la capacidad del modelo para identificar y etiquetar puntos correctamente. Por eso, es necesario encontrar maneras de mejorar la fiabilidad de los métodos de segmentación a pesar de estas anotaciones ruidosas.

Método Propuesto: CIP-WPIS

Nuestro método, llamado Segmentación de Instancias en Nubes de Puntos Inducida por Imágenes Complementarias Débilmente Supervisadas (CIP-WPIS), busca mejorar el rendimiento de segmentación con supervisión débil de cajas delimitadoras ruidosas. El método se basa en el conocimiento existente de un modelo 2D muy reconocido llamado SAM, que ha sido entrenado extensamente en un gran conjunto de datos. SAM es excelente cortando objetos en imágenes basándose en indicaciones, que podemos usar para ayudar con nuestra segmentación de nubes de puntos 3D.

Generación de Puntos Candidatos

El primer paso en nuestro método es identificar puntos candidatos a partir de las cajas delimitadoras ruidosas. En lugar de tratar todos los puntos dentro de una caja delimitadora como posibles candidatos, usamos una técnica llamada superpuntos. Los superpuntos representan pequeños grupos de puntos cercanos con características similares. Al filtrar candidatos poco probables a través de superpuntos, podemos enfocarnos en los puntos que es más probable que pertenezcan a una instancia específica.

Selección de Vistas para Proyección

Una vez que tenemos nuestros puntos candidatos, la siguiente tarea es determinar qué vistas de imagen 2D usar para cada instancia. Dado que una sola instancia a menudo aparece en múltiples imágenes, necesitamos seleccionar las vistas que proporcionen la mejor visibilidad de los puntos candidatos. Para hacer esto, hemos creado un algoritmo de selección codicioso que encuentra progresivamente vistas con los puntos candidatos más visibles.

Creación de Indicaciones para SAM

Con las vistas seleccionadas, generamos indicaciones para que SAM las use en la segmentación de objetos. Creamos dos tipos de indicaciones: indicaciones de primer plano, que se generan a partir de los puntos proyectados de los objetos candidatos, e indicaciones de fondo, que son píxeles muestreados alrededor de estos puntos. Estas indicaciones ayudan a SAM a distinguir lo que pertenece al objeto y lo que no.

Asignación de Confianza y Refinamiento de Etiquetas

Una vez que recibimos Predicciones de segmentación de SAM, asignamos puntajes de confianza a cada punto candidato basándonos en estas predicciones. Los puntajes indican qué tan probable es que un punto pertenezca a una instancia específica. Para refinar aún más nuestras etiquetas, también consideramos la geometría de las nubes de puntos. Al analizar la estructura 3D y las relaciones entre puntos, podemos corregir cualquier posible error en las asignaciones iniciales.

Validación del Método

Probamos rigurosamente nuestro método usando dos conjuntos de datos muy conocidos: ScanNet-V2 y S3DIS. Estos conjuntos de datos contienen diversas escenas interiores 3D con diferentes niveles de complejidad. Nuestro objetivo era evaluar qué tan bien podía funcionar nuestro método con anotaciones de cajas delimitadoras ruidosas en comparación con métodos totalmente supervisados. Los resultados muestran que nuestro método CIP-WPIS mantiene un buen rendimiento de segmentación, incluso en presencia de anotaciones ruidosas.

Comparación con Métodos Anteriores

Cuando comparamos nuestro método con enfoques existentes, encontramos que CIP-WPIS da mejores resultados. Por ejemplo, logramos una mejora significativa sobre métodos anteriores que dependen únicamente de anotaciones de cajas delimitadoras. Incluso cuando el nivel de ruido en las cajas delimitadoras aumenta, el rendimiento de nuestro método se mantiene fuerte con solo una ligera disminución.

Los Beneficios de Usar Modelos Base

Un aspecto clave de nuestro enfoque es utilizar las capacidades de SAM, un modelo base entrenado con datos extensos y diversos. La habilidad de SAM para generar máscaras de alta calidad a partir de imágenes mejora nuestros resultados de segmentación. Aprovechando el conocimiento de un modelo que ha aprendido de millones de ejemplos, podemos traducir esta información eficazmente al dominio 3D.

El conocimiento previo proporcionado por SAM hace que nuestro método sea robusto frente a las inexactitudes que provienen de una supervisión débil. Esto significa que incluso cuando las anotaciones de las cajas delimitadoras no son perfectas, aún podemos lograr segmentaciones precisas.

Direcciones Futuras

Aunque nuestro método muestra promesas, todavía hay áreas para mejorar. Una limitación es que, aunque nuestro enfoque mejora la precisión de etiquetado, puede que aún no alcance la precisión de las anotaciones generadas por humanos. A medida que avancemos, buscamos refinar aún más nuestra técnica, posiblemente incorporando estrategias más sofisticadas para lidiar con el ruido y mejorar la precisión de etiquetado.

Otra posible vía para trabajos futuros es explorar conjuntos de datos y escenarios adicionales para probar la robustez de nuestro método. Entender cómo se desempeña en varios contextos y con diferentes tipos de anotaciones ruidosas nos ayudará a mejorar su capacidad de generalización.

Conclusión

En resumen, nuestro enfoque para la segmentación de instancias en nubes de puntos a través de supervisión con cajas delimitadoras ruidosas ofrece una alternativa sólida a los métodos totalmente supervisados. Al aprovechar tanto la información 2D como 3D, podemos producir segmentaciones de alta calidad mientras minimizamos la carga del trabajo de anotación. Nuestro método muestra un gran potencial para mejorar la comprensión de escenas 3D en aplicaciones del mundo real, facilitando a investigadores y profesionales el análisis eficiente de entornos complejos.

Fuente original

Título: When 3D Bounding-Box Meets SAM: Point Cloud Instance Segmentation with Weak-and-Noisy Supervision

Resumen: Learning from bounding-boxes annotations has shown great potential in weakly-supervised 3D point cloud instance segmentation. However, we observed that existing methods would suffer severe performance degradation with perturbed bounding box annotations. To tackle this issue, we propose a complementary image prompt-induced weakly-supervised point cloud instance segmentation (CIP-WPIS) method. CIP-WPIS leverages pretrained knowledge embedded in the 2D foundation model SAM and 3D geometric prior to achieve accurate point-wise instance labels from the bounding box annotations. Specifically, CP-WPIS first selects image views in which 3D candidate points of an instance are fully visible. Then, we generate complementary background and foreground prompts from projections to obtain SAM 2D instance mask predictions. According to these, we assign the confidence values to points indicating the likelihood of points belonging to the instance. Furthermore, we utilize 3D geometric homogeneity provided by superpoints to decide the final instance label assignments. In this fashion, we achieve high-quality 3D point-wise instance labels. Extensive experiments on both Scannet-v2 and S3DIS benchmarks demonstrate that our method is robust against noisy 3D bounding-box annotations and achieves state-of-the-art performance.

Autores: Qingtao Yu, Heming Du, Chen Liu, Xin Yu

Última actualización: 2023-09-02 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2309.00828

Fuente PDF: https://arxiv.org/pdf/2309.00828

Licencia: https://creativecommons.org/licenses/by-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares