Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones

Avances en la estimación de poses con el conjunto de datos YCB-Ev

El conjunto de datos YCB-Ev mejora la estimación de poses usando datos de cámaras RGB-D y de eventos.

― 6 minilectura


El conjunto de datosEl conjunto de datosYCB-Ev mejora laestimación de poses.para mejorar el seguimiento.información RGB-D y datos de eventosNuevo conjunto de datos combina
Tabla de contenidos

En los últimos años, entender cómo rastrear con precisión la posición y orientación de objetos se ha vuelto clave para tecnologías como la realidad aumentada, la realidad virtual y la robótica. Esta habilidad se conoce como Estimación de Pose 6DoF (seis grados de libertad). Para ayudar a mejorar este campo, los investigadores han creado un nuevo conjunto de datos llamado YCB-Ev, que combina imágenes regulares y datos de eventos.

¿Qué es el conjunto de datos YCB-Ev?

El conjunto de datos YCB-Ev consiste en datos sincronizados de dos tipos de cámaras: una cámara RGB-D tradicional que captura imágenes de color y profundidad, y una Cámara de Eventos que registra cambios en la escena en tiempo real. Este conjunto de datos incluye información sobre 21 objetos comunes, lo que hace posible probar y evaluar diferentes algoritmos para la estimación de pose en ambos tipos de datos.

El conjunto de datos tiene una duración total de aproximadamente 7 minutos y 43 segundos, organizado en secuencias que incluyen las mismas disposiciones de objetos que un conjunto de datos anterior, YCB-Video (YCB-V). Esta consistencia permite a los investigadores ver qué tan bien pueden adaptarse los algoritmos existentes al cambiar de un conjunto de datos a otro.

¿Por qué son importantes las cámaras de eventos?

Las cámaras de eventos funcionan de manera diferente a las cámaras típicas. En lugar de capturar imágenes a una tasa fija, las cámaras de eventos registran cambios en el brillo a medida que suceden. Esto significa que capturan acciones o movimientos mucho más rápido y con menos energía. Sin embargo, los datos que producen no son tan sencillos como las imágenes regulares, lo que puede presentar desafíos para el procesamiento y análisis.

Desafíos en la estimación de pose

La estimación de pose puede ser complicada. Los algoritmos tradicionales a menudo dependen de datos sintéticos (imágenes generadas por computadora) para entrenar modelos. Sin embargo, a menudo hay una brecha entre cómo se desempeñan estos modelos en datos sintéticos frente a imágenes del mundo real. Varios factores pueden afectar esto, como el ruido de la cámara y las condiciones de iluminación.

Para abordar este problema, los investigadores utilizan tanto conjuntos de datos sintéticos como del mundo real para evaluar sus algoritmos. El conjunto de datos YCB-V ha sido una opción popular porque proporciona datos 3D reales, que los investigadores pueden usar para crear imágenes generadas por computadora de los objetos.

Cómo se creó el conjunto de datos YCB-Ev

Para crear el conjunto de datos YCB-Ev, los investigadores adquirieron objetos físicos reales y configuraron cámaras para capturar secuencias basadas en el conjunto de datos YCB-V. Usaron una cámara RGB-D actualizada que podía capturar imágenes de alta calidad sin recortes. Al mismo tiempo, usaron una cámara de eventos para grabar los cambios en la escena en tiempo real.

Los investigadores enfrentaron desafíos para combinar los datos de estos dos tipos de cámaras porque operan de manera diferente. Para asegurarse de que todo estuviera alineado correctamente, utilizaron una configuración de calibración única que involucraba patrones visuales que ambas cámaras podían detectar.

Anotación de datos

Para que los investigadores pudieran evaluar sus algoritmos con precisión, necesitaban poses de verdad objetiva, que son las posiciones y orientaciones reales de los objetos en cualquier momento dado. Para obtener esta información, utilizaron algoritmos avanzados que rastrean objetos en las imágenes RGB primero y luego transfirieron esa información al marco de referencia de la cámara de eventos.

Utilizaron dos algoritmos: uno para una estimación inicial de las poses y otro para refinar los resultados, especialmente cuando la cámara se movía rápido. Este proceso aseguraba que las poses de verdad objetiva fueran lo más precisas posible.

Sincronización de datos

Sincronizar los datos de ambas cámaras era crucial. La cámara RGB captura imágenes a intervalos fijos, mientras que la cámara de eventos transmite datos continuamente. Para alinearlos, los investigadores mostraron un contador intermitente en una pantalla que era visible para ambas cámaras. Aunque este método introdujo algo de latencia, fue la mejor manera de asegurar que ambos conjuntos de datos estuvieran alineados con precisión.

Estructura del conjunto de datos

El conjunto de datos YCB-Ev está organizado en una estructura clara. Contiene archivos que proporcionan parámetros de calibración para ambas cámaras, permitiendo a los investigadores entender cómo interpretar los datos correctamente. Cada secuencia se almacena en su propia carpeta, que contiene las imágenes RGB, imágenes de profundidad y datos de poses de verdad objetiva.

Los datos de eventos se almacenan por separado en un formato binario compacto que facilita su procesamiento y compartición. Este formato consiste en marcas de tiempo y otros detalles sobre cada evento sin metadatos adicionales.

Evaluando el rendimiento del algoritmo

Una vez que el conjunto de datos estuvo listo, los investigadores pudieron comenzar a probar varios algoritmos de estimación de pose. Se concentraron en el rendimiento de los algoritmos usando solo los datos RGB inicialmente. Los investigadores encontraron que algunos algoritmos funcionaban bien, mientras que otros tenían problemas debido a las diferencias entre el conjunto de datos YCB-V y el conjunto de datos YCB-Ev.

La evaluación mostró que los algoritmos mejor valorados de desafíos anteriores enfrentaron problemas al pasar al nuevo conjunto de datos. Esto indica que se necesita más trabajo para mejorar cómo los algoritmos manejan los sesgos del conjunto de datos.

Limitaciones y trabajo futuro

Aunque el conjunto de datos YCB-Ev ofrece información valiosa, también tiene limitaciones. Las poses de verdad objetiva pueden contener errores debido a factores como imprecisiones en los modelos de los objetos y problemas de sincronización entre las cámaras. Los investigadores están trabajando activamente para mejorar estas anotaciones.

La investigación futura tiene como objetivo mejorar los métodos para estimar poses directamente desde los datos de eventos. Este enfoque podría ayudar a anotar secuencias más complejas y mejorar el rendimiento de los algoritmos que dependen únicamente de datos RGB.

Conclusión

El lanzamiento del conjunto de datos YCB-Ev marca un paso importante en la investigación de estimación de pose. Al combinar datos de cámaras RGB-D tradicionales y cámaras de eventos más nuevas, los investigadores pueden entender mejor cómo rastrear objetos en tiempo real y en diversas condiciones. Aunque siguen existiendo desafíos, la información obtenida de este conjunto de datos ayudará a mejorar la tecnología utilizada en la realidad aumentada, la realidad virtual y la robótica.

Fuente original

Título: YCB-Ev 1.1: Event-vision dataset for 6DoF object pose estimation

Resumen: Our work introduces the YCB-Ev dataset, which contains synchronized RGB-D frames and event data that enables evaluating 6DoF object pose estimation algorithms using these modalities. This dataset provides ground truth 6DoF object poses for the same 21 YCB objects that were used in the YCB-Video (YCB-V) dataset, allowing for cross-dataset algorithm performance evaluation. The dataset consists of 21 synchronized event and RGB-D sequences, totalling 13,851 frames (7 minutes and 43 seconds of event data). Notably, 12 of these sequences feature the same object arrangement as the YCB-V subset used in the BOP challenge. Ground truth poses are generated by detecting objects in the RGB-D frames, interpolating the poses to align with the event timestamps, and then transferring them to the event coordinate frame using extrinsic calibration. Our dataset is the first to provide ground truth 6DoF pose data for event streams. Furthermore, we evaluate the generalization capabilities of two state-of-the-art algorithms, which were pre-trained for the BOP challenge, using our novel YCB-V sequences. The dataset is publicly available at https://github.com/paroj/ycbev.

Autores: Pavel Rojtberg, Thomas Pöllabauer

Última actualización: 2024-09-25 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2309.08482

Fuente PDF: https://arxiv.org/pdf/2309.08482

Licencia: https://creativecommons.org/licenses/by-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares