Presentamos SANPO: Un Nuevo Conjunto de Datos para Entender Escenas
El dataset SANPO combina videos reales y sintéticos para avanzar en la investigación de navegación.
― 7 minilectura
Tabla de contenidos
- ¿Qué hace a SANPO único?
- Proceso de recolección de datos
- Tipos de datos incluidos
- Casos de uso para SANPO
- Desafíos en datos egocéntricos
- La composición del conjunto de datos
- Técnicas de anotación
- Comparando SANPO con otros conjuntos de datos
- Referencias y evaluaciones
- Direcciones futuras
- Conclusión
- Fuente original
- Enlaces de referencia
SANPO es una gran colección de videos centrados en cómo los humanos entienden las escenas desde su perspectiva. Este conjunto de datos está diseñado para ayudar a los investigadores a desarrollar mejores sistemas de navegación, especialmente para tareas como ayudar a personas con discapacidad visual. Incluye grabaciones de entornos del mundo real y entornos sintéticos diseñados para parecerse a condiciones de la vida real.
¿Qué hace a SANPO único?
SANPO se destaca porque combina datos de video reales y generados por computadora. Los datos reales provienen de dos cámaras que usan voluntarios, proporcionando diferentes puntos de vista de varias escenas al aire libre. Los datos sintéticos se crean en un espacio virtual, pero están diseñados para ser lo más cercanos posible a escenarios de la vida real. Esta combinación permite a los investigadores estudiar cómo los humanos perciben y navegan en entornos de manera efectiva.
Proceso de recolección de datos
Los datos de SANPO fueron recogidos por voluntarios que llevaban cámaras especiales. Estas cámaras capturaron material de video mientras los individuos se movían a través de diferentes entornos, como calles de la ciudad, parques y otros espacios al aire libre. Los voluntarios también pasaron por diversas condiciones climáticas y momentos del día para garantizar una amplia gama de escenas. El objetivo fue reunir datos diversos, incluyendo áreas con mucho tráfico humano y vehicular, así como obstáculos que pudieran afectar la navegación.
Tipos de datos incluidos
El conjunto de datos SANPO incluye varios tipos de información:
Video Estéreo: El conjunto de datos consiste en videos capturados desde dos cámaras a la vez, proporcionando una vista tridimensional.
Anotaciones de profundidad: Cada video viene acompañado de datos sobre qué tan lejos están diferentes objetos de la cámara, ayudando a entender las distancias en las escenas.
Segmentación Semántica: Esto implica descomponer los fotogramas del video en diferentes partes según lo que es visible (por ejemplo, personas, vehículos, obstáculos) y marcar estas partes.
Información de odometría: Esto indica dónde se encuentra la cámara y el individuo en el tiempo, añadiendo más contexto a los datos.
SANPO comprende tanto escenas del mundo real como sintéticas. Las escenas reales están llenas de detalles, pero pueden tener imperfecciones debido a factores como el movimiento de la cámara o la iluminación. Por otro lado, las escenas sintéticas ofrecen datos perfectos, lo que puede ayudar en el entrenamiento de modelos de manera efectiva.
Casos de uso para SANPO
Este conjunto de datos tiene numerosas aplicaciones. Puede ayudar en el desarrollo de tecnologías para:
Robótica: Mejorar cómo los robots entienden y navegan en entornos humanos.
Vehículos autónomos: Ayudar a los coches a tomar mejores decisiones cuando detectan humanos y obstáculos.
Realidad aumentada: Permitir que los dispositivos interpreten mejor el mundo circundante para los usuarios.
Accesibilidad: Crear sistemas que ayuden a personas con discapacidad visual proporcionando retroalimentación en tiempo real sobre su entorno.
Al centrarse en la recolección y anotación de datos centrados en humanos, SANPO aborda una brecha que ha existido en los conjuntos de datos utilizados para la comprensión de escenas.
Desafíos en datos egocéntricos
Los videos capturados desde una perspectiva humana presentan desafíos únicos. Los puntos de vista pueden ser poco convencionales, lo que puede llevar a dificultades en la interpretación de la información. Además, las escenas pueden cambiar rápidamente debido a interacciones con otras personas y objetos. Estos factores hacen que sea necesario contar con un conjunto de datos robusto como SANPO para entrenar modelos que puedan manejar tal variabilidad.
La composición del conjunto de datos
SANPO contiene un total de más de 700 sesiones de videos grabados. Cada sesión dura aproximadamente 30 segundos y representa varias condiciones. El conjunto de datos tiene un número significativo de mapas de profundidad y máscaras de segmentación, lo que lo convierte en uno de los recursos más grandes y detallados para la comprensión de escenas egocéntricas.
Para las sesiones reales, hay más de 975,000 máscaras de segmentación, y para las sesiones sintéticas, hay más de 113,000. La segmentación cubre diferentes categorías como humanos, vehículos, obstáculos y varios elementos del entorno.
Técnicas de anotación
Para asegurar datos de alta calidad, las anotaciones del conjunto de datos se realizan utilizando un enfoque sistemático. Los humanos anotan fotogramas específicos, y estas anotaciones se utilizan para inferir información para otros fotogramas en el mismo video. Esto significa que cada fotograma anotado ayuda a mejorar la calidad de los datos y facilita su análisis.
El conjunto de datos está estructurado para identificar diferentes elementos en la escena como "cosas" (como peatones y vehículos) y "cosas" (como el cielo y las carreteras). Esta distinción es esencial para tareas como la detección de objetos y la clasificación de escenas.
Comparando SANPO con otros conjuntos de datos
Se han creado varios otros conjuntos de datos para tareas como la conducción autónoma y la detección de objetos. Sin embargo, la mayoría de estos no incluyen el nivel de detalle presente en SANPO, especialmente en cuanto a perspectivas humanas. Muchos conjuntos de datos existentes se centran principalmente en vehículos o entornos estructurados, mientras que SANPO enfatiza la imprevisibilidad y complejidad de las interacciones humanas cotidianas.
Si bien conjuntos de datos como SCAND y Ego4D capturan perspectivas egocéntricas, a menudo carecen de las anotaciones completas necesarias para la segmentación semántica. SANPO aborda esto proporcionando tanto datos de profundidad como de segmentación, convirtiéndose en un recurso valioso para diversas aplicaciones de investigación.
Referencias y evaluaciones
Para ayudar a los investigadores a evaluar la efectividad de diferentes modelos utilizando el conjunto de datos SANPO, se han establecido benchmarks. Estas referencias les permiten evaluar qué tan bien funcionan los modelos existentes al enfrentar los desafíos que presenta SANPO. La evaluación incluye pruebas de estimación de profundidad y segmentación semántica, con métricas utilizadas para cuantificar el rendimiento.
Los resultados muestran que muchos modelos existentes tienen dificultades con tareas usando SANPO, lo que indica su naturaleza desafiante. Esto es beneficioso ya que fomenta avances en tecnologías que pueden manejar las complejidades de la navegación humana.
Direcciones futuras
Se espera que la introducción de SANPO inspire más investigaciones en diversas aplicaciones. Los investigadores pueden utilizar este conjunto de datos para perfeccionar sus modelos para navegar por escenarios del mundo real de manera más efectiva. Esto ayudará a abordar los desafíos únicos que plantea la navegación egocéntrica.
Al resaltar la importancia de las perspectivas humanas en la comprensión de entornos, SANPO busca ampliar los límites de las tecnologías destinadas a mejorar la vida humana. Ya sea a través de la robótica, la realidad aumentada o los esfuerzos de accesibilidad, este conjunto de datos tiene el potencial de hacer un impacto significativo en múltiples campos.
Conclusión
En resumen, SANPO es un conjunto de datos innovador diseñado para mejorar nuestra comprensión de cómo los humanos perciben e interactúan con su entorno. Combina videos del mundo real con datos sintéticos para crear un recurso rico para la comunidad de investigación. Al centrarse en la experiencia humana, SANPO está en posición de avanzar en el desarrollo de sistemas de navegación más efectivos y mejorar nuestra comprensión general de la comprensión de escenas.
Título: SANPO: A Scene Understanding, Accessibility and Human Navigation Dataset
Resumen: Vision is essential for human navigation. The World Health Organization (WHO) estimates that 43.3 million people were blind in 2020, and this number is projected to reach 61 million by 2050. Modern scene understanding models could empower these people by assisting them with navigation, obstacle avoidance and visual recognition capabilities. The research community needs high quality datasets for both training and evaluation to build these systems. While datasets for autonomous vehicles are abundant, there is a critical gap in datasets tailored for outdoor human navigation. This gap poses a major obstacle to the development of computer vision based Assistive Technologies. To overcome this obstacle, we present SANPO, a large-scale egocentric video dataset designed for dense prediction in outdoor human navigation environments. SANPO contains 701 stereo videos of 30+ seconds captured in diverse real-world outdoor environments across four geographic locations in the USA. Every frame has a high resolution depth map and 112K frames were annotated with temporally consistent dense video panoptic segmentation labels. The dataset also includes 1961 high-quality synthetic videos with pixel accurate depth and panoptic segmentation annotations to balance the noisy real world annotations with the high precision synthetic annotations. SANPO is already publicly available and is being used by mobile applications like Project Guideline to train mobile models that help low-vision users go running outdoors independently. To preserve anonymization during peer review, we will provide a link to our dataset upon acceptance. SANPO is available here: https://google-research-datasets.github.io/sanpo_dataset/
Autores: Sagar M. Waghmare, Kimberly Wilber, Dave Hawkey, Xuan Yang, Matthew Wilson, Stephanie Debats, Cattalyya Nuengsigkapian, Astuti Sharma, Lars Pandikow, Huisheng Wang, Hartwig Adam, Mikhail Sirotenko
Última actualización: 2024-12-19 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2309.12172
Fuente PDF: https://arxiv.org/pdf/2309.12172
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.