Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones

Presentamos AssemblyHands: Un Nuevo Conjunto de Datos para el Análisis de la Pose de las Manos

Un conjunto de datos completo para estudiar los movimientos de las manos en tareas de ensamblaje de juguetes.

― 6 minilectura


Dataset de AssemblyHandsDataset de AssemblyHandsReveladomovimiento de las manos para AR y VR.Nuevas ideas sobre el análisis del
Tabla de contenidos

En los últimos años, ha crecido el interés por entender cómo la gente realiza tareas en la vida cotidiana, especialmente desde un punto de vista en primera persona. Este interés es particularmente relevante en los campos de la realidad aumentada (AR) y la realidad virtual (VR), donde reconocer los movimientos de las manos es crucial para interactuar con objetos. Para apoyar esta investigación, presentamos AssemblyHands, un gran conjunto de datos diseñado para estudiar cómo las personas ensamblan y desensamblan juguetes usando sus manos.

¿Qué es AssemblyHands?

AssemblyHands es un conjunto de datos que contiene un montón de imágenes donde la gente interactúa con objetos, enfocándose en sus Movimientos de manos. Este conjunto de datos es único porque proporciona datos de alta calidad sobre las Posiciones 3D de las articulaciones de las manos, lo que ayuda a analizar cómo las posturas de las manos se relacionan con acciones específicas. Los datos se recopilan de participantes que fueron filmados mientras trabajaban con juguetes, lo que incluye tareas como juntar partes y desarmarlas.

La Importancia de los Datos de Postura de Mano

Entender las posturas de las manos es esencial porque ofrecen información valiosa sobre lo que una persona está haciendo. Diferentes movimientos de manos a menudo corresponden a tareas específicas. Por ejemplo, cuando alguien está "atornillando" algo, sus movimientos de mano serán diferentes de cuando está "levantando" un objeto. Al analizar estos movimientos, los investigadores pueden obtener información sobre cómo las personas realizan tareas y cómo mejorar la interacción humano-computadora en aplicaciones de AR y VR.

Cómo Recopilamos los Datos

Para crear el conjunto de datos AssemblyHands, utilizamos un conjunto de cámaras para capturar imágenes desde diferentes ángulos. Esta configuración nos permite obtener una vista completa de los movimientos de la mano desde una perspectiva en primera persona. El proceso fue el siguiente:

  1. Participantes: Invitamos a varias personas a completar tareas con juguetes que se desarman. Fueron filmadas mientras ensamblaban y desensamblaban los juguetes.

  2. Cámaras: Una combinación de cámaras fijas y una cámara portátil capturaron las acciones desde varias perspectivas. Este enfoque asegura que podamos ver tanto el punto de vista de la persona como el entorno.

  3. Anotación: Marcamos manualmente las posiciones de puntos clave en las manos en las imágenes. Este proceso implicó identificar dónde estaba cada articulación de la mano durante las tareas.

  4. Control de Calidad: Para asegurar datos de alta calidad, desarrollamos un método para verificar y refinar las anotaciones. Esto involucró usar técnicas automáticas para predecir las ubicaciones de las articulaciones de la mano y mejorar la precisión de nuestras anotaciones.

Beneficios de AssemblyHands

AssemblyHands ofrece varias ventajas:

  • Anotaciones de Alta Calidad: El conjunto de datos incluye anotaciones precisas de posturas de manos en 3D, lo que facilita entrenar modelos para reconocer movimientos de manos.

  • Gran Escala: Con muchas imágenes recopiladas de sujetos diversos, el conjunto de datos ofrece una amplia cobertura de posturas de manos en diferentes contextos.

  • Clasificación de Acciones: Los datos permiten a los investigadores analizar cómo los movimientos de manos se relacionan con acciones específicas, lo que es invaluable para mejorar los sistemas de IA en AR y VR.

Evaluando la Calidad de la Postura de Mano

Para medir la efectividad de los datos de postura de mano, comparamos nuestras anotaciones con métodos existentes. Encontramos que nuestro enfoque resultó en una reducción significativa de errores. Esto significa que nuestro conjunto de datos probablemente ayudará a construir mejores modelos para entender los movimientos de las manos.

El Papel de las Posturas de Mano en el Reconocimiento de Acciones

Reconocer lo que alguien está haciendo basándose en sus movimientos de manos ha sido un objetivo de larga data en la visión por computadora. Con nuestro conjunto de datos, podemos explorar cómo las posturas de las manos se relacionan con acciones específicas. Por ejemplo, al observar cómo alguien sostiene un destornillador, podemos inferir que probablemente está "atornillando" algo.

Usando AssemblyHands para la Clasificación de Acciones

Llevamos el conjunto de datos un paso más allá al usarlo para clasificar acciones basadas en posturas de manos. Nos enfocamos en seis acciones comunes que la gente realiza al ensamblar y desensamblar juguetes. Estas acciones son cruciales para entender no solo lo que está sucediendo, sino cómo se hace.

Las Acciones Estudiadas

  1. Recoger: Levantar un objeto de una superficie.

  2. Posicionar: Colocar un objeto en un lugar específico.

  3. Atornillar: Girar un objeto en otro.

  4. Poner Abajo: Bajar un objeto sobre una superficie.

  5. Quitar: Alejar un objeto de otro.

  6. Desatornillar: Girar un objeto fuera de otro.

Estas acciones se observan frecuentemente en el conjunto de datos y proporcionan una base para estudiar cómo los movimientos de las manos contribuyen a la manipulación de objetos.

Comparando Métodos

También comparamos nuestro nuevo modelo entrenado en AssemblyHands con modelos existentes construidos sobre otros conjuntos de datos. Los resultados mostraron que el modelo más nuevo tuvo un mejor desempeño, lo que indica que la calidad y el volumen de datos en AssemblyHands mejoran las capacidades de reconocimiento de acciones.

Trabajo Futuro

Aunque AssemblyHands proporciona información valiosa sobre los movimientos y acciones de las manos, aún hay áreas por mejorar. La investigación futura puede enfocarse en lo siguiente:

  • Interacción con Objetos: Incluir más detalles sobre los objetos que se manipulan podría mejorar aún más la comprensión.

  • Tasas de Muestreo Más Altas: Recopilar más datos a frecuencias más altas capturaría movimientos aún más intrincados.

  • Integrar Anotaciones de Objetos: Proporcionar información a nivel de objeto, como la ubicación de los juguetes, podría mejorar el reconocimiento de acciones.

  • Aprendizaje Multi-Tarea: Explorar las relaciones entre movimientos de manos, objetos y acciones podría llevar a nuevos desarrollos en el campo.

Conclusión

AssemblyHands representa un avance significativo en el estudio de las acciones de las manos durante actividades. Al proporcionar un rico conjunto de datos con anotaciones precisas de posturas de manos en 3D, abre nuevas puertas para la investigación en AR y VR. Entender cómo las posturas de las manos se relacionan con tareas específicas ayudará a mejorar la interacción humano-computadora y contribuirá al desarrollo de sistemas más intuitivos. Creemos que este conjunto de datos inspirará nuevos métodos e ideas para reconocer actividades humanas desde una perspectiva en primera persona.

Fuente original

Título: AssemblyHands: Towards Egocentric Activity Understanding via 3D Hand Pose Estimation

Resumen: We present AssemblyHands, a large-scale benchmark dataset with accurate 3D hand pose annotations, to facilitate the study of egocentric activities with challenging hand-object interactions. The dataset includes synchronized egocentric and exocentric images sampled from the recent Assembly101 dataset, in which participants assemble and disassemble take-apart toys. To obtain high-quality 3D hand pose annotations for the egocentric images, we develop an efficient pipeline, where we use an initial set of manual annotations to train a model to automatically annotate a much larger dataset. Our annotation model uses multi-view feature fusion and an iterative refinement scheme, and achieves an average keypoint error of 4.20 mm, which is 85% lower than the error of the original annotations in Assembly101. AssemblyHands provides 3.0M annotated images, including 490K egocentric images, making it the largest existing benchmark dataset for egocentric 3D hand pose estimation. Using this data, we develop a strong single-view baseline of 3D hand pose estimation from egocentric images. Furthermore, we design a novel action classification task to evaluate predicted 3D hand poses. Our study shows that having higher-quality hand poses directly improves the ability to recognize actions.

Autores: Takehiko Ohkawa, Kun He, Fadime Sener, Tomas Hodan, Luan Tran, Cem Keskin

Última actualización: 2023-04-24 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2304.12301

Fuente PDF: https://arxiv.org/pdf/2304.12301

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares