Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones# Gráficos

Entendiendo el movimiento humano a través del conjunto de datos Nymeria

Una mirada detallada a un conjunto de datos que captura las actividades humanas cotidianas.

― 5 minilectura


Dataset de NymeriaDataset de NymeriaReveladodel conjunto de datos de Nymeria.Una inmersión profunda en los hallazgos
Tabla de contenidos

El conjunto de datos Nymeria es una gran colección de actividades humanas cotidianas capturadas en varios entornos. Incluye grabaciones de personas usando gafas especiales y pulseras que recopilan diferentes tipos de datos mientras llevan a cabo su vida diaria. El objetivo de este conjunto de datos es ayudar a los investigadores a entender cómo se mueven e interactúan las personas en situaciones del mundo real.

¿Qué es el Conjunto de Datos Nymeria?

El conjunto de datos Nymeria captura el movimiento del cuerpo completo desde múltiples ángulos y perspectivas. Lo hace usando dispositivos que rastrean el movimiento, incluyendo gafas inteligentes y pulseras que graban video y otra información sensorial. El conjunto de datos proporciona un montón de información, incluyendo descripciones detalladas de los movimientos en lenguaje natural. Esto puede ser útil para estudiar el comportamiento humano y desarrollar nuevas tecnologías.

Cómo se Recopila la Información

El proceso de recopilación de datos implica varios pasos. Los participantes usan un traje especial, gafas y pulseras para captar sus movimientos. Las grabaciones se realizan en diferentes lugares, como hogares, oficinas y espacios al aire libre, para mostrar una variedad de actividades. Observadores entrenados también siguen a los participantes para dar contexto y ayudar a captar los eventos de manera precisa.

Los Diferentes Tipos de Datos

El conjunto de datos incluye varios tipos de datos:

  1. Grabaciones en Video: Estas incluyen videos de cámaras RGB y cámaras en escala de grises. Los videos muestran cómo los participantes interactúan con su entorno.

  2. Datos de movimiento: Esto proviene de sensores que rastrean los movimientos del cuerpo, incluyendo la posición y orientación de las extremidades de los participantes.

  3. Grabaciones de audio: Se graban la voz de los participantes y sonidos del entorno para añadir más contexto a las actividades.

  4. Seguimiento Ocular: Se recopila información sobre hacia dónde miran los participantes para entender mejor su enfoque durante las actividades.

  5. Nubes de Puntos 3D: Estas se crean para representar el ambiente alrededor de los participantes, proporcionando una vista tridimensional de los espacios donde ocurren las actividades.

Importancia del Contexto

Recopilar datos en entornos del mundo real le da a los investigadores una comprensión más rica del comportamiento humano. Muestra cómo se mueven las personas e interactúan con otros y su entorno sin las limitaciones artificiales de un laboratorio. Esto ayuda a crear sistemas que pueden responder a las acciones humanas de manera más natural.

Proceso de anotación

Los datos grabados no se dejan en crudo. Se anotan cuidadosamente para darles significado a los movimientos capturados. Los anotadores humanos ven los videos y escriben descripciones de lo que ven, centrándose en los detalles de los movimientos, las actividades que se realizan, y las interacciones con objetos y otras personas.

Niveles de Anotación

Las anotaciones se organizan en tres niveles:

  1. Narración de Movimiento Detallada: Descripciones detalladas sobre cómo se mueven los participantes, incluyendo postura e interacción con objetos.

  2. Acciones Atómicas: Descripciones cortas que resumen acciones clave sin entrar en tanto detalle como el primer nivel.

  3. Resumen de Actividades: Esto proporciona una visión general de alto nivel de la actividad, resumiendo lo que está sucediendo en un segmento de tiempo más largo.

Desafíos en la Recopilación de Datos

Recopilar este tipo de datos presenta desafíos. Por ejemplo, asegurar que los dispositivos permanezcan sincronizados mientras graban puede ser complicado. Si el tiempo no es el correcto, puede llevar a inexactitudes en los datos. Además, los participantes pueden no actuar de manera natural si saben que están siendo grabados, lo que puede afectar la autenticidad de los datos.

La Escala del Conjunto de Datos

El conjunto de datos Nymeria es uno de los más grandes de su tipo. Consiste en miles de horas de actividades grabadas de varios participantes, capturando una amplia variedad de movimientos y entornos. Este extenso conjunto de datos ofrece un recurso significativo para los investigadores que buscan estudiar el movimiento humano y desarrollar nuevas tecnologías.

Aplicaciones de Investigación

Hay muchas aplicaciones potenciales para el conjunto de datos Nymeria. Se puede usar para mejorar sistemas de seguimiento de movimiento, mejorar experiencias de realidad virtual y desarrollar nuevas tecnologías de IA que entiendan y respondan al movimiento humano. Los investigadores también pueden usarlo para estudiar interacciones sociales y cómo se mueven las personas en diferentes entornos.

Conclusión

El conjunto de datos Nymeria representa un avance significativo en el estudio del movimiento humano. Al capturar actividades cotidianas en entornos diversos y proporcionar anotaciones detalladas, ofrece un recurso valioso para los investigadores. Este conjunto de datos probablemente conducirá a nuevos conocimientos y desarrollos en varios campos, incluyendo IA, robótica e interacción humano-computadora.

Fuente original

Título: Nymeria: A Massive Collection of Multimodal Egocentric Daily Motion in the Wild

Resumen: We introduce Nymeria - a large-scale, diverse, richly annotated human motion dataset collected in the wild with multiple multimodal egocentric devices. The dataset comes with a) full-body ground-truth motion; b) multiple multimodal egocentric data from Project Aria devices with videos, eye tracking, IMUs and etc; and c) a third-person perspective by an additional observer. All devices are precisely synchronized and localized in on metric 3D world. We derive hierarchical protocol to add in-context language descriptions of human motion, from fine-grain motion narration, to simplified atomic action and high-level activity summarization. To the best of our knowledge, Nymeria dataset is the world's largest collection of human motion in the wild; first of its kind to provide synchronized and localized multi-device multimodal egocentric data; and the world's largest motion-language dataset. It provides 300 hours of daily activities from 264 participants across 50 locations, total travelling distance over 399Km. The language descriptions contain 301.5K sentences in 8.64M words from a vocabulary size of 6545. To demonstrate the potential of the dataset, we evaluate several SOTA algorithms for egocentric body tracking, motion synthesis, and action recognition. Data and code are open-sourced for research (c.f. https://www.projectaria.com/datasets/nymeria).

Autores: Lingni Ma, Yuting Ye, Fangzhou Hong, Vladimir Guzov, Yifeng Jiang, Rowan Postyeni, Luis Pesqueira, Alexander Gamino, Vijay Baiyya, Hyo Jin Kim, Kevin Bailey, David Soriano Fosas, C. Karen Liu, Ziwei Liu, Jakob Engel, Renzo De Nardi, Richard Newcombe

Última actualización: 2024-09-19 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2406.09905

Fuente PDF: https://arxiv.org/pdf/2406.09905

Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares