Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Gráficos

Entendendo o Movimento Humano Através do Conjunto de Dados Nymeria

Um olhar detalhado sobre um conjunto de dados que captura as atividades humanas do dia a dia.

― 5 min ler


Conjunto de Dados NymeriaConjunto de Dados NymeriaReveladoNymeria.descobertas do conjunto de dadosUma investigação profunda nas
Índice

O conjunto de dados Nymeria é uma coleção grande de atividades humanas do dia a dia capturadas em vários ambientes. Inclui gravações de pessoas usando óculos especiais e pulseiras que coletam diferentes tipos de dados enquanto elas vivem suas vidas normais. O objetivo desse conjunto de dados é ajudar os pesquisadores a entender como as pessoas se movem e interagem em situações do mundo real.

O que é o Conjunto de Dados Nymeria?

O conjunto de dados Nymeria captura o movimento do corpo inteiro de vários ângulos e perspectivas. Isso é feito usando dispositivos que rastreiam movimentos, incluindo óculos inteligentes e pulseiras que gravam vídeo e outras informações sensoriais. O conjunto oferece uma porção enorme de informações, incluindo descrições detalhadas dos movimentos em linguagem natural. Isso pode ser útil para estudar o comportamento humano e desenvolver novas tecnologias.

Como os Dados São Coletados

O processo de coleta de dados envolve várias etapas. Os participantes usam um traje especial, óculos e pulseiras para capturar seus movimentos. As gravações acontecem em diferentes ambientes, como casas, escritórios e espaços ao ar livre, para mostrar uma variedade de atividades. Observadores treinados também acompanham os participantes para dar contexto e ajudar a capturar os eventos com precisão.

Os Diferentes Tipos de Dados

O conjunto de dados inclui vários tipos de dados:

  1. Gravações de vídeo: Inclui vídeos de câmeras RGB e câmeras em escala de cinza. Os vídeos mostram como os participantes interagem com o ambiente.

  2. Dados de Movimento: Isso vem de sensores que rastreiam os movimentos do corpo, incluindo a posição e orientação dos membros dos participantes.

  3. Gravações de Áudio: A fala dos participantes e sons ambientais são gravados para adicionar mais contexto às atividades.

  4. Rastreamento Ocular: Informações sobre onde os participantes estão olhando são coletadas para entender melhor o foco deles durante as atividades.

  5. Nuvens de Pontos 3D: Estas são criadas para representar o ambiente ao redor dos participantes, oferecendo uma visão tridimensional dos espaços onde as atividades ocorrem.

Importância do Contexto

Coletar dados em ambientes do mundo real dá aos pesquisadores uma compreensão mais rica do comportamento humano. Mostra como as pessoas se movem e interagem com os outros e com o ambiente sem as limitações artificiais de um laboratório. Isso ajuda a criar sistemas que podem responder às ações humanas de uma maneira mais natural.

Processo de Anotação

Os dados gravados não são deixados crus. Eles são cuidadosamente anotados para adicionar significado aos movimentos capturados. Anotadores humanos assistem aos vídeos e escrevem descrições do que veem, focando nos detalhes dos movimentos, nas atividades realizadas e nas interações com objetos e outras pessoas.

Níveis de Anotação

As anotações estão organizadas em três níveis:

  1. Narração de Movimento Detalhada: Descrições detalhadas sobre como os participantes se movem, incluindo postura e interação com objetos.

  2. Ações Atômicas: Descrições curtas que resumem ações principais sem entrar em tanto detalhe quanto o primeiro nível.

  3. Resumo de Atividades: Isso fornece uma visão geral de alto nível da atividade, resumindo o que está acontecendo em um segmento de tempo mais longo.

Desafios na Coleta de Dados

Coletar esse tipo de dado traz desafios. Por exemplo, garantir que os dispositivos fiquem sincronizados durante a gravação pode ser complexo. Se o tempo estiver fora de sincronia, isso pode levar a imprecisões nos dados. Além disso, os participantes podem não agir naturalmente se souberem que estão sendo gravados, o que pode afetar a autenticidade dos dados.

A Escala do Conjunto de Dados

O conjunto de dados Nymeria é um dos maiores do tipo. É composto por milhares de horas de atividades gravadas de vários participantes, capturando uma ampla gama de movimentos e ambientes. Este extenso conjunto de dados fornece um recurso significativo para pesquisadores que buscam estudar o movimento humano e desenvolver novas tecnologias.

Aplicações de Pesquisa

Existem muitas aplicações potenciais para o conjunto de dados Nymeria. Ele pode ser usado para melhorar sistemas de rastreamento de movimento, aprimorar experiências de realidade virtual e desenvolver novas tecnologias de IA que entendem e respondem ao movimento humano. Os pesquisadores também podem usá-lo para estudar interações sociais e como as pessoas se movem em diferentes ambientes.

Conclusão

O conjunto de dados Nymeria representa um avanço significativo no estudo do movimento humano. Capturando atividades do dia a dia em ambientes diversos e fornecendo anotações detalhadas, oferece um recurso valioso para os pesquisadores. Esse conjunto de dados provavelmente levará a novas descobertas e desenvolvimentos em várias áreas, incluindo IA, robótica e interação humano-computador.

Fonte original

Título: Nymeria: A Massive Collection of Multimodal Egocentric Daily Motion in the Wild

Resumo: We introduce Nymeria - a large-scale, diverse, richly annotated human motion dataset collected in the wild with multiple multimodal egocentric devices. The dataset comes with a) full-body ground-truth motion; b) multiple multimodal egocentric data from Project Aria devices with videos, eye tracking, IMUs and etc; and c) a third-person perspective by an additional observer. All devices are precisely synchronized and localized in on metric 3D world. We derive hierarchical protocol to add in-context language descriptions of human motion, from fine-grain motion narration, to simplified atomic action and high-level activity summarization. To the best of our knowledge, Nymeria dataset is the world's largest collection of human motion in the wild; first of its kind to provide synchronized and localized multi-device multimodal egocentric data; and the world's largest motion-language dataset. It provides 300 hours of daily activities from 264 participants across 50 locations, total travelling distance over 399Km. The language descriptions contain 301.5K sentences in 8.64M words from a vocabulary size of 6545. To demonstrate the potential of the dataset, we evaluate several SOTA algorithms for egocentric body tracking, motion synthesis, and action recognition. Data and code are open-sourced for research (c.f. https://www.projectaria.com/datasets/nymeria).

Autores: Lingni Ma, Yuting Ye, Fangzhou Hong, Vladimir Guzov, Yifeng Jiang, Rowan Postyeni, Luis Pesqueira, Alexander Gamino, Vijay Baiyya, Hyo Jin Kim, Kevin Bailey, David Soriano Fosas, C. Karen Liu, Ziwei Liu, Jakob Engel, Renzo De Nardi, Richard Newcombe

Última atualização: 2024-09-19 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2406.09905

Fonte PDF: https://arxiv.org/pdf/2406.09905

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes