Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Redefinindo a Localização de Objetos Através de Ações Humanas

Este estudo mostra como os movimentos humanos podem prever as posições de objetos em 3D.

― 7 min ler


Movimentos HumanosMovimentos HumanosPrevêem Posições deObjetosobjetos com precisão.Novo método usa ações pra localizar
Índice

Este artigo fala sobre um novo jeito de adivinhar onde estão os objetos 3D e como estão posicionados, baseado em como as pessoas interagem com eles. Normalmente, os computadores tentam descobrir como os humanos interagem com os objetos analisando os objetos primeiro. No entanto, essa pesquisa inverte essa ideia: ela observa as ações humanas e tenta adivinhar quais objetos eles podem estar usando.

Interação Humano-Objeto

Os humanos são únicos na forma como interagem com o mundo ao redor. Mesmo que nossos sentidos tenham limites-tipo, não conseguimos ouvir certos sons ou ver certas luzes-nós ainda somos bons em imaginar como usar objetos com base em sua forma e propósito. Essa habilidade de pensar no que um objeto pode fazer é conhecida como "afordância". Pesquisas mostram que entender as affordances é importante para o crescimento e desenvolvimento geral das crianças.

No mundo da visão computacional, saber como os objetos funcionam ajuda a melhorar tarefas como reconhecer objetos e entender suas propriedades. A maioria dos estudos anteriores focou em como os humanos interagem com objetos, analisando primeiro o objeto. Eles olhavam como um objeto específico poderia sugerir uma certa ação humana, como uma caneca sugerindo beber.

Esse trabalho adota uma abordagem diferente. Em vez de começar com o objeto, começa com a ação humana pra ver que tipo de objeto pode estar envolvido.

A Nova Abordagem

A pesquisa levanta uma pergunta importante: podemos descobrir quais são os objetos 3D e como estão posicionados apenas observando as ações humanas? A princípio, isso parece difícil porque muitas formas diferentes podem se encaixar na mesma ação. No entanto, estudando como o corpo humano se move, podemos encontrar pistas sobre o que é o objeto e onde ele deve estar. Por exemplo, como uma pessoa segura os braços ou onde olha pode dar dicas sobre o objeto que pode estar usando, mesmo que esse objeto não esteja presente.

Os pesquisadores mostram que uma Nuvem de Pontos 3D padrão de um humano pode ajudar a prever a posição de um objeto não observado, mesmo em situações onde a pessoa age como se estivesse interagindo com um objeto que não existe. Essa abordagem pode ter aplicações úteis em realidade virtual ou aumentada.

Metodologia

Dados de Entrada

O processo começa com uma nuvem de pontos 3D de uma pessoa. Uma nuvem de pontos é uma coleção de pontos que representam uma forma 3D. Ela ignora qualquer informação extra além das coordenadas desses pontos. Os pesquisadores treinam um modelo usando essa nuvem de pontos junto com um rótulo de classe que descreve que tipo de objeto pode estar envolvido.

Previsão da Posição do Objeto

O primeiro passo é prever onde o objeto deve estar localizado. Isso é conseguido treinando um modelo para encontrar o centro do objeto com base nos dados da nuvem de pontos. Uma vez que o centro do objeto é encontrado, o modelo move posições conhecidas, ou pontos principais que correspondem ao objeto, para o centro previsto.

Em seguida, o modelo olha para as partes mais próximas do corpo humano que estão perto de onde o objeto estaria. Isso permite que ele entenda melhor a relação entre o corpo humano e o objeto.

Ajustes de Movimento do Objeto

Para ajustar a posição final prevista do objeto, os pesquisadores aplicam uma técnica para evitar prever diretamente quanto o objeto giraria ou se moveria. Em vez disso, eles preveem pequenos deslocamentos para cada parte do objeto para alinhá-lo melhor com a ação humana.

Abordando Informações Temporais

Enquanto o método pode funcionar a partir de um único quadro de dados, ele também pode tirar proveito de múltiplos quadros. Ao suavizar previsões entre diferentes quadros, o modelo pode minimizar qualquer tremulação em sua saída.

Resultados

Após os testes, os pesquisadores descobriram que seu método funcionou bem em diferentes cenários. Eles usaram vários conjuntos de dados para medir quão precisamente podiam prever a posição do objeto. Os resultados mostraram que o método superou significativamente os métodos base existentes.

Métricas de Avaliação

Para checar quão bem as previsões funcionaram, os pesquisadores olharam para três métricas principais:

  1. Erro Vértice-a-Vértice: Mede a distância entre a posição prevista e a posição real do objeto.
  2. Distância Chamfer: Usada quando os objetos previstos não têm o mesmo número de pontos que os objetos-alvo. Mede quão próximos os pontos de um conjunto estão dos pontos mais próximos em outro conjunto.
  3. Precisão de Classificação: Verifica com que frequência o modelo identifica corretamente o tipo de objeto com base na interação.

Entendendo a Afordância Humana

Os pesquisadores também estudaram como diferentes aspectos das interações humanas poderiam afetar as previsões dos objetos. Eles descobriram que usar o corpo inteiro fornecia mais informações para prever a colocação do objeto do que focar apenas nas mãos.

Importância das Partes do Corpo

Em muitas interações, as mãos fornecem informações cruciais, especialmente nos casos em que alguém está segurando ou manipulando um objeto. No entanto, para ações que envolvem o corpo todo, ter informações sobre como o corpo inteiro está posicionado é ainda mais essencial.

Salientidade dos Pontos

Os pesquisadores também analisaram quais partes do corpo humano são mais importantes para fazer previsões precisas sobre objetos. Ao observar como diferentes partes do corpo influenciam a localização prevista do objeto, eles descobriram que as áreas em torno dos pés e da cabeça também são significativas para entender onde o objeto deve estar.

Confusão na Classificação de Objetos

Durante o processo de classificação, os pesquisadores notaram certa confusão entre tipos de objetos semelhantes, mostrando o desafio da tarefa. Objetos que servem a propósitos similares eram frequentemente classificados incorretamente. Isso destaca a necessidade de conjuntos de dados melhores que possam ajudar a treinar o modelo de forma mais eficaz.

Limitações e Direções Futuras

Embora este estudo ofereça resultados promissores, também tem limitações. Por exemplo, o modelo atual usa apenas informações temporais após o treinamento, sugerindo que uma melhor integração desses dados durante o treinamento poderia levar a resultados melhores. Pesquisas futuras poderiam focar em outras técnicas avançadas e explorar interações de longo prazo.

Conclusão

Esta pesquisa abre novos caminhos para entender como os humanos interagem com objetos com base em seus movimentos. Ao inverter o foco tradicional de objetos para ações humanas, oferece uma nova perspectiva que pode melhorar aplicações em tecnologia como realidade virtual e aumentada. Os achados demonstram que o movimento humano contém uma riqueza de informações que permite previsões precisas sobre a posição dos objetos, mesmo quando esses objetos não estão fisicamente presentes.

Conforme o campo avança, essa abordagem pode levar a mais insights sobre interações humano-objeto e preparar o terreno para experiências digitais mais intuitivas.

Fonte original

Título: Object pop-up: Can we infer 3D objects and their poses from human interactions alone?

Resumo: The intimate entanglement between objects affordances and human poses is of large interest, among others, for behavioural sciences, cognitive psychology, and Computer Vision communities. In recent years, the latter has developed several object-centric approaches: starting from items, learning pipelines synthesizing human poses and dynamics in a realistic way, satisfying both geometrical and functional expectations. However, the inverse perspective is significantly less explored: Can we infer 3D objects and their poses from human interactions alone? Our investigation follows this direction, showing that a generic 3D human point cloud is enough to pop up an unobserved object, even when the user is just imitating a functionality (e.g., looking through a binocular) without involving a tangible counterpart. We validate our method qualitatively and quantitatively, with synthetic data and sequences acquired for the task, showing applicability for XR/VR. The code is available at https://github.com/ptrvilya/object-popup.

Autores: Ilya A. Petrov, Riccardo Marin, Julian Chibane, Gerard Pons-Moll

Última atualização: 2023-10-27 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2306.00777

Fonte PDF: https://arxiv.org/pdf/2306.00777

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes