Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Avançando a Estimativa de Pose de Objetos com Rótulos Fracos

Um novo método pra estimar a pose de objetos usando dados com rótulos fracos tá mostrando resultados bem legais.

― 8 min ler


Rótulos FracosRótulos FracosTransformam a Estimativade Poseusando dados com rótulos fracos.Novo método estima a pose de objetos
Índice

A estimativa da pose de objetos é um processo chave em áreas como robótica e realidade aumentada. É sobre descobrir a posição e a orientação de um objeto no espaço, que é essencial para tarefas como agarrar objetos com robôs e aplicações de realidade aumentada. Métodos tradicionais geralmente dependem de modelos de design assistido por computador (CAD) bem precisos ou montagens complexas para coletar dados rotulados. Neste artigo, a gente apresenta um novo método que aprende a estimar a pose de objetos usando dados menos precisos. Nossa abordagem usa técnicas neurais para aprender características importantes de imagens com rótulos fracos.

O Problema

Estimando a pose de um objeto significa descobrir como ele está orientado e onde ele está localizado em um referencial. Isso envolve determinar tanto a rotação quanto a translação, que são essenciais para reconhecer como interagir com o objeto, tipo, pegá-lo.

Muitos métodos baseados em aprendizado precisam de um monte de dados de treinamento. Coletar esses dados pode ser complicado porque muitas vezes envolve montagens detalhadas e modelos de computador bem definidos. Em contraste, dados sintéticos gerados a partir de modelos CAD mostram um bom desempenho, mas não conseguem corresponder totalmente à precisão obtida a partir de Imagens Reais.

Para superar esses desafios, focamos em facilitar o processo. Usando rótulos mais fracos de imagens que estão mais disponíveis, nosso objetivo é simplificar o treinamento sem comprometer o desempenho.

Nossa Abordagem

A gente propõe um método que utiliza dados fracos, o que nos permite fazer Estimativa de Pose sem precisar de um modelo CAD conhecido. Nosso pipeline é dividido em duas etapas principais:

  1. Aprendendo a Forma do Objeto: Usamos uma técnica chamada Campo de Radiação Neural (NeRF) para aprender a forma dos objetos com base em imagens reais que têm poses relativas conhecidas. Esse método captura efetivamente as características 3D dos objetos.

  2. Aprendendo Características Discriminativas: Depois, juntamos a forma aprendida com uma rede neural convolucional (CNN) para aprender características que são consistentes em diferentes ângulos de visão. Introduzimos um método especial que ajuda as características a respeitar as simetrias dos objetos.

Na fase de inferência, usamos a CNN para prever características que podem ser combinadas com a representação 3D aprendida do NeRF. Essas combinações ajudam a gente a determinar a pose do objeto em relação ao referencial do NeRF.

Benefícios da Abordagem

Nosso método tem várias vantagens em relação às técnicas existentes. Primeiro, ele consegue lidar bem com objetos simétricos, que pode ser um desafio para muitos métodos de estimativa de pose. Em segundo lugar, simplificamos o processo de coleta de dados. Ao invés de precisar de anotações de pose de alta qualidade, conseguimos trabalhar com apenas poses relativas adquiridas com facilidade.

Combinando as forças do NeRF e da CNN, atingimos uma estimativa de pose precisa enquanto mantemos um processo de inferência mais rápido, especialmente para objetos simétricos. As características aprendidas permitem que a gente encontre combinações de forma mais eficiente, reduzindo o tempo necessário para a estimativa de pose.

Trabalho Relacionado

Nos últimos anos, várias técnicas de aprendizado profundo surgiram para abordar a estimativa de pose. Algumas abordagens, como Dpod e Pix2Pose, dependem de dados sintéticos a partir de modelos CAD. Outras, como Self6D e NeRF-Pose, tentam usar dados reais, mas encontram dificuldades quando se deparam com segmentos que estão ocultos ou quando os objetos não estão bem definidos.

Métodos anteriores mostram que usar dados de treinamento reais muitas vezes resulta em melhor desempenho do que dados sintéticos, embora exijam montagens complexas. Métodos mais novos, como RLLG e WeLSA, buscam simplificar o processo de aquisição de dados reais enquanto usam anotações mais fracas.

No entanto, esses métodos têm dificuldade com objetos simétricos, muitas vezes precisando de conhecimento prévio sobre a simetria do objeto para uma estimativa bem-sucedida.

Nosso método proposto é diferente porque consegue lidar com simetrias sem precisar de conhecimento prévio e simplifica o processo de coleta de dados reais de treinamento.

Arquitetura do Nosso Método

Nossa arquitetura consiste em três componentes principais: um Gerador de Raios, um Bloco NeRF e uma CNN. O Gerador de Raios produz raios a partir de um ponto de vista específico, que passam por uma série de pontos em um espaço 3D. Essas informações são processadas no Bloco NeRF.

Bloco NeRF

O Bloco NeRF é composto por três Perceptrons Multi-Camadas (MLPs):

  1. MLP de Densidade: Esse prevê a densidade da geometria 3D com base nas coordenadas dadas.
  2. MLP de Cor: Esse prevê valores de cor em pontos específicos e incorpora mudanças de cor dependentes do ângulo de visão.
  3. MLP de Características: Esse aprende as características associadas a cada ponto 3D, que são cruciais para as etapas seguintes.

CNN

Usamos uma CNN baseada em U-Net para prever imagens de características a partir de imagens de entrada. A CNN prevê características por pixel que são então comparadas com aquelas aprendidas do NeRF.

Processo de Treinamento

Etapa 1: Pré-treinamento do NeRF

Na primeira etapa, treinamos o NeRF usando imagens reais junto com rótulos de pose relativas. Também usamos máscaras de segmentação para focar o modelo no objeto de interesse. O treinamento envolve renderizar o objeto de diferentes ângulos com base nos dados de entrada para criar representações robustas.

Etapa 2: Aprendizado de Características

Na segunda etapa, congelamos certos componentes da rede NeRF e treinamos apenas o MLP de Características e a CNN. Fazendo isso, aprendemos características consistentes que respeitam as simetrias do objeto.

Usamos uma abordagem de aprendizado contrastivo para garantir que as características aprendidas do NeRF e da CNN sejam distintas umas das outras, mas ainda assim sejam consistentes. Isso envolve criar amostras "positivas" a partir de características combinadas e amostras "negativas" a partir de características obtidas de diferentes perspectivas.

Inferência e Estimativa de Pose

Durante a inferência, vamos extrair características de uma imagem de entrada usando a CNN, focando apenas em regiões de interesse com base nas máscaras de segmentação. Então, estabelecemos correspondências entre as características 2D e a representação 3D aprendida do NeRF.

Usando um algoritmo simples conhecido como PnP Ransac, conseguimos organizar as correspondências para derivar a pose final 6D do objeto. Esse método se mostrou eficaz mesmo em cenários envolvendo objetos simétricos, onde muitas técnicas tradicionais teriam dificuldade.

Avaliação e Resultados

Fizemos testes usando vários conjuntos de dados de pose de objetos, incluindo LM, LineMOD-Occlusion e T-Less. Nossos resultados mostram que nosso método alcança uma precisão impressionante nos benchmarks mesmo dependendo apenas de dados com rótulos fracos.

Comparação com Outros Métodos

Quando comparamos nossa abordagem com outras soluções existentes, vemos que ela supera significativamente, especialmente para objetos simétricos. A capacidade de trabalhar com rótulos mais fracos também aumenta sua atratividade, oferecendo uma alternativa prática a métodos tradicionais que exigem configurações complexas para aquisição de dados adequados.

Limitações e Trabalho Futuro

Embora nosso método tenha um bom desempenho, ainda há desafios a serem abordados. Embora tenhamos mostrado robustez para lidar com vários objetos, trabalhos futuros são necessários para melhorar seu desempenho em cenários que envolvem oclusões. Além disso, embora nosso sistema funcione sob a suposição de poses relativas conhecidas, desenvolver uma abordagem completamente não supervisionada poderia ampliar sua aplicabilidade.

Mais experimentos com dados reais e barulhentos também melhorariam nossa compreensão de como nosso método se sai fora de condições controladas.

Conclusão

Introduzimos uma abordagem nova para a estimativa de pose de objetos 6D que utiliza dados com rótulos fracos e lida efetivamente com objetos simétricos. Ao combinar Campos de Radiação Neural com uma CNN, nosso método mostra vantagens promissoras em termos de precisão e velocidade. Nossas contribuições simplificam o processo de aquisição de dados e abrem portas para abordagens mais versáteis em robótica e aplicações de realidade aumentada.

Os resultados indicam um forte potencial para aplicações do mundo real, onde modelos CAD precisos muitas vezes não estão disponíveis, e coletar anotações de pose de alta qualidade pode ser complexamente complicado. Através de refinamentos contínuos e lidando com limitações atuais, pretendemos melhorar ainda mais as capacidades do nosso pipeline de estimativa de pose em trabalhos futuros.

Fonte original

Título: NeRF-Feat: 6D Object Pose Estimation using Feature Rendering

Resumo: Object Pose Estimation is a crucial component in robotic grasping and augmented reality. Learning based approaches typically require training data from a highly accurate CAD model or labeled training data acquired using a complex setup. We address this by learning to estimate pose from weakly labeled data without a known CAD model. We propose to use a NeRF to learn object shape implicitly which is later used to learn view-invariant features in conjunction with CNN using a contrastive loss. While NeRF helps in learning features that are view-consistent, CNN ensures that the learned features respect symmetry. During inference, CNN is used to predict view-invariant features which can be used to establish correspondences with the implicit 3d model in NeRF. The correspondences are then used to estimate the pose in the reference frame of NeRF. Our approach can also handle symmetric objects unlike other approaches using a similar training setup. Specifically, we learn viewpoint invariant, discriminative features using NeRF which are later used for pose estimation. We evaluated our approach on LM, LM-Occlusion, and T-Less dataset and achieved benchmark accuracy despite using weakly labeled data.

Autores: Shishir Reddy Vutukur, Heike Brock, Benjamin Busam, Tolga Birdal, Andreas Hutter, Slobodan Ilic

Última atualização: 2024-06-19 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2406.13796

Fonte PDF: https://arxiv.org/pdf/2406.13796

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes