Avançando a Visualização 3D com Robôs Industriais
Utilizando a tecnologia NeRF pra ter visões 3D precisas em ambientes industriais.
― 8 min ler
Índice
Neural Radiance Fields (NeRFs) são uma nova forma de criar visões 3D de cenas usando imagens tiradas de ângulos diferentes. Essa tecnologia pode mudar a forma como fazemos coisas como reconstrução de cenas 3D, que é importante em áreas como robótica e aplicações industriais.
Pra usar NeRFs, a gente precisa de um conjunto de imagens que mostrem a mesma cena de vários pontos de vista, junto com informações sobre as posições e orientações das câmeras quando as imagens foram tiradas. Normalmente, a gente obtém essa informação através de um método chamado Structure from Motion (SfM), que pode demorar muito e pode ter dificuldades com certas qualidades de imagem. A qualidade das visões 3D finais geradas usando NeRFs depende de vários fatores, como quantas imagens temos, como essas imagens estão distribuídas e quão precisamente sabemos as posições das câmeras. Além disso, as propriedades da superfície da cena sendo fotografada também podem afetar os resultados. O SfM pode ter problemas com casos complicados, como superfícies reflexivas ou objetos que não têm textura.
Neste estudo, olhamos como os NeRFs podem ser usados em Robôs Industriais. Em vez de usar o SfM pra estimar as posições das câmeras, a gente conecta uma câmera diretamente ao braço do robô. Os movimentos do robô nos dão as posições da câmera com medições precisas. Assim, eliminamos a necessidade do processo demorado do SfM. Testamos a eficácia do nosso método capturando imagens de objetos comuns em ambientes industriais e avaliamos a qualidade das visões geradas em comparação com referências conhecidas.
Introdução
NeRFs representam uma área de pesquisa crescente que nos permite criar novas visões de uma cena 3D com base em uma série de imagens. Essa tecnologia apresenta perspectivas empolgantes para aplicações industriais, como gerar imagens de treinamento de alta qualidade para máquinas que precisam reconhecer objetos, como as usadas na fabricação.
Quando usamos NeRFs, a qualidade das imagens que geramos depende muito de quão precisamente conhecemos as posições das câmeras quando tiramos as imagens. Em uma abordagem tradicional, contamos com o SfM para determinar essas posições das câmeras previamente. No entanto, o SfM pode ser sensível a vários fatores, como qualidade e conteúdo da imagem. Essa sensibilidade pode levar a imprecisões que afetam os resultados finais.
Na nossa pesquisa, propomos um método mais eficiente para capturar imagens usando um robô industrial. A câmera é montada na ponta do braço do robô, e podemos obter diretamente a posição da câmera a partir dos movimentos do robô. Essa abordagem significa que não contamos com o SfM, que pode ser lento e menos preciso em certas condições.
Trabalho Relacionado
NeRFs funcionam tratando uma cena como um campo contínuo de cor e densidade, onde essas propriedades mudam com base na perspectiva do observador. Uma maneira de criar imagens a partir desse campo é através da renderização volumétrica, que envolve calcular a cor de cada pixel com base nas informações de densidade e cor ao longo de um raio específico. Pesquisadores melhoraram esse método de várias maneiras, aumentando a qualidade das imagens renderizadas através de técnicas como usar cones em vez de raios, o que ajuda a reduzir artefatos.
Outro método, chamado 3D Gaussian Splatting (3DGS), é considerado uma das melhores abordagens para gerar novas visões rapidamente e com alta qualidade. Em vez de contar apenas com a rede neural para criar a cena, o 3DGS usa uma coleção de Gaussiana 3D para uma representação de dados mais eficiente e renderização mais rápida.
Embora esses métodos sejam promissores, eles ainda dependem da determinação precisa das poses das câmeras, muitas vezes através do SfM. Na nossa pesquisa, abordamos esses desafios usando movimentos de braço robótico pra obter posições e orientações de câmera mais confiáveis.
Configuração do Robô Industrial
Nossa configuração experimental inclui uma câmera RGB de alta resolução acoplada a um braço robótico Universal Robots UR3e. O robô pode se mover com precisão para diferentes posições e é projetado para minimizar erros nos seus movimentos. Usamos um método específico para calibrar a câmera e os movimentos do robô simultaneamente, o que significa que conseguimos garantir alta precisão nos dados que coletamos.
Para nossos testes, capturamos imagens de objetos industriais em condições variadas. Alguns desses objetos têm superfícies reflexivas ou detalhes finos, o que pode dificultar o processamento das imagens. Queremos ver como nossos métodos funcionam sob esses desafios do mundo real.
Resultados Experimentais
Coleta de Dados
Coletamos imagens de três objetos industriais diferentes e organizamos as poses da câmera sistematicamente ao redor de cada objeto. Colocando a câmera fora do caminho, conseguimos cobrir uma ampla gama de ângulos. Os objetos que escolhemos têm propriedades de superfície que são comumente encontradas em ambientes industriais.
Precisão da Pose
Pra avaliar a precisão do nosso método, comparamos as poses da câmera obtidas com nosso robô com um método de referência mais preciso. As poses de referência foram adquiridas usando um objeto de calibração especializado, que nos dá uma base de qualidade superior.
Os resultados mostraram que nosso método baseado no robô alcançou alta precisão, especialmente quando as imagens continham características desafiadoras. Na maioria dos casos, as poses obtidas através da nossa abordagem foram muito melhores do que aquelas calculadas usando métodos tradicionais de SfM.
Avaliação das Abordagens NeRF
Depois de capturar as imagens, testamos diferentes técnicas de NeRF pra gerar novas visões dos objetos. Analisamos como essas métodos performaram usando as poses da câmera derivadas tanto do nosso robô quanto da abordagem de SfM. As principais métricas de avaliação foram PSNR e SSIM, que nos ajudam a entender a qualidade das imagens geradas.
Dos nossos testes, descobrimos que o método 3DGS consistentemente superou as outras técnicas de NeRF em termos de qualidade visual e velocidade de renderização. Em condições desafiadoras, nossa abordagem usando poses de câmera baseadas em robôs frequentemente resultou em imagens mais nítidas comparadas às poses do SfM.
Resultados Qualitativos
Além da avaliação quantitativa, olhamos as imagens reais produzidas pelos nossos métodos. A qualidade visual das imagens geradas pelo nosso método baseado no robô mostrou grande detalhe e realismo. Por exemplo, em um caso, a abordagem do robô renderizou claramente a forma de um objeto sem artefatos visíveis, o que foi uma grande vantagem em comparação com os resultados derivados do SfM.
Embora ambos os métodos possam funcionar em condições favoráveis, nossos resultados indicam que a abordagem baseada em robô é significativamente mais robusta quando enfrentando cenários variados.
Quantificação da Incerteza
Em muitas aplicações industriais, conhecer o nível de confiança dos resultados é crucial. Avaliamos as incertezas nas imagens geradas pelos nossos modelos NeRF usando um método de ensemble. Essa abordagem permitiu que avaliássemos quanta variabilidade existia entre as diferentes saídas do nosso modelo.
Da nossa análise, encontramos que o método de ensemble forneceu uma estimativa razoável de incerteza para visões que estavam bem representadas no conjunto de dados de treinamento. No entanto, para partes da cena não cobertas no treinamento, os resultados gerados às vezes careciam de detalhe.
Conclusão
Nossa pesquisa demonstra o potencial de usar NeRFs em aplicações de robôs industriais. Ao ligar uma câmera a um braço robótico, conseguimos determinar com precisão a posição da câmera, eliminando a necessidade de métodos de SfM que podem ser lentos e menos confiáveis. Os experimentos mostraram que nossa abordagem baseada em robô pode produzir imagens de alta qualidade, mesmo em cenários desafiadores com superfícies reflexivas ou falta de textura, tornando-se uma solução eficaz para diversas necessidades industriais.
À medida que avançamos, pretendemos expandir nosso foco não só em gerar novas visões, mas também incluir a reconstrução completa de cenas 3D em ambientes industriais. Isso pode abrir portas para mais aplicações, especialmente em áreas complexas como imagem térmica, onde métodos tradicionais podem ter dificuldades devido aos desafios únicos apresentados por diferentes tipos de dados.
Título: Novel View Synthesis with Neural Radiance Fields for Industrial Robot Applications
Resumo: Neural Radiance Fields (NeRFs) have become a rapidly growing research field with the potential to revolutionize typical photogrammetric workflows, such as those used for 3D scene reconstruction. As input, NeRFs require multi-view images with corresponding camera poses as well as the interior orientation. In the typical NeRF workflow, the camera poses and the interior orientation are estimated in advance with Structure from Motion (SfM). But the quality of the resulting novel views, which depends on different parameters such as the number and distribution of available images, as well as the accuracy of the related camera poses and interior orientation, is difficult to predict. In addition, SfM is a time-consuming pre-processing step, and its quality strongly depends on the image content. Furthermore, the undefined scaling factor of SfM hinders subsequent steps in which metric information is required. In this paper, we evaluate the potential of NeRFs for industrial robot applications. We propose an alternative to SfM pre-processing: we capture the input images with a calibrated camera that is attached to the end effector of an industrial robot and determine accurate camera poses with metric scale based on the robot kinematics. We then investigate the quality of the novel views by comparing them to ground truth, and by computing an internal quality measure based on ensemble methods. For evaluation purposes, we acquire multiple datasets that pose challenges for reconstruction typical of industrial applications, like reflective objects, poor texture, and fine structures. We show that the robot-based pose determination reaches similar accuracy as SfM in non-demanding cases, while having clear advantages in more challenging scenarios. Finally, we present first results of applying the ensemble method to estimate the quality of the synthetic novel view in the absence of a ground truth.
Autores: Markus Hillemann, Robert Langendörfer, Max Heiken, Max Mehltretter, Andreas Schenk, Martin Weinmann, Stefan Hinz, Christian Heipke, Markus Ulrich
Última atualização: 2024-05-07 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2405.04345
Fonte PDF: https://arxiv.org/pdf/2405.04345
Licença: https://creativecommons.org/licenses/by-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.