Um Novo Método para Modelagem 3D a partir de Fotos
Essa técnica simplifica a criação de modelos CAD usando só fotos.
― 7 min ler
Índice
Criar modelos 3D digitais a partir de fotos pode ser super útil em várias áreas, mas é meio complicado e exige conhecimentos especializados. Este artigo fala sobre um novo método que consegue gerar automaticamente modelos de design assistido por computador (CAD) usando fotos tiradas de diferentes ângulos. Isso poderia ajudar quem não tem as habilidades técnicas necessárias pra modelagem 3D.
O Desafio
A impressão 3D evoluiu muito desde que foi inventada no meio do século 20 e agora é usada em várias indústrias. Embora muita gente tenha acesso a serviços de impressão 3D, fazer modelos digitais 3D ainda exige habilidades e ferramentas específicas que a maioria dos consumidores não tem. Por exemplo, se uma peça pequena de um eletrodoméstico maior, como uma máquina de lavar, quebrar e não estiver mais disponível no fabricante, o consumidor precisaria criar um novo modelo digital dessa peça pra imprimir. Se isso pudesse ser feito só tirando fotos, ia economizar tempo e grana.
Nossa Solução
O novo método que estamos propondo usa uma arquitetura de rede que consiste em três etapas principais. Primeiro, utiliza uma Rede Neural Convolucional (CNN) pra analisar as imagens. Depois, combina informações dessas imagens usando uma técnica especial de pooling. Por fim, a rede cria uma sequência CAD que representa o modelo 3D.
Nossa rede foi testada com várias imagens pra ver como se saiu. Os resultados mostram que ela consegue criar modelos CAD válidos a partir das imagens de teste com boa precisão. Também testamos a rede com fotos reais de objetos 3D, e algumas das capacidades foram aplicadas com sucesso, mesmo que a rede tenha sido treinada usando apenas imagens sintéticas.
Trabalhos Relacionados
Nos métodos tradicionais, criar um modelo 3D a partir de fotografias envolve um processo chamado fotogrametria. Essa técnica usa várias imagens tiradas de diferentes ângulos pra criar uma nuvem de pontos, que é uma coleção de dados. Porém, passar de nuvens de pontos pra modelos CAD ainda é desafiador e muitas vezes exige trabalho manual. Alguns métodos existentes focam em ajustar formas às nuvens de pontos, mas essas abordagens tendem a ser limitadas e mais adequadas a situações específicas.
Ultimamente, pesquisadores têm desenvolvido métodos baseados em aprendizado que podem reconstruir objetos em 3D a partir de várias imagens. Esses métodos costumam usar redes neurais que conseguem aprender a extrair características-chave das fotos e depois construir uma forma 3D. No entanto, a maior parte da pesquisa atual não se concentra em criar arquivos CAD diretamente, que é o que nossa abordagem pretende alcançar.
A Arquitetura
Nossa rede, chamada ARE-Net, funciona pegando imagens de vários ângulos. Ela usa uma CNN pra extrair características de cada imagem individualmente. Depois, a rede de pooling pega essas informações e cria uma representação comum. Por último, a última etapa gera a sequência de construção do modelo CAD.
Pra ajudar nossa rede a entender as imagens, escolhemos usar uma versão da ResNet, que é uma arquitetura bem conhecida pra processamento de imagens. Descobrimos que usar modelos menores de ResNet atendia nossas necessidades, já que as imagens que usamos não eram muito complexas. A saída da ResNet é enviada pra etapa de pooling, que combina os dados de várias imagens em uma única representação pro gerador de modelos CAD.
Treinando o Modelo
Treinar o modelo ARE-Net consistiu em duas etapas. Primeiro, o treinamento inicial usou uma rede auto-codificadora separada pra construir um conjunto de dados abrangente a partir de vários modelos CAD. Na segunda etapa, renderizamos imagens a partir desses modelos CAD. As imagens de treinamento eram ou simples imagens em escala de cinza de ângulos fixos ou imagens coloridas mais complexas de ângulos aleatórios.
Durante o treinamento, focamos em otimizar vários parâmetros do modelo, como a taxa de aprendizado e a arquitetura. Esse processo de otimização foi feito usando uma biblioteca que ajuda a encontrar as melhores configurações pra rede.
Medindo o Desempenho
Pra avaliar o desempenho da nossa rede, usamos várias métricas. Uma métrica importante analisa quantos dos comandos previstos corresponderam aos comandos esperados na sequência CAD gerada. Também olhamos quão precisamente os parâmetros desses comandos correspondem aos seus verdadeiros valores. Uma terceira métrica mede a precisão geométrica dos objetos 3D gerados comparando-os com as formas originais.
Comparámos nosso método com um método de nuvem de pontos de ponta. Nossa abordagem conseguiu criar sequências CAD na maior parte das vezes, mas o método de nuvem de pontos ainda teve uma taxa de sucesso mais alta. No entanto, em termos de precisão, nosso método superou.
Testes no Mundo Real
Pra testes no mundo real, escolhemos dois objetos: uma caixa de papelão simples e um suporte de câmera mais complexo. Tiramos várias fotografias de cada objeto de diferentes ângulos e depois alimentamos essas imagens na ARE-Net.
Os resultados mostraram que o método funcionou razoavelmente bem pra caixa de papelão, reconstruindo-a como um cubo perfeito. No entanto, o suporte de câmera mais complexo não se saiu tão bem. Embora tenha reconhecido a forma básica de L do objeto, não conseguiu capturar detalhes mais intrincados como furos e dimensões exatas.
Análise dos Resultados
Dos nossos testes, observamos alguns pontos-chave. Pra modelos mais simples, a rede conseguiu gerar representações bastante precisas. No entanto, a precisão caiu com designs mais complexos. Cerca de 18% dos modelos mais complexos não conseguiram ser reconstruídos efetivamente. Isso se deveu principalmente a problemas como a necessidade de características detalhadas ou formas mais avançadas.
Nossas descobertas sugerem que, embora nosso método mostre potencial em gerar modelos CAD a partir de imagens, ainda há áreas pra melhorar. A complexidade das sequências CAD é um fator limitante, e talvez precisemos adaptar nossa abordagem pra suportar formas e detalhes mais avançados.
Direções Futuras
Seguindo em frente, queremos aprimorar nosso modelo de várias maneiras. Por exemplo, devemos considerar expandir o comprimento das sequências CAD que podem ser processadas. Nossa equipe também vai explorar diferentes técnicas de treinamento, como incorporar renderização de imagens realistas, usando ray-tracing, e adicionando diferentes texturas ou fundos às imagens de treinamento.
Além disso, experimentar com várias arquiteturas de redes neurais pode nos levar a resultados melhores. Explorar novos métodos como mecanismos de atenção pode potencialmente melhorar como o modelo processa e analisa os dados de imagem.
Conclusão
Resumindo, nossa pesquisa introduz uma nova abordagem pra criar modelos CAD diretamente a partir de fotografias. Essa tecnologia poderia simplificar muito o processo de modelagem 3D pra usuários comuns e reduzir a dependência de habilidades especializadas. À medida que continuamos a refinar nossos métodos e explorar novas técnicas, há potencial pra que essa tecnologia se torne uma ferramenta padrão pra consumidores e profissionais, tornando o design 3D mais acessível do que nunca.
Título: Automatic Reverse Engineering: Creating computer-aided design (CAD) models from multi-view images
Resumo: Generation of computer-aided design (CAD) models from multi-view images may be useful in many practical applications. To date, this problem is usually solved with an intermediate point-cloud reconstruction and involves manual work to create the final CAD models. In this contribution, we present a novel network for an automated reverse engineering task. Our network architecture combines three distinct stages: A convolutional neural network as the encoder stage, a multi-view pooling stage and a transformer-based CAD sequence generator. The model is trained and evaluated on a large number of simulated input images and extensive optimization of model architectures and hyper-parameters is performed. A proof-of-concept is demonstrated by successfully reconstructing a number of valid CAD models from simulated test image data. Various accuracy metrics are calculated and compared to a state-of-the-art point-based network. Finally, a real world test is conducted supplying the network with actual photographs of two three-dimensional test objects. It is shown that some of the capabilities of our network can be transferred to this domain, even though the training exclusively incorporates purely synthetic training data. However to date, the feasible model complexity is still limited to basic shapes.
Autores: Henrik Jobczyk, Hanno Homann
Última atualização: 2023-09-23 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2309.13281
Fonte PDF: https://arxiv.org/pdf/2309.13281
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.