Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones

Un nuevo método para modelado 3D a partir de fotos

Esta técnica simplifica la creación de modelos CAD usando solo fotos.

― 7 minilectura


Modelos 3D a partir deModelos 3D a partir defotos simplificadoshabilidades 3D especializadas.Método innovador reduce la necesidad de
Tabla de contenidos

Crear modelos 3D digitales a partir de fotos puede ser muy útil en muchas áreas, pero a menudo es complicado y requiere conocimientos especializados. Este artículo habla de un nuevo método que puede generar automáticamente modelos de diseño asistido por computadora (CAD) usando fotos tomadas desde diferentes ángulos. Esto podría ayudar a personas que no tienen las habilidades técnicas necesarias para modelado en 3D.

El Desafío

La impresión 3D ha avanzado mucho desde su invención a mediados del siglo XX y ahora se usa en muchas industrias. Aunque muchas personas tienen acceso a servicios de impresión 3D, hacer modelos digitales en 3D todavía requiere habilidades y herramientas específicas que la mayoría de los consumidores no tienen. Por ejemplo, si una pequeña parte de un electrodoméstico más grande como una lavadora se rompe y ya no está disponible del fabricante, un consumidor tendría que crear un nuevo modelo digital de esa parte para imprimirlo. Si esto se pudiera hacer solo tomando fotos, se ahorrarían tiempo y dinero.

Nuestra Solución

El nuevo método que proponemos usa una arquitectura de red que consta de tres etapas principales. Primero, utiliza una Red Neuronal Convolucional (CNN) para analizar las imágenes. Luego, combina la información de estas imágenes usando una técnica especial de agrupamiento. Finalmente, la red crea una secuencia CAD que representa el modelo 3D.

Nuestra red ha sido probada con muchas imágenes para ver qué tan bien funciona. Los resultados muestran que puede crear modelos CAD válidos a partir de imágenes de prueba con buena precisión. También probamos la red con fotos reales de objetos en 3D, y algunas de las capacidades se aplicaron con éxito, a pesar de que la red fue entrenada solo con imágenes sintéticas.

Trabajo Relacionado

En los métodos tradicionales, crear un modelo 3D a partir de fotografías implica un proceso llamado Fotogrametría. Esta técnica usa varias imágenes tomadas desde diferentes ángulos para crear una nube de puntos, que es una colección de datos. Sin embargo, pasar de nubes de puntos a modelos CAD sigue siendo complicado y a menudo requiere trabajo manual. Algunos métodos existentes se enfocan en ajustar formas a nubes de puntos, pero estos enfoques tienden a ser limitados y más adecuados para situaciones específicas.

Últimamente, los investigadores han estado desarrollando métodos basados en aprendizaje que pueden reconstruir objetos en 3D a partir de múltiples imágenes. Estos métodos a menudo utilizan redes neuronales que pueden aprender a extraer características clave de las fotos y luego construir una forma 3D. Sin embargo, la mayoría de la investigación actual no se centra en crear archivos CAD directamente, que es lo que nuestro enfoque busca lograr.

La Arquitectura

Nuestra red, llamada ARE-Net, funciona tomando imágenes desde múltiples ángulos. Usa una CNN para extraer características de cada imagen individualmente. Luego, la red de agrupamiento toma esta información y crea una representación común. Finalmente, la última etapa genera la secuencia de construcción del modelo CAD.

Para ayudar a nuestra red a entender las imágenes, elegimos usar una versión de ResNet, que es una arquitectura bien conocida para procesamiento de imágenes. Descubrimos que usar modelos ResNet más pequeños se adaptaba a nuestras necesidades ya que las imágenes que usamos no eran demasiado complejas. La salida de ResNet se alimenta a la etapa de agrupamiento, que combina los datos de varias imágenes en una sola representación para el generador de modelos CAD.

Entrenando el Modelo

El entrenamiento del modelo ARE-Net constó de dos etapas. Primero, el entrenamiento inicial usó una red auto-codificadora separada para construir un conjunto de datos completo a partir de varios modelos CAD. En la segunda etapa, renderizamos imágenes de estos modelos CAD. Las imágenes de entrenamiento eran imágenes en blanco y negro simples desde ángulos fijos o imágenes en color más complejas desde ángulos aleatorios.

Durante el entrenamiento, nos enfocamos en optimizar varios parámetros del modelo, como la tasa de aprendizaje y la arquitectura. Este proceso de optimización se realizó utilizando una biblioteca que ayuda a encontrar los mejores ajustes para la red.

Midiendo el Rendimiento

Para evaluar el rendimiento de nuestra red, usamos varias métricas. Una métrica importante observa cuántos de los comandos predichos coinciden con los comandos esperados en la secuencia CAD generada. También analizamos qué tan precisamente los parámetros de estos comandos coincidían con sus valores reales. Una tercera métrica mide la precisión geométrica de los objetos 3D generados comparándolos con las formas originales.

Comparamos nuestro método con un método de nube de puntos de última generación. Nuestro enfoque logró crear secuencias CAD en la mayoría de los casos, pero el método de nube de puntos aún tenía una tasa de éxito más alta. Sin embargo, en términos de precisión, nuestro método superó al otro.

Pruebas en el Mundo Real

Para las pruebas en el mundo real, seleccionamos dos objetos: una caja de cartón simple y un soporte de cámara más complejo. Tomamos varias fotografías de cada objeto desde diferentes ángulos y luego alimentamos estas imágenes en el ARE-Net.

Los resultados mostraron que el método funcionó razonablemente bien para la caja de cartón, reconstruyéndola como un cubo perfecto. Sin embargo, el soporte de cámara más complejo no le fue tan bien. Aunque reconoció la forma básica en L del objeto, no logró capturar detalles más intrincados como agujeros y dimensiones exactas.

Análisis de Resultados

A partir de nuestras pruebas, observamos algunos puntos clave. Para modelos más simples, la red pudo generar representaciones bastante precisas. Sin embargo, la precisión disminuyó con diseños más complejos. Alrededor del 18% de los modelos más complejos no pudieron ser reconstruidos efectivamente. Esto se debió principalmente a problemas como la necesidad de características detalladas o formas más avanzadas.

Nuestros hallazgos sugieren que, aunque nuestro método muestra promesa en la generación de modelos CAD a partir de imágenes, aún hay áreas para mejorar. La complejidad de las secuencias CAD es un factor limitante y es posible que tengamos que adaptar nuestro enfoque para soportar formas y detalles más avanzados.

Direcciones Futuras

De cara al futuro, queremos mejorar nuestro modelo de varias maneras. Por ejemplo, deberíamos considerar expandir la longitud de las secuencias CAD que se pueden procesar. Nuestro equipo también explorará diferentes técnicas de entrenamiento, como incorporar renderización de imágenes realistas, usando ray-tracing y agregando diferentes texturas o fondos a las imágenes de entrenamiento.

Además, experimentar con varias arquitecturas de redes neuronales podría llevarnos a mejores resultados. Explorar nuevos métodos como mecanismos de atención podría mejorar cómo el modelo procesa y analiza los datos de imagen.

Conclusión

En resumen, nuestra investigación presenta un nuevo enfoque para crear modelos CAD directamente a partir de fotografías. Esta tecnología podría simplificar enormemente el proceso de modelado en 3D para los usuarios comunes y reducir la dependencia de habilidades especializadas. A medida que continuamos refinando nuestros métodos y explorando nuevas técnicas, hay potencial para que esta tecnología se convierta en una herramienta estándar para consumidores y profesionales por igual, haciendo que el diseño 3D sea más accesible que nunca.

Fuente original

Título: Automatic Reverse Engineering: Creating computer-aided design (CAD) models from multi-view images

Resumen: Generation of computer-aided design (CAD) models from multi-view images may be useful in many practical applications. To date, this problem is usually solved with an intermediate point-cloud reconstruction and involves manual work to create the final CAD models. In this contribution, we present a novel network for an automated reverse engineering task. Our network architecture combines three distinct stages: A convolutional neural network as the encoder stage, a multi-view pooling stage and a transformer-based CAD sequence generator. The model is trained and evaluated on a large number of simulated input images and extensive optimization of model architectures and hyper-parameters is performed. A proof-of-concept is demonstrated by successfully reconstructing a number of valid CAD models from simulated test image data. Various accuracy metrics are calculated and compared to a state-of-the-art point-based network. Finally, a real world test is conducted supplying the network with actual photographs of two three-dimensional test objects. It is shown that some of the capabilities of our network can be transferred to this domain, even though the training exclusively incorporates purely synthetic training data. However to date, the feasible model complexity is still limited to basic shapes.

Autores: Henrik Jobczyk, Hanno Homann

Última actualización: 2023-09-23 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2309.13281

Fuente PDF: https://arxiv.org/pdf/2309.13281

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares