Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Inteligência Artificial# Multimédia

Designer de Roupas Multimodal: Uma Nova Abordagem para Imagens de Moda

Um sistema que gera imagens de moda usando texto, esboços e poses.

― 10 min ler


Nova Era no Design deNova Era no Design deModatecnologia.criatividade impulsionada pelaGerando imagens de moda através da
Índice

Os designers de moda costumam usar ilustrações pra passar suas ideias e mostrar como as roupas interagem com o corpo humano. Pra facilitar esse processo, a visão computacional pode ajudar a melhorar o design de moda. Esse artigo fala sobre um novo sistema chamado Designer de Roupas Multimodal. Ele consegue criar novas imagens de moda baseadas em vários inputs, como descrições em texto, poses de corpo humano e Esboços de Roupas.

Contexto

A pesquisa atual em visão computacional tem se concentrado em reconhecer itens de vestuário, encontrar roupas semelhantes e permitir experimentações virtuais. Já foi feito algum trabalho sobre gerar imagens a partir de descrições em texto de roupas. No entanto, abordagens anteriores usavam principalmente métodos chamados Redes Generativas Adversariais (GANs). Esses métodos têm limitações e nem sempre são eficazes em criar imagens de moda de alta qualidade.

Recentemente, uma nova abordagem chamada Modelos de Difusão ganhou popularidade devido às suas fortes capacidades de geração de imagens. Esses modelos funcionam transformando gradualmente uma imagem aleatória de ruído em uma imagem clara ao longo de várias etapas. Embora tenham mostrado grande sucesso em várias áreas, seu uso no design de moda ainda está em estágios iniciais.

A Nova Estrutura

O Designer de Roupas Multimodal aborda a criação de imagens de moda de uma maneira diferente. Ele combina vários modos de informação pra guiar o processo de geração. O objetivo é manter as características únicas e a forma do corpo do modelo enquanto troca a roupa que ele está usando. Assim, as imagens geradas permanecem fiéis ao modelo original enquanto incorporam novos estilos de roupas.

O sistema começa com uma estrutura baseada em modelos de difusão. Ao contrário dos métodos que focam apenas em pixels, essa estrutura opera em uma versão comprimida da imagem. Isso a torna mais rápida e menos intensiva em recursos. Embora essa abordagem seja capaz de gerar imagens realistas, ela tem dificuldade em focar nos aspectos humanos e em múltiplos inputs orientadores.

Pra resolver esse problema, o Designer de Roupas Multimodal incorpora vários tipos de entradas. Ele usa descrições textuais e esboços de roupas, além de informações sobre a pose do modelo. Isso permite representações mais precisas das roupas e do ajuste no corpo do modelo.

Melhorando Conjuntos de dados Existentes

Um dos desafios no desenvolvimento dessa estrutura é a falta de conjuntos de dados adequados. Pra resolver isso, os pesquisadores expandiram os conjuntos de dados de moda existentes com informações adicionais. Dois conjuntos de dados – Dress Code e VITON-HD – foram escolhidos pra isso. Novas anotações foram adicionadas de forma semi-automatizada, incluindo descrições em texto e esboços de roupas.

Essas melhorias fornecem uma rica fonte de dados multimodais pra treinar o novo sistema. Como resultado, o Designer de Roupas Multimodal pode criar imagens que não são apenas realistas, mas também coerentes com os inputs fornecidos.

Metodologia

O objetivo principal do Designer de Roupas Multimodal é gerar uma imagem de moda que corresponda a vários inputs diferentes. Dada a imagem de um modelo, suas informações de pose, uma descrição em texto da roupa e um esboço, o sistema gera uma nova imagem que mantém a aparência do modelo enquanto substitui a roupa.

A nova estrutura pode se adaptar facilmente a outros tipos de informações, se necessário, como texturas de tecido ou dicas visuais adicionais. Essa flexibilidade pode ser benéfica para futuros desenvolvimentos no design de moda e geração de imagens.

Condicionamento do Mapa de Pose

Em tarefas de inpainting normais, o objetivo é preencher certas partes de uma imagem, o que pode envolver remover ou substituir objetos. Nesse caso, o foco está no modelo humano. O sistema visa remover a roupa original mantendo a identidade do modelo intacta. Pra melhorar o processo, uma combinação de pontos-chave do corpo e caixas delimitadoras é usada pra guiar a substituição da roupa.

Ao incorporar essas informações de pose, o modelo consegue entender melhor as características físicas do modelo, permitindo designs de roupas mais variados. Ajustes foram feitos nas camadas iniciais da rede pra acomodar os inputs extras associados aos pontos-chave do corpo, sem precisar re-treinar todo o modelo do zero.

Incorporando Esboços de Roupas

Só o texto pode não ser suficiente pra transmitir informações detalhadas sobre o design de uma roupa. Desenhar esboços pode adicionar detalhes espaciais que o texto pode não incluir. Usando esboços, o Designer de Roupas Multimodal combina esses detalhes extras com as descrições textuais pra criar representações mais precisas das roupas.

Os esboços ajudam a guiar o processo de geração, permitindo que o modelo produza imagens que se aproximam do design pretendido. Essa abordagem melhora a qualidade geral dos itens de moda gerados.

O Processo de Inpainting

O sistema multimodal emprega um método único pra alcançar seus objetivos. Ele mescla técnicas tradicionais de inpainting com novas abordagens feitas especificamente pra imagens de moda. Usando um processo em duas etapas, o modelo incorpora imagens mascaradas e mapas de pose pra gerar novas roupas que respeitam o modelo original.

O processo permite que o modelo mantenha a identidade do indivíduo enquanto aplica novos designs de roupas. Assim, o designer pode experimentar diferentes estilos e conceitos visuais de forma mais eficaz.

Coletando Conjuntos de Dados de Moda Multimodais

A implementação efetiva do Designer de Roupas Multimodal requer conjuntos de dados de alta qualidade, enriquecidos com informações multimodais. Pra isso, os pesquisadores começaram com conjuntos de dados existentes e os aprimoraram com novas descrições em texto e esboços.

O processo de preparação dos dados envolveu reunir descrições textuais feitas sob medida que capturassem atributos importantes das roupas sem excessos de detalhe. Dado o tamanho dos conjuntos de dados originais, automatizar grande parte do processo de anotação foi crucial pra coletar informações relevantes de forma eficiente.

"Chunks" de substantivos, que são frases curtas que incluem um substantivo e seus descritores, foram coletados de outros conjuntos de dados de moda pra garantir descrições significativas pra cada roupa.

Anotação Fina e Bruta

Duas fases de anotação foram completadas: fina e bruta. Durante a fase fina, os pesquisadores coletaram manualmente informações pra uma parte significativa do conjunto de dados, garantindo representação precisa. Isso envolveu selecionar os três chunks de substantivos mais relevantes pra cada roupa a partir das 25 opções geradas automaticamente.

A anotação bruta foi realizada em seguida pra cobrir os itens restantes. Isso envolveu usar as anotações finas pra automaticamente atribuir os três chunks de substantivos mais relevantes ao restante das roupas. Esse método permitiu uma forma eficiente de escalar o conjunto de dados.

Extraindo Esboços para Roupas

Esboços são valiosos pra fornecer detalhes que o texto pode não captar. Pra derivar esboços das roupas, um modelo de detecção de bordas pré-treinado foi empregado. Esse modelo detecta bordas em imagens e as converte em formas semelhantes a esboços, que podem ser usadas para a entrada multimodal.

Para o conjunto de dados pareado, as roupas foram segmentadas diretamente das imagens do modelo. Para o conjunto de dados não pareado, um módulo de deformação criou formas de roupas que combinavam com a pose do corpo do modelo através de uma série de transformações.

Avaliação da Estrutura

Pra avaliar a eficácia do Designer de Roupas Multimodal, várias métricas de avaliação foram empregadas. Essas métricas ajudam a determinar tanto o realismo das imagens geradas quanto quão bem elas se aderem às descrições de entrada.

Várias métricas foram usadas pra avaliar a saída, incluindo Fréchet Inception Distance (FID) e Kernel Inception Distance (KID). Essas métricas ajudam a avaliar a qualidade geral das imagens geradas. Além disso, uma nova métrica de distância de pose foi desenvolvida pra medir quão bem as poses nas imagens geradas se alinham com o modelo original, enquanto uma métrica de distância de esboço avaliou quão próximo a saída se adere às diretrizes do esboço.

Estudos com Usuários

Pra garantir que as saídas geradas não fossem apenas tecnicamente sólidas, mas também alinhadas com as expectativas dos usuários, estudos com usuários foram realizados. Os participantes avaliaram o realismo das imagens e quão bem as imagens geradas corresponderam aos múltiplos inputs fornecidos.

O feedback dos usuários destacou as vantagens do Designer de Roupas Multimodal em comparação com métodos existentes. Essas avaliações forneceram insights valiosos sobre os aspectos do modelo que funcionam bem e áreas que poderiam se beneficiar de melhorias.

Resultados e Conquistas

O Designer de Roupas Multimodal apresentou resultados promissores na geração de imagens de moda de alta qualidade baseadas em múltiplos tipos de input. A combinação de descrições textuais, esboços e mapas de pose permite que o sistema produza imagens que são coerentes, realistas e adaptadas a estilos de roupas específicos.

Ele também superou outros sistemas existentes em termos de qualidade de imagem e aderência às condições de input. As novas métricas de avaliação introduzidas para essa pesquisa têm sido instrumentais para entender e validar a eficácia da nova estrutura.

Limitações e Trabalhos Futuros

Apesar de seus sucessos, o Designer de Roupas Multimodal enfrenta alguns desafios. Seu desempenho pode variar dependendo da qualidade dos inputs de esboço. Se os esboços não se alinharem bem com a forma do corpo do modelo, as imagens geradas podem sofrer como resultado.

Pra aprimorar ainda mais o sistema, pesquisas continuadas podem explorar melhores formas de capturar e incorporar esboços enquanto experimentam com inputs multimodais adicionais. Desenvolvimentos futuros também podem procurar maneiras de ampliar o escopo dos conjuntos de dados e refinar o processo de geração para uma gama mais ampla de estilos de moda.

Conclusão

A introdução do Designer de Roupas Multimodal marca um passo significativo na interseção entre moda e tecnologia. Ao usar efetivamente múltiplos inputs pra criar imagens de moda, essa estrutura tem o potencial de transformar o processo de design pra profissionais de moda. À medida que o sistema continua a evoluir, isso pode levar a opções de moda mais personalizadas e diversas, permitindo que designers e consumidores explorem novos caminhos criativos no mundo da moda.

Através de avaliações rigorosas e estudos com usuários, o Designer de Roupas Multimodal se destaca como uma solução inovadora no campo do design de moda, unindo criatividade e avanço tecnológico.

Fonte original

Título: Multimodal Garment Designer: Human-Centric Latent Diffusion Models for Fashion Image Editing

Resumo: Fashion illustration is used by designers to communicate their vision and to bring the design idea from conceptualization to realization, showing how clothes interact with the human body. In this context, computer vision can thus be used to improve the fashion design process. Differently from previous works that mainly focused on the virtual try-on of garments, we propose the task of multimodal-conditioned fashion image editing, guiding the generation of human-centric fashion images by following multimodal prompts, such as text, human body poses, and garment sketches. We tackle this problem by proposing a new architecture based on latent diffusion models, an approach that has not been used before in the fashion domain. Given the lack of existing datasets suitable for the task, we also extend two existing fashion datasets, namely Dress Code and VITON-HD, with multimodal annotations collected in a semi-automatic manner. Experimental results on these new datasets demonstrate the effectiveness of our proposal, both in terms of realism and coherence with the given multimodal inputs. Source code and collected multimodal annotations are publicly available at: https://github.com/aimagelab/multimodal-garment-designer.

Autores: Alberto Baldrati, Davide Morelli, Giuseppe Cartella, Marcella Cornia, Marco Bertini, Rita Cucchiara

Última atualização: 2023-08-23 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2304.02051

Fonte PDF: https://arxiv.org/pdf/2304.02051

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes