Avançando Técnicas de Colorização com Dados Textuais
Um novo método usa texto pra melhorar a precisão da coloração de imagens.
― 8 min ler
Índice
Colorizar imagens em grayscale pode ser bem complicado, principalmente quando tem vários objetos na cena que precisam de cores diferentes. A coisa fica ainda mais difícil quando o mesmo objeto pode ter várias cores dependendo do contexto. Muitas técnicas de colorização foram desenvolvidas ao longo dos anos, mas a maioria se perde em manter as cores consistentes em cenas complexas do mundo real. Os métodos que existem geralmente funcionam apenas olhando a imagem em grayscale sem considerar nenhuma informação adicional.
Neste trabalho, a gente apresenta uma nova técnica que usa descrições textuais junto com a imagem em grayscale para ajudar no processo de colorização. Ao integrar a imagem e sua descrição correspondente, nosso objetivo é melhorar a precisão das cores previstas para os diferentes objetos na cena.
Método Proposto
Nosso método gira em torno de uma rede neural profunda que recebe duas entradas: a imagem em grayscale e a Descrição Textual codificada. Essa rede prevê as cores necessárias para a imagem com base em ambas as entradas.
Primeiro, a gente identifica cada objeto na imagem e colore eles com base nas descrições individuais. Isso ajuda a garantir que cada objeto receba uma cor que reflita suas características únicas. Depois de colorir os objetos, usamos outro modelo para combinar todos os segmentos coloridos em uma imagem final.
As descrições textuais contêm informações importantes sobre cor, o que ajuda a melhorar a qualidade das cores previstas. Nosso método mostrou um desempenho melhor do que as técnicas de colorização existentes quando medido com várias métricas de avaliação.
Contexto
Nos últimos anos, houve um foco forte em colorização de imagens no campo da visão computacional. Muitas abordagens confiaram em aprendizado de máquina tradicional, mas a ascensão do deep learning abriu novas possibilidades. Sistemas recentes que utilizam deep learning mostraram resultados impressionantes na colorização de imagens.
Um dos primeiros métodos usou uma estrutura de deep learning com uma rede de camadas completamente conectadas. Abordagens posteriores construíram sobre isso, incorporando informações de profundidade e usando redes pré-treinadas para extrair características. Algumas técnicas até utilizaram redes adversariais para melhorar a qualidade das cores geradas.
Apesar da variedade de abordagens, poucas exploraram a ideia de combinar descrições textuais com colorização no nível do objeto. Isso representa uma área onde nosso método visa contribuir.
Visão Geral do Sistema
Nosso sistema de colorização funciona em duas principais etapas. Primeiro, detectamos e criamos uma máscara para cada objeto na imagem em grayscale. Isso nos permite tratar cada objeto como uma instância separada. Em seguida, realizamos a colorização usando o módulo de colorização de objetos por instância (IOC), que leva em conta tanto a imagem em grayscale quanto sua descrição textual correspondente.
O módulo IOC é projetado como uma rede multitarefa que não só prevê cores para os objetos, mas também os classifica. Integrando a informação textual nesse processo, diminuímos as chances de confusão na associação de cores com os objetos corretos.
Após essa etapa, usamos um Módulo de Fusão para combinar a imagem parcialmente colorida em uma versão totalmente colorida. Esse módulo também considera as descrições de fundo para garantir que toda a cena seja colorida adequadamente.
Contribuições
Fizemos várias contribuições importantes com esse trabalho:
- Nosso módulo IOC é uma abordagem única que usa colorização em nível de instância, considerando tanto tarefas de cor quanto de classificação.
- O pipeline multimodal proposto incorpora informação de linguagem, servindo como uma camada adicional de condicionamento para o processo de colorização.
- Introduzimos uma nova função de perda projetada especificamente para avaliar a colorização geral das imagens, melhorando a fidelidade das cores.
Trabalhos Existentes
A colorização de imagens tem capturado o interesse dos pesquisadores por décadas. Enquanto muitas técnicas surgiram, o campo se voltou para métodos de deep learning, resultando em melhorias no desempenho.
Os primeiros métodos de colorização com deep learning dependiam fortemente de arquiteturas simples. Com o tempo, modelos mais complexos foram desenvolvidos, incorporando várias técnicas, como informações de profundidade, redes adversariais e transformers.
No entanto, essas abordagens geralmente não exploram descrições textuais para ajudar na colorização. Nosso método preenche essa lacuna usando uma abordagem multimodal que combina informações visuais e textuais.
Implementação
Detecção de Objetos
Para identificar objetos em uma imagem, utilizamos uma técnica chamada Masked R-CNN. Isso nos permite obter contornos precisos de cada objeto detectado. Assim que um objeto é encontrado, redimensionamos ele para garantir um processamento consistente em todo o sistema.
Codificação de Informações de Cor
Uma parte crucial do nosso método envolve codificar informações de cor a partir das descrições textuais. Usamos um modelo chamado BERT, que converte o texto em vetores numéricos. Essa codificação ajuda o módulo IOC durante a fase de previsão de cor.
Em casos onde os objetos podem não ser facilmente detectados ou classificados, como "céu" ou "tigre," ainda conseguimos coletar descrições de cor que fornecem informações valiosas.
Módulo de Colorização de Objetos por Instância (IOC)
O módulo IOC é o coração do nosso sistema. Ele aceita tanto imagens em grayscale quanto dados textuais codificados. O design usa uma estrutura UNet modificada para processar essas entradas.
Ele tem duas saídas principais: uma que reconstrói as informações de cor e outra que classifica as instâncias dos objetos. Ao combinar essas funções, o módulo IOC garante que as cores sejam atribuídas corretamente com base no conteúdo da imagem e na entrada de texto.
Módulo de Fusão para Colorização
Depois que o módulo IOC completa seu processamento, o módulo de fusão pega as saídas parcialmente coloridas e as combina em uma imagem totalmente colorida. Esse módulo incorpora toda a descrição textual da imagem de entrada, garantindo que os elementos de fundo sejam coloridos corretamente.
Resultados Experimentais
Conjunto de Dados
Para nossos experimentos, usamos o conjunto de dados MS-COCO-QA, que contém uma grande coleção de imagens com informações de cor associadas. Esse conjunto de dados permitiu que treinássemos e avaliássemos nosso método de forma eficaz.
Resultados Qualitativos
Para avaliar o desempenho da nossa técnica, geramos várias imagens com nosso sistema e comparamos com imagens RGB originais. Os avaliadores foram convidados a identificar se uma imagem estava colorida ou não. Nosso método demonstrou a capacidade de colorizar cenas complexas com múltiplos objetos, sombras e oclusões, proporcionando resultados bastante convincentes.
Resultados de Comparação
Comparamos nosso método com várias técnicas de colorização existentes. Os resultados mostraram que nossa abordagem superou as outras em várias métricas, incluindo qualidade perceptual. Nossas avaliações qualitativas confirmaram que as imagens produzidas com nosso método parecem mais naturais e consistentes em cor.
Estudo de Ablation
Realizamos uma análise minuciosa de como diferentes componentes influenciaram nossos resultados. Constatou-se que usar condicionamento textual melhorou significativamente o desempenho do nosso método. Além disso, a introdução da nossa função de perda de colorido contribuiu positivamente para a qualidade das imagens geradas.
Discussão
Embora nossa técnica demonstre um desempenho forte, ainda existem limitações. Em algumas situações, se as descrições textuais fornecidas não tiverem informações de cor suficientes, os resultados podem não ser satisfatórios. Trabalhos futuros podem focar em expandir o banco de dados de descrições textuais para melhorar a precisão da colorização.
Conclusão
Introduzimos um novo método de colorização de imagens que utiliza de forma eficaz as informações de cor derivadas de dados textuais. Ao depender tanto de imagens em grayscale quanto de suas respectivas descrições, nosso método mostrou desempenho superior em relação a algoritmos existentes. Validamos a importância da colorização em nível de instância e apresentamos uma função de perda única voltada para melhorar a fidelidade das cores. Embora haja desafios, o caminho a seguir envolve adicionar descrições textuais mais abrangentes aos nossos dados de treinamento para aprimorar o efeito geral da nossa abordagem.
Título: MMC: Multi-Modal Colorization of Images using Textual Descriptions
Resumo: Handling various objects with different colors is a significant challenge for image colorization techniques. Thus, for complex real-world scenes, the existing image colorization algorithms often fail to maintain color consistency. In this work, we attempt to integrate textual descriptions as an auxiliary condition, along with the grayscale image that is to be colorized, to improve the fidelity of the colorization process. To do so, we have proposed a deep network that takes two inputs (grayscale image and the respective encoded text description) and tries to predict the relevant color components. Also, we have predicted each object in the image and have colorized them with their individual description to incorporate their specific attributes in the colorization process. After that, a fusion model fuses all the image objects (segments) to generate the final colorized image. As the respective textual descriptions contain color information of the objects present in the image, text encoding helps to improve the overall quality of predicted colors. In terms of performance, the proposed method outperforms existing colorization techniques in terms of LPIPS, PSNR and SSIM metrics.
Autores: Subhankar Ghosh, Saumik Bhattacharya, Prasun Roy, Umapada Pal, Michael Blumenstein
Última atualização: 2023-04-25 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2304.11993
Fonte PDF: https://arxiv.org/pdf/2304.11993
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.