Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Multimédia

Avançando Técnicas de Colorização com Dados Textuais

Um novo método usa texto pra melhorar a precisão da coloração de imagens.

― 8 min ler


Método de Colorização deMétodo de Colorização deImagem Baseado em Textocores usando informações textuais.Nova técnica melhora a precisão das
Índice

Colorizar imagens em grayscale pode ser bem complicado, principalmente quando tem vários objetos na cena que precisam de cores diferentes. A coisa fica ainda mais difícil quando o mesmo objeto pode ter várias cores dependendo do contexto. Muitas técnicas de colorização foram desenvolvidas ao longo dos anos, mas a maioria se perde em manter as cores consistentes em cenas complexas do mundo real. Os métodos que existem geralmente funcionam apenas olhando a imagem em grayscale sem considerar nenhuma informação adicional.

Neste trabalho, a gente apresenta uma nova técnica que usa descrições textuais junto com a imagem em grayscale para ajudar no processo de colorização. Ao integrar a imagem e sua descrição correspondente, nosso objetivo é melhorar a precisão das cores previstas para os diferentes objetos na cena.

Método Proposto

Nosso método gira em torno de uma rede neural profunda que recebe duas entradas: a imagem em grayscale e a Descrição Textual codificada. Essa rede prevê as cores necessárias para a imagem com base em ambas as entradas.

Primeiro, a gente identifica cada objeto na imagem e colore eles com base nas descrições individuais. Isso ajuda a garantir que cada objeto receba uma cor que reflita suas características únicas. Depois de colorir os objetos, usamos outro modelo para combinar todos os segmentos coloridos em uma imagem final.

As descrições textuais contêm informações importantes sobre cor, o que ajuda a melhorar a qualidade das cores previstas. Nosso método mostrou um desempenho melhor do que as técnicas de colorização existentes quando medido com várias métricas de avaliação.

Contexto

Nos últimos anos, houve um foco forte em colorização de imagens no campo da visão computacional. Muitas abordagens confiaram em aprendizado de máquina tradicional, mas a ascensão do deep learning abriu novas possibilidades. Sistemas recentes que utilizam deep learning mostraram resultados impressionantes na colorização de imagens.

Um dos primeiros métodos usou uma estrutura de deep learning com uma rede de camadas completamente conectadas. Abordagens posteriores construíram sobre isso, incorporando informações de profundidade e usando redes pré-treinadas para extrair características. Algumas técnicas até utilizaram redes adversariais para melhorar a qualidade das cores geradas.

Apesar da variedade de abordagens, poucas exploraram a ideia de combinar descrições textuais com colorização no nível do objeto. Isso representa uma área onde nosso método visa contribuir.

Visão Geral do Sistema

Nosso sistema de colorização funciona em duas principais etapas. Primeiro, detectamos e criamos uma máscara para cada objeto na imagem em grayscale. Isso nos permite tratar cada objeto como uma instância separada. Em seguida, realizamos a colorização usando o módulo de colorização de objetos por instância (IOC), que leva em conta tanto a imagem em grayscale quanto sua descrição textual correspondente.

O módulo IOC é projetado como uma rede multitarefa que não só prevê cores para os objetos, mas também os classifica. Integrando a informação textual nesse processo, diminuímos as chances de confusão na associação de cores com os objetos corretos.

Após essa etapa, usamos um Módulo de Fusão para combinar a imagem parcialmente colorida em uma versão totalmente colorida. Esse módulo também considera as descrições de fundo para garantir que toda a cena seja colorida adequadamente.

Contribuições

Fizemos várias contribuições importantes com esse trabalho:

  1. Nosso módulo IOC é uma abordagem única que usa colorização em nível de instância, considerando tanto tarefas de cor quanto de classificação.
  2. O pipeline multimodal proposto incorpora informação de linguagem, servindo como uma camada adicional de condicionamento para o processo de colorização.
  3. Introduzimos uma nova função de perda projetada especificamente para avaliar a colorização geral das imagens, melhorando a fidelidade das cores.

Trabalhos Existentes

A colorização de imagens tem capturado o interesse dos pesquisadores por décadas. Enquanto muitas técnicas surgiram, o campo se voltou para métodos de deep learning, resultando em melhorias no desempenho.

Os primeiros métodos de colorização com deep learning dependiam fortemente de arquiteturas simples. Com o tempo, modelos mais complexos foram desenvolvidos, incorporando várias técnicas, como informações de profundidade, redes adversariais e transformers.

No entanto, essas abordagens geralmente não exploram descrições textuais para ajudar na colorização. Nosso método preenche essa lacuna usando uma abordagem multimodal que combina informações visuais e textuais.

Implementação

Detecção de Objetos

Para identificar objetos em uma imagem, utilizamos uma técnica chamada Masked R-CNN. Isso nos permite obter contornos precisos de cada objeto detectado. Assim que um objeto é encontrado, redimensionamos ele para garantir um processamento consistente em todo o sistema.

Codificação de Informações de Cor

Uma parte crucial do nosso método envolve codificar informações de cor a partir das descrições textuais. Usamos um modelo chamado BERT, que converte o texto em vetores numéricos. Essa codificação ajuda o módulo IOC durante a fase de previsão de cor.

Em casos onde os objetos podem não ser facilmente detectados ou classificados, como "céu" ou "tigre," ainda conseguimos coletar descrições de cor que fornecem informações valiosas.

Módulo de Colorização de Objetos por Instância (IOC)

O módulo IOC é o coração do nosso sistema. Ele aceita tanto imagens em grayscale quanto dados textuais codificados. O design usa uma estrutura UNet modificada para processar essas entradas.

Ele tem duas saídas principais: uma que reconstrói as informações de cor e outra que classifica as instâncias dos objetos. Ao combinar essas funções, o módulo IOC garante que as cores sejam atribuídas corretamente com base no conteúdo da imagem e na entrada de texto.

Módulo de Fusão para Colorização

Depois que o módulo IOC completa seu processamento, o módulo de fusão pega as saídas parcialmente coloridas e as combina em uma imagem totalmente colorida. Esse módulo incorpora toda a descrição textual da imagem de entrada, garantindo que os elementos de fundo sejam coloridos corretamente.

Resultados Experimentais

Conjunto de Dados

Para nossos experimentos, usamos o conjunto de dados MS-COCO-QA, que contém uma grande coleção de imagens com informações de cor associadas. Esse conjunto de dados permitiu que treinássemos e avaliássemos nosso método de forma eficaz.

Resultados Qualitativos

Para avaliar o desempenho da nossa técnica, geramos várias imagens com nosso sistema e comparamos com imagens RGB originais. Os avaliadores foram convidados a identificar se uma imagem estava colorida ou não. Nosso método demonstrou a capacidade de colorizar cenas complexas com múltiplos objetos, sombras e oclusões, proporcionando resultados bastante convincentes.

Resultados de Comparação

Comparamos nosso método com várias técnicas de colorização existentes. Os resultados mostraram que nossa abordagem superou as outras em várias métricas, incluindo qualidade perceptual. Nossas avaliações qualitativas confirmaram que as imagens produzidas com nosso método parecem mais naturais e consistentes em cor.

Estudo de Ablation

Realizamos uma análise minuciosa de como diferentes componentes influenciaram nossos resultados. Constatou-se que usar condicionamento textual melhorou significativamente o desempenho do nosso método. Além disso, a introdução da nossa função de perda de colorido contribuiu positivamente para a qualidade das imagens geradas.

Discussão

Embora nossa técnica demonstre um desempenho forte, ainda existem limitações. Em algumas situações, se as descrições textuais fornecidas não tiverem informações de cor suficientes, os resultados podem não ser satisfatórios. Trabalhos futuros podem focar em expandir o banco de dados de descrições textuais para melhorar a precisão da colorização.

Conclusão

Introduzimos um novo método de colorização de imagens que utiliza de forma eficaz as informações de cor derivadas de dados textuais. Ao depender tanto de imagens em grayscale quanto de suas respectivas descrições, nosso método mostrou desempenho superior em relação a algoritmos existentes. Validamos a importância da colorização em nível de instância e apresentamos uma função de perda única voltada para melhorar a fidelidade das cores. Embora haja desafios, o caminho a seguir envolve adicionar descrições textuais mais abrangentes aos nossos dados de treinamento para aprimorar o efeito geral da nossa abordagem.

Fonte original

Título: MMC: Multi-Modal Colorization of Images using Textual Descriptions

Resumo: Handling various objects with different colors is a significant challenge for image colorization techniques. Thus, for complex real-world scenes, the existing image colorization algorithms often fail to maintain color consistency. In this work, we attempt to integrate textual descriptions as an auxiliary condition, along with the grayscale image that is to be colorized, to improve the fidelity of the colorization process. To do so, we have proposed a deep network that takes two inputs (grayscale image and the respective encoded text description) and tries to predict the relevant color components. Also, we have predicted each object in the image and have colorized them with their individual description to incorporate their specific attributes in the colorization process. After that, a fusion model fuses all the image objects (segments) to generate the final colorized image. As the respective textual descriptions contain color information of the objects present in the image, text encoding helps to improve the overall quality of predicted colors. In terms of performance, the proposed method outperforms existing colorization techniques in terms of LPIPS, PSNR and SSIM metrics.

Autores: Subhankar Ghosh, Saumik Bhattacharya, Prasun Roy, Umapada Pal, Michael Blumenstein

Última atualização: 2023-04-25 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2304.11993

Fonte PDF: https://arxiv.org/pdf/2304.11993

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes