TextDiffuser: Uma Nova Abordagem para Texto em Imagens
O TextDiffuser melhora a geração de imagens ao integrar texto de forma simples.
― 8 min ler
Nos últimos anos, novos modelos foram desenvolvidos que fazem imagens impressionantes. Esses modelos tiveram algumas dificuldades quando se tratou de colocar palavras nas imagens de forma clara e precisa. Para ajudar com isso, apresentamos um sistema chamado TextDiffuser, que foca em criar imagens lindas que incluem texto que combina bem com o fundo.
O TextDiffuser funciona em duas etapas principais. Primeiro, ele usa um modelo especial para criar um layout das palavras-chave retiradas dos textos dados pelos usuários. Na segunda etapa, ele pega esses layouts e gera as imagens reais com base tanto no texto quanto no layout. Para ajudar nesse processo, também criamos um grande conjunto de dados chamado MARIO-10M. Esse conjunto inclui 10 milhões de pares de imagens e textos com anotações detalhadas para reconhecimento, detecção e segmentação de texto.
Além disso, reunimos o MARIO-Eval, que é um benchmark que ajuda a avaliar a qualidade da renderização de texto. Através de testes e estudos com usuários, descobrimos que o TextDiffuser funciona bem para criar imagens de texto de alta qualidade usando apenas textos ou com imagens de template. Ele também pode preencher áreas de imagens que estão faltando texto de uma forma que parece natural.
O campo da geração de imagens melhorou muito graças a novos modelos e grandes conjuntos de dados. No entanto, muitos modelos atuais ainda enfrentam problemas com a renderização de texto que fique legal nas imagens. Isso é importante porque muitos designs, como pôsteres e capas de livros, costumam usar imagens com texto. Os métodos tradicionais para criar imagens de texto geralmente envolvem o uso de softwares como Photoshop. No entanto, esses métodos podem levar a resultados estranhos por causa da complexidade dos fundos ou diferenças na iluminação. Trabalhos recentes têm buscado esses novos modelos para melhorar como o texto é exibido nas imagens.
Por exemplo, alguns modelos mostraram que conseguem criar melhores imagens de texto ao usar certos codificadores de texto. Outros tentaram usar codificadores de texto que levam em conta os caracteres para melhorar como o texto é mostrado. Embora tenha havido algum progresso, muitos modelos focam apenas nos codificadores de texto e não oferecem muito controle sobre a geração de imagens. Outros modelos melhoraram o controle ao analisar onde os caracteres chineses estão posicionados, mas não permitem a criação de múltiplas áreas de texto, o que é vital para muitos tipos de imagens.
Para superar esses desafios, apresentamos o TextDiffuser, uma estrutura flexível e controlável. Essa estrutura tem duas etapas principais. Na primeira etapa, um modelo determina onde cada palavra-chave dos textos deve ir. Na segunda etapa, afinamos um modelo de difusão para gerar imagens com base nos layouts e textos. Para ajudar a melhorar a qualidade do texto nas imagens, introduzimos uma nova função de perda durante o treinamento.
Na primeira etapa, criamos um layout identificando as coordenadas de cada palavra-chave. Essa etapa envolve o uso de um modelo Transformer que ajuda a identificar as principais palavras dos textos e criar um layout que pode ser usado nas etapas seguintes. A saída dessa etapa é uma série de caixas delimitadoras que mostram onde cada palavra-chave será localizada. Isso pode ser processado ainda mais para criar máscaras de segmento em nível de caractere, o que ajuda a garantir que o texto fique bem nas áreas projetadas.
Na segunda etapa, essas máscaras de segmento são usadas para criar as imagens reais. Esse modelo de difusão é condicionado às máscaras de segmento, textos e outras características. Ele aprende a melhorar seu processo de geração de imagens enquanto também se concentra nas áreas onde o texto aparece. Isso permite imagens de melhor qualidade, onde o texto se encaixa bem com o fundo.
O TextDiffuser também permite diferentes formas de criar imagens. Os usuários podem começar do zero usando textos, ou podem usar imagens existentes como templates para modificação. Assim, eles podem mudar o texto dentro de uma imagem dada, facilitando a personalização dos designs. O sistema também permite preencher partes de imagens que podem estar sem texto, garantindo que o texto recém-criado se misture perfeitamente com a imagem existente.
Como não havia um grande conjunto de dados voltado para ajudar com a renderização de texto, tomamos a iniciativa de coletar 10 milhões de pares de imagem-texto com anotações adequadas para criar o conjunto MARIO-10M. Esse conjunto garante que as imagens que geramos possam ser usadas para várias aplicações e avaliações. Estabelecemos o benchmark MARIO-Eval a partir desse conjunto, junto com algumas outras fontes, para servir como uma maneira de avaliar a qualidade da renderização de texto de forma mais eficaz.
Na criação desse conjunto de dados, implementamos regras de filtragem rigorosas para manter a alta qualidade. Todas as imagens devem atender a critérios específicos em relação à resolução e relevância para garantir que o conjunto sirva bem ao seu propósito. Acreditamos que ter um conjunto de dados tão abrangente incentivará mais pesquisas nessa área e ajudará outros a melhorar o que começamos.
Avaliar a qualidade da renderização de texto foi feito de várias maneiras, incluindo a atratividade visual das imagens geradas e quão bem o texto combina com os textos fornecidos. Essa avaliação ajuda a entender quão efetivamente o TextDiffuser funciona em comparação com técnicas existentes. Através de pontuações numéricas baseadas em imagens reais e feedback dos usuários, confirmamos que o TextDiffuser realmente se sai melhor.
Para determinar quão bem nossa estrutura funciona, comparamos com outros modelos. Descobrimos que, em geral, o TextDiffuser se sai melhor em renderização de texto, enquanto ainda é eficiente na produção de imagens esteticamente atraentes. Os resultados também mostraram que o sistema pode criar diferentes estilos de texto enquanto mantém um bom encaixe com os fundos.
Além da geração de imagens, exploramos o campo da inpainting de imagens. Isso envolve reconstruir áreas em imagens onde o texto está faltando. O TextDiffuser pode realizar isso usando os modelos treinados com dados de imagem e texto. Esse método é diferente de simplesmente editar textos existentes; ele permite adicionar texto totalmente novo a partes de uma imagem, o que abre inúmeras possibilidades para trabalhos criativos.
Em relação ao uso de tempo e recursos, o TextDiffuser foi projetado para ser eficiente. A primeira etapa de criação de layouts depende de quantas palavras-chave estão presentes, e o tempo levado aumenta um pouco com o número de palavras. A segunda etapa é menos afetada pelo número de palavras-chave. No geral, o TextDiffuser oferece um bom equilíbrio entre qualidade e eficiência.
Um aspecto empolgante do TextDiffuser é sua capacidade de controlar a cor do texto por meio de descrições simples em linguagem. Isso adiciona uma camada extra de personalização, permitindo que os usuários especifiquem detalhes sobre como querem que o texto apareça.
Embora estejamos empolgados com os avanços possibilitados pelo TextDiffuser, reconhecemos que ainda há desafios a serem superados. Por exemplo, gerar imagens claras com texto pequeno pode ser complicado, já que os modelos às vezes têm dificuldade em reproduzir caracteres legíveis nesses casos. Além disso, existem situações em que textos longos com várias palavras-chave levam a imagens que podem não se alinhar bem com o design pretendido.
Para o futuro, nosso objetivo é melhorar as capacidades do sistema, especialmente na geração de caracteres pequenos e na acomodação de texto em várias línguas. Acreditamos que enfrentar esses desafios vai melhorar ainda mais a robustez do TextDiffuser e torná-lo uma ferramenta ainda mais valiosa para criadores.
Em resumo, o TextDiffuser é um passo à frente para facilitar a criação de imagens que incluem texto de forma harmoniosa. A combinação de geração de layout e criação de imagens permite que os usuários tenham controle sobre como suas imagens ficam. Como resultado, essa estrutura pode ser aplicada em muitas áreas, incluindo designs de pôsteres e capas de livros. As potenciais aplicações de inpainting de texto também ampliam o escopo da criatividade para vários projetos.
Nossa esperança para o futuro é que o TextDiffuser consiga inspirar mais pesquisas e inovações na renderização de texto dentro da geração de imagens, tornando-se um recurso indispensável para artistas, designers e criadores de conteúdo. Através de desenvolvimentos e melhorias contínuas, prevemos que o TextDiffuser continuará na vanguarda desse campo empolgante.
Título: TextDiffuser: Diffusion Models as Text Painters
Resumo: Diffusion models have gained increasing attention for their impressive generation abilities but currently struggle with rendering accurate and coherent text. To address this issue, we introduce TextDiffuser, focusing on generating images with visually appealing text that is coherent with backgrounds. TextDiffuser consists of two stages: first, a Transformer model generates the layout of keywords extracted from text prompts, and then diffusion models generate images conditioned on the text prompt and the generated layout. Additionally, we contribute the first large-scale text images dataset with OCR annotations, MARIO-10M, containing 10 million image-text pairs with text recognition, detection, and character-level segmentation annotations. We further collect the MARIO-Eval benchmark to serve as a comprehensive tool for evaluating text rendering quality. Through experiments and user studies, we show that TextDiffuser is flexible and controllable to create high-quality text images using text prompts alone or together with text template images, and conduct text inpainting to reconstruct incomplete images with text. The code, model, and dataset will be available at \url{https://aka.ms/textdiffuser}.
Autores: Jingye Chen, Yupan Huang, Tengchao Lv, Lei Cui, Qifeng Chen, Furu Wei
Última atualização: 2023-10-30 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.10855
Fonte PDF: https://arxiv.org/pdf/2305.10855
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://aka.ms/textdiffuser
- https://www.themoviedb.org/
- https://www.themoviedb.org/documentation/api
- https://openlibrary.org/dev/docs/api/covers
- https://learn.microsoft.com/en-us/azure/cognitive-services/computer-vision/how-to/call-read-api
- https://dreamstudio.ai/generate
- https://www.midjourney.com/app/
- https://github.com/Belval/TextRecognitionDataGenerator
- https://github.com/mseitzer/pytorch-fid/
- https://github.com/jmhessel/clipscore/
- https://openai.com/product/dall-e-2
- https://beta.dreamstudio.ai/generate
- https://www.midjourney.com/