Mejorando la edición de texto en imágenes con diseño de doble codificador
Un nuevo método mejora la edición de texto en imágenes usando un enfoque de doble codificador.
― 7 minilectura
Tabla de contenidos
Editar texto en imágenes es un trabajo difícil. Requiere que cambiemos, añadamos o eliminemos palabras de una manera que se vea fluida y natural en la imagen. Muchos métodos pasados usaban herramientas de edición de imágenes que se centraban en mover Estilos de una parte de la imagen a otra. A menudo recortaban el texto y luego intentaban volver a colocarlo después de cambiar su estilo. Desafortunadamente, estos métodos tienen sus límites. No pueden manejar fácilmente diferentes estilos de texto o colocar texto en nuevas ubicaciones.
Recientemente, nuevos métodos llamados modelos de difusión han demostrado que pueden hacerlo mejor. Pueden generar imágenes que se ven reales basadas en descripciones de texto. Sin embargo, estos modelos aún tienen problemas cuando se trata de crear el texto y el estilo correctos para editar escenas con texto.
Para mejorar esto, sugerimos un nuevo diseño usando dos codificadores separados, que llamamos un codificador dual. Un codificador se centrará en las letras reales para asegurarse de que sean claras, mientras que el otro se centrará en las instrucciones para ayudar a controlar el estilo. Este diseño nos permite enseñar al modelo cómo convertir Instrucciones de texto en imágenes mientras mantenemos el estilo consistente con el texto que ya está en la imagen.
Usando este enfoque, nuestro método puede manejar varias situaciones, como crear texto en fuentes que el modelo nunca ha visto antes, combinar fuentes para crear un nuevo estilo y responder a instrucciones en lenguaje cotidiano.
Métodos
Diseño de Codificador Dual
Nuestro método utiliza una estructura de codificador dual. El primer codificador está diseñado para entender la información de los caracteres de manera precisa. Esto ayuda al modelo a reconocer la ortografía y la longitud del texto que necesita generar. El segundo codificador se centra en las instrucciones, que guían al modelo sobre cómo crear el texto en el estilo deseado.
Este proceso funciona dividiendo primero el texto de entrada en partes de caracteres y analizándolas. Luego, el modelo presta atención a estos detalles mientras también considera las instrucciones dadas para el estilo del texto. Al combinar estas dos piezas de información, el modelo puede generar texto que se vea natural y se ajuste bien a la imagen existente.
Marco de Ajuste de Instrucciones
El siguiente paso es enseñar a nuestro modelo cómo interpretar las instrucciones de manera efectiva. Para hacer esto, creamos un Conjunto de datos de entrenamiento que incluye ejemplos de instrucciones de texto junto con imágenes que muestran dónde debería colocarse el texto. Cada ejemplo consta de tres partes: la instrucción que dice qué texto generar, una imagen enmascarada donde se debe colocar el texto y la imagen real que representa el resultado correcto.
Diseñamos el proceso de entrenamiento para que el modelo aprenda a minimizar la diferencia entre las imágenes generadas y las imágenes reales. Esto ayuda al modelo a mejorar su precisión ortográfica y asegura que siga las instrucciones de estilo correctamente.
Creando un Conjunto de Datos Sintético
Para construir nuestro conjunto de datos sintético, seleccionamos palabras al azar y las emparejamos con diferentes colores y fuentes. Se utiliza un motor de renderizado para crear imágenes con estas palabras en sus estilos especificados. Después de colocar estos textos renderizados sobre imágenes de fondo, enmascaramos una palabra para crear entradas para el modelo.
Creamos instrucciones en diferentes categorías: algunas especifican color y fuente, mientras que otras especifican una o ninguna. Esto permite que el modelo infiera la información faltante de otros textos cercanos en el fondo.
Uso de Conjuntos de Datos del Mundo Real
Además de los datos sintéticos, también incluimos conjuntos de datos del mundo real para ayudar al modelo a generalizar mejor. Estos conjuntos de datos proporcionan imágenes con cuadros delimitadores para el texto, pero no incluyen información sobre el estilo. Por lo tanto, solo generamos instrucciones que se centran en qué texto producir sin especificar ningún estilo.
Resultados
Método de Evaluación
Para ver qué tan bien funciona nuestro método, lo comparamos con otras técnicas líderes tanto en configuraciones sin estilo como en configuraciones condicionales al estilo. En la configuración sin estilo, nuestro enfoque está en qué tan precisa es la generación del texto y qué tan naturales se ven las imágenes. En la configuración condicional al estilo, evaluamos qué tan bien el texto generado coincide con los estilos especificados.
Observamos varias métricas, incluyendo la corrección del texto, la naturalidad de la imagen y la corrección del estilo para fuente y color.
Generación Sin Estilo
En escenarios donde no se solicitan estilos específicos, nuestro método produce consistentemente mejores resultados que los demás. Por ejemplo, al comparar con un modelo de referencia líder, nuestro método demuestra mejoras significativas en la precisión del texto y la calidad de la imagen. Los usuarios encuentran que nuestra generación de texto es más clara y se alinea mejor con el contexto circundante, haciéndolo visualmente atractivo.
Generación Condicional al Estilo
Cuando se requieren estilos específicos, nuestro método nuevamente supera a la competencia. Logra los mejores resultados en términos de corrección de fuente y color a través de varios conjuntos de datos. Mientras que otros métodos podrían utilizar imágenes de referencia para la guía de estilo, nuestro modelo se basa únicamente en las instrucciones proporcionadas, demostrando su efectividad para entender y generar la salida deseada.
Hallazgos Adicionales
Combinación de Fuentes Sin Entrenamiento
Nuestro método también puede crear estilos de texto completamente nuevos combinando fuentes existentes. Esta capacidad permite a los usuarios especificar instrucciones para generar texto en formatos no vistos, como cursiva o negrita. Aunque el modelo no ha encontrado estos estilos durante el entrenamiento, puede generalizar y producir texto con el estilo adecuado, demostrando su flexibilidad.
Instrucciones en Lenguaje Natural
Un aspecto emocionante de nuestro modelo es su capacidad para aceptar instrucciones de lenguaje diario más naturales. Incluso con frases simples, el modelo puede entender y generar texto en los estilos deseados de manera efectiva. Esto reduce la barrera para usuarios no expertos, haciendo que el sistema sea más intuitivo y accesible para aplicaciones prácticas.
Máscaras de Formas Arbitrarias
Nuestro método también muestra habilidad para generar texto dentro de formas arbitrarias. La capacidad para llenar texto en formas de máscara no estándar añade otra capa de versatilidad, permitiendo a los usuarios trabajar fácilmente con diseños complejos.
Conclusión
En resumen, proponemos un enfoque innovador que mejora significativamente los modelos existentes para la edición de texto en escenas. A través de nuestro diseño de codificador dual y el marco de ajuste de instrucciones, habilitamos la generación de texto que es precisa, natural y estilísticamente coherente.
Nuestro método no solo destaca en configuraciones convencionales, sino que también demuestra la capacidad de generalizar bien a nuevos estilos e instrucciones en lenguaje natural, allanando el camino para aplicaciones más amplias en diversas áreas.
Título: Improving Diffusion Models for Scene Text Editing with Dual Encoders
Resumen: Scene text editing is a challenging task that involves modifying or inserting specified texts in an image while maintaining its natural and realistic appearance. Most previous approaches to this task rely on style-transfer models that crop out text regions and feed them into image transfer models, such as GANs. However, these methods are limited in their ability to change text style and are unable to insert texts into images. Recent advances in diffusion models have shown promise in overcoming these limitations with text-conditional image editing. However, our empirical analysis reveals that state-of-the-art diffusion models struggle with rendering correct text and controlling text style. To address these problems, we propose DIFFSTE to improve pre-trained diffusion models with a dual encoder design, which includes a character encoder for better text legibility and an instruction encoder for better style control. An instruction tuning framework is introduced to train our model to learn the mapping from the text instruction to the corresponding image with either the specified style or the style of the surrounding texts in the background. Such a training method further brings our method the zero-shot generalization ability to the following three scenarios: generating text with unseen font variation, e.g., italic and bold, mixing different fonts to construct a new font, and using more relaxed forms of natural language as the instructions to guide the generation task. We evaluate our approach on five datasets and demonstrate its superior performance in terms of text correctness, image naturalness, and style controllability. Our code is publicly available. https://github.com/UCSB-NLP-Chang/DiffSTE
Autores: Jiabao Ji, Guanhua Zhang, Zhaowen Wang, Bairu Hou, Zhifei Zhang, Brian Price, Shiyu Chang
Última actualización: 2023-04-11 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2304.05568
Fuente PDF: https://arxiv.org/pdf/2304.05568
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.