Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones# Inteligencia artificial# Bases de datos

Evaluando la Calidad de Imagen a Través de Preferencias Humanas

Un nuevo conjunto de datos y modelo de puntuación se centra en los gustos humanos en la generación de imágenes.

― 6 minilectura


Preferencias humanas enPreferencias humanas enla evaluación de imágenesla calidad de imagen en IA.Nuevos métodos mejoran la evaluación de
Tabla de contenidos

Recientemente, los modelos que crean imágenes a partir de texto han avanzado un montón. Estos modelos pueden producir imágenes de alta calidad basadas en descripciones escritas. Sin embargo, muchos de los métodos que se usan para evaluar estas imágenes no reflejan realmente lo que prefieren las personas. Ahí es donde entra el Human Preference Score v2. Esta nueva herramienta ayuda a evaluar qué tan bien las imágenes generadas a partir de texto coinciden con lo que realmente le gusta a la gente.

¿Qué es el Human Preference Dataset v2?

El Human Preference Dataset v2 (HPD v2) es una gran colección de datos diseñada para medir las preferencias humanas por las imágenes. Incluye más de 798,000 elecciones hechas por personas sobre imágenes generadas a partir de varios prompts. Este conjunto de datos se destaca porque es el más grande de su tipo, proporcionando una visión integral de cómo percibe la gente la calidad de las imágenes.

Para crear el HPD v2, se recopilaron imágenes de muchas fuentes. Se tuvo cuidado de asegurar que los prompts y las imágenes no favorecieran un estilo o tipo de imagen sobre otro. Esto reduce el sesgo, que a menudo puede distorsionar los resultados en otros conjuntos de datos.

¿Por qué es importante la preferencia humana?

Entender lo que la gente prefiere en las imágenes es crucial. Los métodos tradicionales de medir la calidad de las imágenes a menudo no se alinean con las opiniones humanas. Herramientas como Inception Score y Fréchet Inception Distance se han usado mucho, pero no siempre coinciden con cómo se siente la gente sobre ciertas imágenes. Al enfocarnos en las preferencias humanas, podemos desarrollar mejores modelos que creen imágenes que a la gente le resulten atractivas.

¿Cómo se recopila el HPD v2?

El HPD v2 se recolecta de diferentes modelos que generan imágenes a partir de texto. El conjunto de datos incluye imágenes creadas a partir de prompts de dos áreas principales: imágenes realistas del conjunto de datos COCO Captions y prompts más imaginativos de DiffusionDB.

Una característica única de este conjunto de datos es su atención a los posibles sesgos en las imágenes y los prompts. Por ejemplo, muchos conjuntos de datos anteriores se enfocaron solo en imágenes de modelos específicos, lo que podría limitar qué tan bien funcionarían con otros tipos de imágenes. El HPD v2 incluye imágenes de nueve modelos diferentes de texto a imagen e incorpora imágenes reales del conjunto de datos COCO Captions.

Limpiando los prompts

Un desafío en la recolección de estos datos fueron los propios prompts. Muchos prompts escritos por usuarios a menudo contenían palabras de estilo específicas que podían causar confusión. Estas palabras podrían no alinearse con el contenido principal de la imagen, llevando a un sesgo en cómo se clasificaron las imágenes.

Para abordar esto, se implementó un proceso de limpieza usando ChatGPT. Este proceso ayudó a refinar los prompts, haciéndolos más claros y fáciles de entender para los anotadores, lo que mejoró la calidad del conjunto de datos.

Entendiendo el Human Preference Score v2

Una vez que se ensambló el conjunto de datos, el siguiente paso fue crear un modelo de puntuación conocido como Human Preference Score v2 (HPS v2). Este modelo fue entrenado usando los datos del HPD v2 para predecir qué tan probable sería que alguien prefiriera una imagen sobre otra.

HPS v2 funciona evaluando pares de imágenes generadas a partir del mismo prompt de texto. Estima qué imagen preferirían las personas. El entrenamiento del modelo involucró optimizar su comprensión de las preferencias humanas contra el conjunto de datos recopilado.

Evaluación de HPS v2

Para validar qué tan bien funciona HPS v2, se realizaron varios experimentos. Estas pruebas mostraron que HPS v2 es más efectivo que los métodos de puntuación anteriores, proporcionando resultados más confiables que coinciden bien con las opiniones humanas sobre la calidad de las imágenes.

Además, se probaron varios prompts para asegurarse de que produjeran evaluaciones estables y justas. Esto ayuda a proporcionar una comprensión completa de las capacidades de un modelo sin introducir sesgo.

El proceso de benchmarking

Se estableció un nuevo benchmark usando HPS v2, que permite comparar varios modelos de generación de texto a imagen. Al evaluar modelos usando prompts claros y sin sesgos, es posible ver mejor cuáles modelos funcionan bien y cuáles no.

El benchmark incluye una variedad de modelos recientes de la academia y la industria. Esta comparación resalta las tendencias y diferencias entre modelos populares de la comunidad y aquellos de instituciones de investigación.

Sensibilidad a mejoras algorítmicas

HPS v2 no es solo una herramienta para evaluar imágenes, sino que también es sensible a las mejoras en los algoritmos subyacentes utilizados en la generación de texto a imagen. Al probar diferentes técnicas y configuraciones, se demostró que HPS v2 puede medir efectivamente el impacto de estos cambios.

Por ejemplo, los ajustes realizados en cómo se generan las imágenes pueden influir significativamente en la calidad percibida. HPS v2 puede rastrear estas mejoras, convirtiéndolo en una herramienta valiosa para guiar desarrollos futuros en el campo.

Conclusión

En resumen, el Human Preference Dataset v2 y el Human Preference Score v2 ofrecen un método avanzado para evaluar la calidad de las imágenes producidas por Modelos de texto a imagen. Este nuevo enfoque en la preferencia humana permite una mejor comprensión de lo que hace que una imagen sea atractiva.

La creación del conjunto de datos HPD v2, junto con HPS v2, ayuda a cerrar la brecha entre el juicio humano y el rendimiento algorítmico, lo que lleva a mejores técnicas de generación de imágenes en el futuro. A medida que el campo avanza, estas herramientas jugarán un papel crucial en guiar la investigación y mejorar las capacidades de generación de imágenes en varias aplicaciones.

Al concentrarse en las preferencias humanas, es posible crear modelos que no solo generen imágenes de alta calidad, sino que también resuenen con lo que la gente realmente quiere ver. Esto podría llevar a avances emocionantes en diseño, arte y creación de contenido, haciendo que la integración de la tecnología y los valores humanos sea aún más fluida.

Fuente original

Título: Human Preference Score v2: A Solid Benchmark for Evaluating Human Preferences of Text-to-Image Synthesis

Resumen: Recent text-to-image generative models can generate high-fidelity images from text inputs, but the quality of these generated images cannot be accurately evaluated by existing evaluation metrics. To address this issue, we introduce Human Preference Dataset v2 (HPD v2), a large-scale dataset that captures human preferences on images from a wide range of sources. HPD v2 comprises 798,090 human preference choices on 433,760 pairs of images, making it the largest dataset of its kind. The text prompts and images are deliberately collected to eliminate potential bias, which is a common issue in previous datasets. By fine-tuning CLIP on HPD v2, we obtain Human Preference Score v2 (HPS v2), a scoring model that can more accurately predict human preferences on generated images. Our experiments demonstrate that HPS v2 generalizes better than previous metrics across various image distributions and is responsive to algorithmic improvements of text-to-image generative models, making it a preferable evaluation metric for these models. We also investigate the design of the evaluation prompts for text-to-image generative models, to make the evaluation stable, fair and easy-to-use. Finally, we establish a benchmark for text-to-image generative models using HPS v2, which includes a set of recent text-to-image models from the academic, community and industry. The code and dataset is available at https://github.com/tgxs002/HPSv2 .

Autores: Xiaoshi Wu, Yiming Hao, Keqiang Sun, Yixiong Chen, Feng Zhu, Rui Zhao, Hongsheng Li

Última actualización: 2023-09-25 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2306.09341

Fuente PDF: https://arxiv.org/pdf/2306.09341

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares