Experiencias de usuarios con generadores de texto a imagen
Un estudio revela brechas en la representación de usuarios marginados de Stable Diffusion.
― 8 minilectura
Tabla de contenidos
En los últimos años, los generadores de texto a imagen (T2Is) se han vuelto más populares. Estas herramientas toman indicaciones escritas de los usuarios y crean imágenes basadas en esas palabras. Un ejemplo notable es Stable Diffusion, que ha llamado mucho la atención por su capacidad de crear imágenes detalladas rápidamente. Sin embargo, ha habido preocupaciones sobre cómo estas herramientas pueden reflejar y amplificar los sesgos presentes en la sociedad. Muchos investigadores se han centrado en los aspectos técnicos de estas herramientas, pero se ha prestado menos atención a las experiencias de los usuarios reales. Esta brecha en la investigación es importante porque los usuarios pueden encontrarse con representaciones dañinas al usar estos sistemas.
Experiencias de los Usuarios con T2Is
Para entender cómo se sienten los usuarios sobre las imágenes generadas por Stable Diffusion, se realizó un estudio que involucró a una variedad de personas de diferentes orígenes. Los investigadores recopilaron datos de 133 individuos a través de una plataforma en línea y también entrevistaron a 14 usuarios sobre sus experiencias. El objetivo era evaluar si las imágenes creadas por Stable Diffusion coincidían con las expectativas de los usuarios, especialmente en relación a sus identidades.
Los hallazgos revelaron una desconexión significativa entre lo que los usuarios esperaban ver y lo que el modelo producía. Muchos participantes expresaron frustración, ya que las imágenes generadas a menudo no los representaban con precisión. Esto fue especialmente preocupante para individuos con identidades marginadas, quienes informaron sentirse deshumanizados o estereotipados por los resultados.
Entendiendo los Daños Representacionales
Al discutir los sesgos en la generación de imágenes, es esencial mirar el concepto de daños representacionales. Estos daños se pueden dividir en dos categorías principales: daños allocacionales y daños representacionales. Los daños allocacionales ocurren cuando ciertos grupos son negados el acceso a recursos u oportunidades. Los daños representacionales suceden cuando las imágenes o descripciones de estos grupos son inexactas o injustas, llevando a estereotipos negativos.
Los daños representacionales incluyen:
- Estereotipos: La tendencia a retratar algunos grupos de manera limitada o negativa basada en nociones preconcebidas.
- Desprestigio: Sugerir que ciertas identidades son menos valiosas o importantes que otras.
- Deshumanización: Tratar a grupos específicos como menos que humanos, reduciéndolos a estereotipos negativos.
- Borrado: No representar ciertas identidades en absoluto, lo que lleva a la invisibilidad.
- Calidad del Servicio: Proporcionar resultados desiguales para diferentes grupos, mostrando favoritismo hacia algunos mientras se margina a otros.
Estos daños afectan de manera desproporcionada a las poblaciones tradicionalmente marginadas. El estudio encontró que los usuarios a menudo encontraban estos problemas al interactuar con Stable Diffusion.
El Enfoque del Estudio
La investigación involucró un enfoque en dos partes. Primero, se recopilaron datos de 133 participantes utilizando un método llamado "Clasificación Diamante." Este enfoque permitió a los usuarios evaluar 50 imágenes generadas por Stable Diffusion basadas en indicaciones como "una persona" o "una persona de un país específico." Los participantes clasificaron las imágenes según cuán cercanas estaban a sus expectativas.
En segundo lugar, se realizaron entrevistas con 14 usuarios que tenían experiencia con Stable Diffusion. Estas discusiones proporcionaron valiosos conocimientos sobre cómo los usuarios se sentían acerca de los resultados, especialmente en relación a sus identidades personales. Los participantes expresaron decepción cuando las imágenes no reflejaban sus apariencias o antecedentes culturales con precisión.
Hallazgos Clave
Brechas entre Expectativa y Realidad
Uno de los hallazgos principales fue una marcada brecha entre las expectativas de los usuarios y las imágenes reales producidas por Stable Diffusion. Muchos usuarios tenían ideas específicas sobre lo que esperaban ver basadas en sus identidades, pero los resultados a menudo no cumplían. Por ejemplo, cuando los usuarios solicitaban imágenes de "una persona" o "una persona de su país," los resultados generados frecuentemente mostraban un rango limitado de características.
Esta desconexión fue más evidente en las imágenes generadas para varios indicaciones. Mientras que los usuarios anticipaban una mezcla de géneros y etnias, los resultados a menudo se inclinaban hacia una representación limitada, con muchas imágenes mostrando individuos de piel clara o retratando características estereotipadas.
Experiencias de Subrepresentación
Los usuarios con identidades marginadas informaron sentirse subrepresentados en los resultados. Por ejemplo, mujeres e individuos no binarios notaron frecuentemente la falta de imágenes que reflejaran con precisión sus identidades. Participantes de países como Argentina y Canadá expresaron decepción por cómo se representaban sus nacionalidades. Señalaron que las imágenes no reflejaban la diversidad moderna, sino que se inclinaban hacia estereotipos desactualizados.
Además, individuos de países del sur de Asia compartieron sus experiencias de ser retratados como empobrecidos o rurales, lo que no se alineaba con sus estilos de vida urbanos o variados. Este patrón de homogenización fue preocupante para muchos usuarios, resaltando las limitaciones de Stable Diffusion para captar la rica diversidad de experiencias humanas.
Estereotipos y Deshumanización
Varios participantes expresaron preocupación por cómo se presentaban sus identidades. Muchos notaron que las imágenes a menudo reforzaban estereotipos, llevando a sentimientos de desprestigio. Los usuarios informaron sentir que sus identidades se reducían a representaciones simplistas o negativas. Por ejemplo, las imágenes de mujeres de países latinoamericanos a menudo se inclinaban hacia la sexualización, lo que llevó a sentimientos de enojo y frustración entre los participantes.
Los usuarios no binarios también sintieron que sus identidades estaban mal representadas. Señalaron que los resultados a menudo retrataban a individuos no binarios de una manera que implicaba que eran simplemente una variación de la feminidad. Esta representación perpetuó la idea de que las personas no binarias debían encajar en estereotipos específicos, lo que puede ser dañino.
Recomendaciones para la Mejora
Dado los hallazgos del estudio, es evidente que los T2Is como Stable Diffusion necesitan pasar por cambios significativos para mejorar la experiencia del usuario. Aquí hay algunas sugerencias para abordar los problemas identificados:
Enfocarse en un Diseño Inclusivo: Los desarrolladores deberían priorizar una representación diversa en los datos de entrenamiento para asegurar que una amplia gama de identidades se refleje en los resultados. Esto significa ir más allá de una concepción limitada de la humanidad para incluir múltiples géneros, etnias y antecedentes.
Involucramiento Continuo de Usuarios: Involucrar a los usuarios en el proceso de diseño desde el principio puede ayudar a identificar problemas potenciales temprano. Los desarrolladores deberían buscar retroalimentación de una amplia gama de participantes para aprender sobre sus perspectivas y expectativas.
Diseño Consciente del Daño: Se debería adoptar un enfoque consciente del daño, enfatizando la importancia de minimizar el daño durante la fase de diseño. Esto implica reconocer las implicaciones sociales de las imágenes generadas y trabajar activamente para reducir la probabilidad de perpetuar estereotipos dañinos.
Revisión Ética y Supervisión: Integrar éticos en el equipo de diseño puede ayudar a asegurar que se aborden consideraciones éticas durante todo el proceso de desarrollo. Estos profesionales pueden ofrecer perspectivas sobre cómo las decisiones de diseño pueden impactar a diferentes comunidades.
Pruebas Iterativas y Ciclos de Retroalimentación: Después de la implementación, el monitoreo continuo y las pruebas pueden ayudar a identificar áreas de mejora. Recoger retroalimentación de los usuarios después de que la herramienta ha sido utilizada en situaciones del mundo real puede iluminar más problemas y oportunidades de refinamiento.
Conclusión
El auge de los T2Is, particularmente Stable Diffusion, presenta posibilidades fascinantes para la creatividad y la expresión. Sin embargo, como se destaca en este estudio, existen desafíos significativos asociados con la representación y el sesgo en los resultados generados por estas herramientas. Las experiencias de los usuarios revelan una preocupante brecha entre expectativas y realidad, particularmente para identidades marginadas.
Es crucial que los desarrolladores e investigadores tomen estas preocupaciones en serio y se esfuercen por mejoras que prioricen prácticas de diseño inclusivas y éticas. Al enfocarse en las necesidades y perspectivas de los usuarios, los T2Is pueden reflejar mejor la diversidad de experiencias humanas y evitar perpetuar estereotipos dañinos. Hacia adelante, enfoques conscientes del daño en el diseño y la participación continua de los usuarios pueden ayudar a asegurar que estas tecnologías sirvan a todas las personas, en lugar de reforzar sesgos existentes.
Título: "I don't see myself represented here at all": User Experiences of Stable Diffusion Outputs Containing Representational Harms across Gender Identities and Nationalities
Resumen: Though research into text-to-image generators (T2Is) such as Stable Diffusion has demonstrated their amplification of societal biases and potentials to cause harm, such research has primarily relied on computational methods instead of seeking information from real users who experience harm, which is a significant knowledge gap. In this paper, we conduct the largest human subjects study of Stable Diffusion, with a combination of crowdsourced data from 133 crowdworkers and 14 semi-structured interviews across diverse countries and genders. Through a mixed-methods approach of intra-set cosine similarity hierarchies (i.e., comparing multiple Stable Diffusion outputs for the same prompt with each other to examine which result is 'closest' to the prompt) and qualitative thematic analysis, we first demonstrate a large disconnect between user expectations for Stable Diffusion outputs with those generated, evidenced by a set of Stable Diffusion renditions of `a Person' providing images far away from such expectations. We then extend this finding of general dissatisfaction into highlighting representational harms caused by Stable Diffusion upon our subjects, especially those with traditionally marginalized identities, subjecting them to incorrect and often dehumanizing stereotypes about their identities. We provide recommendations for a harm-aware approach to (re)design future versions of Stable Diffusion and other T2Is.
Autores: Sourojit Ghosh, Nina Lutz, Aylin Caliskan
Última actualización: 2024-08-02 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2408.01594
Fuente PDF: https://arxiv.org/pdf/2408.01594
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.