Stereotypen in Text-zu-Bild-Modellen angehen
Neuer Datensatz hebt das Stereotypenproblem in Bildgenerierungsmodellen hervor.
― 7 min Lesedauer
Inhaltsverzeichnis
- Die Bedeutung der Stereotypenbewertung
- ViSAGe-Datensatz
- Analyse der T2I-Modelle
- Methodologie
- Prozess der menschlichen Annotation
- Annotation von Bildern
- Stereotypen in generierten Bildern
- Reflexion bekannter Stereotypen
- Stereotypische Darstellung
- Anstössige Darstellungen
- Automatisierte Methoden zur Stereotypenerkennung
- Stereotypischer Zug in der Bilderzeugung
- Stereotypischer Zug über Identitäten hinweg
- Zukünftige Arbeiten und Überlegungen
- Fazit
- Originalquelle
- Referenz Links
Text-zu-Bild (T2I) Modelle können Bilder basierend auf geschriebenen Beschreibungen erstellen. Kürzlich wurde festgestellt, dass diese Modelle oft soziale Stereotypen, die in der realen Welt gesehen werden, wiederholen. Viele aktuelle Studien berücksichtigen jedoch nicht eine breite Palette globaler Identitäten und ihrer zugehörigen Stereotypen. Dieser Artikel stellt einen Datensatz namens ViSAGe (Visuelle Stereotypen weltweit) vor. Dieser Datensatz hilft dabei, Stereotypen basierend auf Nationalität mithilfe von 135 verschiedenen nationalen Identitäten zu bewerten.
Die Bedeutung der Stereotypenbewertung
Es besteht Bedarf an einer sorgfältigen Bewertung von Stereotypen in T2I-Modellen. Die bestehenden Systeme übersehen oft globale Identitätsgruppen. Einige Forschungen haben sich die Stereotypen in westlichen Kontexten angesehen, wobei der Fokus hauptsächlich auf den USA lag. Im Gegensatz dazu wird die Nutzung dieser Modelle global, daher ist es wichtig, Bewertungen zu erstellen, die verschiedene Identitäten einbeziehen.
ViSAGe-Datensatz
Der ViSAGe-Datensatz zielt darauf ab, diese Lücke zu schliessen. Er verbessert frühere Datensätze, indem er festhält, welche Stereotypen visuell in Bildern dargestellt werden können und welche nicht. Zum Beispiel könnten klare Bilder von Attributen wie "Sombrero" erstellt werden, während abstrakte Ideen wie "attraktiv" schwerer visuell darzustellen sind. Durch die Analyse dieses Datensatzes haben wir untersucht, wie T2I-Modelle regionale Stereotypen durch verschiedene Bewertungen widerspiegeln.
Analyse der T2I-Modelle
Wir haben festgestellt, dass Attribute, die mit Stereotypen verbunden sind, viel häufiger in den von T2I-Modellen generierten Bildern auftreten als andere Attribute. Besonders Bilder, die mit Identitäten aus Afrika, Südamerika und Südostasien verbunden sind, zeigen ein höheres Mass an anstössigem Inhalt. Diese Untersuchung zeigt eine Tendenz der Modelle, Bilder zu erstellen, die zu bekannten Stereotypen neigen, selbst wenn sie aufgefordert werden, neutrale oder vielfältige Inhalte zu schaffen.
Methodologie
Um die Ausgaben der T2I-Modelle auf Stereotypen zu bewerten, haben wir zunächst eine Liste von 385 Attributen erstellt. Dieser Prozess umfasste die Analyse von über 2000 einzigartigen Attributen in einem früheren Datensatz. Menschliche Annotatoren wurden rekrutiert, um zu bestimmen, welche dieser Attribute visuell dargestellt werden konnten. Die Annotatoren verwendeten eine Likert-Skala, um ihr Vertrauen in die Identifizierung der Stereotypen basierend auf ihrer visuellen Natur zu bewerten.
Prozess der menschlichen Annotation
Die Annotatoren erhielten eine Liste von Attributen und mussten bestimmen, ob jedes Attribut in einem Bild dargestellt werden konnte. Sie bewerteten ihre Zustimmung auf einer Skala von "stimme voll zu" bis "stimme überhaupt nicht zu." Ihr Ziel war es, herauszufinden, welche Attribute leicht in Bildern gezeigt werden konnten und welche nicht.
Nach gründlicher Analyse behielten wir nur die Attribute, bei denen sich alle Annotatoren einig waren, dass sie visuell dargestellt werden könnten. Diese Auswahl führte zu einer finalen Liste von 385 Attributen, die uns helfen kann, zu verstehen, wie Stereotypen in generierten Bildern erscheinen.
Annotation von Bildern
Als Nächstes wurden die generierten Bilder bewertet. Für jede Identitätsgruppe wurde eine Sammlung von Bildern erstellt, die auf den identifizierten Attributen basierten. Diese Bilder wurden den Annotatoren gezeigt, die nach der Präsenz sowohl stereotypischer als auch zufälliger Attribute in jedem Bild suchten.
Die Annotatoren wählten nicht nur die Attribute aus, von denen sie dachten, dass sie vorhanden waren, sondern markierten auch spezifische Bereiche in den Bildern, die ihre Entscheidungen unterstützten. Insgesamt bearbeiteten wir etwa 40.000 Bild-Attribut-Paare über mehrere Identitätsgruppen hinweg.
Stereotypen in generierten Bildern
Durch diesen Bewertungsprozess haben wir versucht, einige zentrale Fragen zu beantworten:
- Spiegeln die von T2I-Modellen erstellten Bilder bekannte Stereotypen wider?
- Werden bestimmte Identitätsgruppen stereotypischer dargestellt als andere?
- Wie anstössig sind die Darstellungen für verschiedene Identitätsgruppen?
Reflexion bekannter Stereotypen
Basierend auf der Bewertung haben wir festgestellt, dass viele generierte Bilder tatsächlich allgemein anerkannte Stereotypen widerspiegeln. Zum Beispiel waren bestimmte Attribute konstant mit spezifischen Identitätsgruppen verbunden. Diese Verbindung wurde durch Annotationen bestätigt, die Attribute wiedergaben, die in Stereotypen-Datensätzen bekannt sind.
Stereotypische Darstellung
Die Ergebnisse zeigten, dass Bilder bestimmter Identitätsgruppen viel wahrscheinlicher stereotypische Attribute enthielten als zufällig ausgewählte. Darüber hinaus ergab die Analyse, dass die generativen Modelle oft zu stereotypischen Darstellungen tendierten, selbst wenn sie anders instruiert wurden.
Anstössige Darstellungen
Wir haben auch untersucht, wie anstössig bestimmte Darstellungen waren. Anstössige Attribute wurden basierend auf vorherigen Studien bewertet. Die Bilder, die mit einigen Identitätsgruppen verbunden waren, wurden als anstössiger beobachtet als die, die andere repräsentierten. Identitätsgruppen aus Afrika und Südamerika erhielten oft höhere anstössige Bewertungen im Vergleich zu Gruppen aus wohlhabenderen Regionen wie Skandinavien.
Automatisierte Methoden zur Stereotypenerkennung
Technologie zur Erkennung von Stereotypen kann Zeit und Ressourcen sparen. Wir haben ein vorhandenes Bildbeschriftungstool verwendet, um Beschriftungen für die Bilder zu generieren. Das Ziel war es, zu identifizieren, ob die Beschriftungen mit den bekannten visuellen Stereotypen, die wir zuvor identifiziert hatten, übereinstimmten.
Die Methode erlaubte es uns zu untersuchen, wie gut automatisierte Werkzeuge diese Stereotypen erkennen konnten. Als wir visuelle Attribute zur Anleitung der Bewertung verwendeten, waren die Ergebnisse genauer in der Identifizierung der Stereotypen im Vergleich dazu, wenn wir uns auf allgemeine Attribute verliessen, die schwieriger visuell darzustellen waren.
Stereotypischer Zug in der Bilderzeugung
Eine wichtige Erkenntnis war der "stereotypische Zug". Dieser Begriff beschreibt die Tendenz von T2I-Modellen, zu stereotypischen Darstellungen zurückzukehren, selbst wenn sie gebeten wurden, Bilder basierend auf neutralen oder nicht-stereotypischen Hinweisen zu erstellen. Das zeigt, dass die Vorurteile in den Trainingsdaten weiterhin erheblich die generierten Bilder beeinflussen.
Stereotypischer Zug über Identitäten hinweg
Die Analyse verschiedener Identitätsgruppen zeigte, dass viele dazu neigen, eine höhere Ähnlichkeit mit stereotypischen Darstellungen zu zeigen. Durch den Vergleich der Standarddarstellungen von Identitätsgruppen mit stereotypischen und nicht-stereotypischen Bildern konnten wir diesen Zug messen.
Die Ergebnisse bestätigten, dass für die Mehrheit der Identitätsgruppen die standardmässig generierten Bilder ähnlicher zu stereotypischen Bildern waren. Darüber hinaus war diese Ähnlichkeit für Identitätsgruppen im Globalen Süden sogar noch höher, was auf einen Mangel an Vielfalt in den visuellen Darstellungen hindeutet.
Zukünftige Arbeiten und Überlegungen
Diese Studie hebt die Notwendigkeit einer fortlaufenden Bewertung von Stereotypen in T2I-Modellen hervor. Obwohl unser Datensatz eine signifikante Anzahl visueller Stereotypen abdeckt, bleibt der Prozess der Identifizierung der subjektiven Natur von Attributen eine Herausforderung. Weitere Forschungen sollten darauf abzielen, mehr vielfältige Stereotypen aus einer Vielzahl von Regionen einzubeziehen.
Ein weiterer wichtiger Aspekt sind die ethischen Überlegungen zu Stereotypen und Repräsentation. Die Bewertung visueller Darstellungen allein auf der Grundlage geografischer Identität kann die komplexe Natur von Identität übervereinfachen. Zukünftige Forschung sollte darum bemüht sein, den Fokus zu erweitern, um auch andere Elemente wie Rasse und Geschlecht in Bezug auf Stereotypen einzubeziehen.
Fazit
Die Bewertung von T2I-Modellen zeigt einen klaren Trend, bei dem Stereotypen nicht nur vorhanden sind, sondern oft durch generierte Bilder verstärkt werden. Der ViSAGe-Datensatz dient als nützliches Werkzeug, um diese Muster zu verstehen und kann helfen, die Repräsentation verschiedener Identitätsgruppen in der visuellen Inhaltserzeugung zu verbessern. Die identifizierten Stereotypen und Ergebnisse dieser Arbeit werden hoffentlich zur zukünftigen Forschung beitragen, die darauf abzielt, Vorurteile in generativen Bildmodellen zu adressieren.
Indem wir das Bewusstsein für diese Themen schärfen, hoffen wir, inklusivere Praktiken in der Entwicklung und Schulung von T2I-Modellen zu fördern. Dies kann zu einer genaueren Darstellung vielfältiger Identitäten führen und sich von schädlichen Stereotypen entfernen, die Kulturen und Gemeinschaften falsch darstellen. Diese Arbeit fortzusetzen ist entscheidend, um Fairness und Repräsentation in KI-generierten visuellen Inhalten zu fördern.
Titel: ViSAGe: A Global-Scale Analysis of Visual Stereotypes in Text-to-Image Generation
Zusammenfassung: Recent studies have shown that Text-to-Image (T2I) model generations can reflect social stereotypes present in the real world. However, existing approaches for evaluating stereotypes have a noticeable lack of coverage of global identity groups and their associated stereotypes. To address this gap, we introduce the ViSAGe (Visual Stereotypes Around the Globe) dataset to enable the evaluation of known nationality-based stereotypes in T2I models, across 135 nationalities. We enrich an existing textual stereotype resource by distinguishing between stereotypical associations that are more likely to have visual depictions, such as `sombrero', from those that are less visually concrete, such as 'attractive'. We demonstrate ViSAGe's utility through a multi-faceted evaluation of T2I generations. First, we show that stereotypical attributes in ViSAGe are thrice as likely to be present in generated images of corresponding identities as compared to other attributes, and that the offensiveness of these depictions is especially higher for identities from Africa, South America, and South East Asia. Second, we assess the stereotypical pull of visual depictions of identity groups, which reveals how the 'default' representations of all identity groups in ViSAGe have a pull towards stereotypical depictions, and that this pull is even more prominent for identity groups from the Global South. CONTENT WARNING: Some examples contain offensive stereotypes.
Autoren: Akshita Jha, Vinodkumar Prabhakaran, Remi Denton, Sarah Laszlo, Shachi Dave, Rida Qadri, Chandan K. Reddy, Sunipa Dev
Letzte Aktualisierung: 2024-07-14 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2401.06310
Quell-PDF: https://arxiv.org/pdf/2401.06310
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.