Kulturelle Darstellung in KI: Eine südasiatische Perspektive
Diese Studie bewertet, wie KI-Modelle südasiatische Kulturen darstellen.
― 5 min Lesedauer
Inhaltsverzeichnis
Diese Studie untersucht, wie Text-zu-Bild (T2I) Modelle, eine Art von künstlicher Intelligenz, Kulturen darstellen, insbesondere in Südasien. Der Fokus liegt auf den kulturellen Einschränkungen dieser Modelle und wie sie Vorurteile und soziale Ungleichheiten widerspiegeln können. Die Studie bezieht Menschen aus Pakistan, Indien und Bangladesch ein, um ihre Erfahrungen und Perspektiven zu den T2I-Modellausgaben zu verstehen.
Hintergrund
Text-zu-Bild-Modelle ermöglichen es Nutzern, realistische Bilder aus beschreibendem Text zu erstellen. Frühere Studien haben jedoch gezeigt, dass diese Modelle oft soziale Stereotypen reproduzieren und kulturelle Vorurteile verstärken. Diese Studie hat das Ziel, Einblicke aus südasianischen Gemeinschaften zu sammeln, um zu evaluieren, wie diese Modelle in ihrem kulturellen Kontext funktionieren. Durch den Fokus auf lokale Perspektiven möchte die Forschung spezifische Wege aufdecken, wie diese Modelle versagen können, südasianische Kulturen genau darzustellen.
Methodik
Um diese Forschung durchzuführen, hat das Team mit 36 Teilnehmern aus Pakistan, Indien und Bangladesch zusammengearbeitet. Die Teilnehmer wurden aufgrund ihres kulturellen Wissens und ihrer Erfahrungen im Zusammenhang mit Südasien ausgewählt. Sie nahmen an Fokusgruppen teil, um über kulturelle Darstellungen zu diskutieren, Feedback zu generierten Bildern zu geben und gemeinsam Eingabetexte für die T2I-Modelle zu erstellen.
Fokusgruppen
Die Studie wurde in zwei Teilen durchgeführt. In der ersten Fokusgruppe diskutierten die Teilnehmer, was sie als „gute“ und „schlechte“ kulturelle Darstellungen in den Medien betrachteten. Sie gaben auch Input dazu, wie T2I-Bilder bewertet werden sollten. Danach füllten sie eine Umfrage aus, in der sie Textvorschläge und kulturelle Elemente vorschlugen, die in die Modellentests einfliessen sollten.
Die zweite Fokusgruppe ermöglichte es den Teilnehmern, Bilder zu überprüfen, die aus ihren vorgeschlagenen Eingabetexten generiert wurden. Sie gaben Feedback dazu, wie gut die Bilder ihr Kulturelles Wissen und ihre Erwartungen repräsentierten. Die Diskussionen in diesen Fokusgruppen hoben verschiedene Wege hervor, wie die Modelle es versäumten, kulturelle Nuancen zu erfassen.
Datenanalyse
Alle Diskussionen wurden aufgezeichnet und transkribiert. Die Forscher identifizierten anschliessend Themen und Muster im Feedback der Teilnehmer und konzentrierten sich auf häufige Fehlermuster in den T2I-Modellen.
Ergebnisse
Die Studie zeigte drei Hauptfehlerquellen in T2I-Modellen hinsichtlich der kulturellen Darstellung Südasiens: das Versagen bei der Erkennung kultureller Subjekte, das Verstärken dominanter kultureller Standards und das Fortbestehen von Stereotypen.
Versagen bei der Erkennung kultureller Subjekte
Die Teilnehmer äusserten Frustration, wenn T2I-Modelle kulturell bedeutende Subjekte nicht genau darstellten. Zum Beispiel führten viele Eingaben zu bekannten südasianischen Persönlichkeiten und Wahrzeichen zu Bildern, die deren kulturelle Bedeutung nicht widerspiegelten. Die Teilnehmer stellten fest, dass die Modelle dazu neigten, westliche kulturelle Symbole besser zu erkennen als solche aus Südasien.
Verstärkung dominanter kultureller Standards
Die Teilnehmer wiesen darauf hin, dass T2I-Modelle oft auf westliche oder indische kulturelle Darstellungen zurückgriffen und die Vielfalt innerhalb südasianischer Kulturen ignorierten. Selbst wenn spezifische kulturelle Elemente in den Eingabetexten erwähnt wurden, spiegelten die generierten Bilder oft Stereotypen wider, die mit dominanten Kulturen assoziiert wurden, wie zum Beispiel Darstellungen Nordindiens, die für breitere südasianische Kontexte verwendet wurden.
Fortbestehen von Stereotypen
Die generierten Bilder reproduzierten manchmal schädliche Stereotypen, die mit südasianischen Kulturen verbunden sind. Die Teilnehmer hoben hervor, wie T2I-Modelle oft Menschen in einer Weise darstellten, die negative Narrative verstärkten, wie z.B. die Darstellung von Südasien als ausschliesslich arm oder exotisch. Dies stellte nicht nur die Vielfalt der Region falsch dar, sondern trug auch zu schädlichen Wahrnehmungen südasianischer Kulturen in breiteren Kontexten bei.
Diskussion
Diese Studie unterstreicht die Bedeutung, lokale Gemeinschaften in die Evaluierung von KI-Technologien einzubeziehen. Indem die Perspektiven von Menschen aus Südasien im Mittelpunkt stehen, wird aufgezeigt, wie T2I-Modelle bestehende kulturelle Vorurteile reproduzieren und Machtverhältnisse verstärken können. Die Ergebnisse weisen auf die Notwendigkeit einer verantwortungsvolleren Entwicklung von KI-Technologien hin, die kulturelle Vielfalt und Repräsentation anerkennen und angehen.
Kulturelle Repräsentation und Gesellschaft
Kulturelle Repräsentation ist entscheidend dafür, wie Gemeinschaften sowohl innerhalb als auch ausserhalb ihrer Grenzen wahrgenommen werden. Das Versagen der T2I-Modelle, südasianische Kulturen genau darzustellen, kann reale Konsequenzen haben und beeinflussen, wie Menschen aus diesen Gemeinschaften zu ihren Identitäten stehen und wie andere sie wahrnehmen. Fehlrepräsentation kann zu einer Trennung zwischen kulturellen Erzählungen und gelebten Erfahrungen führen, wodurch Stereotypen und soziale Ungleichheiten verstärkt werden.
Bedeutung von lokalem Wissen
Die von den Teilnehmern gesammelten Einblicke betonen den Wert von lokalem Wissen bei der Gestaltung von KI-Technologien. Die Einbindung der Gemeinschaft ist entscheidend, um sicherzustellen, dass Technologieentwickler die kulturellen Kontexte verstehen, in denen ihre Produkte verwendet werden. Indem man den Stimmen derjenigen, die direkt von diesen Technologien betroffen sind, zuhört, können Entwickler inklusivere und reflektierende KI-Systeme schaffen.
Fazit
Diese Studie hebt den dringenden Bedarf hervor, KI-Technologien mit einem Bewusstsein für kulturelle Nuancen und die vielfältigen gelebten Erfahrungen der Menschen zu entwickeln. Durch die Priorisierung von lokalem Wissen und Gemeinschaftsengagement können wir darauf hinarbeiten, inklusivere und gerechtere Repräsentationen in der künstlichen Intelligenz zu schaffen, insbesondere in Text-zu-Bild-Modellen. Die Ergebnisse fordern eine Neubewertung der Evaluierungsrahmen und -methoden in der KI-Forschung, insbesondere in kulturell vielfältigen Kontexten wie Südasien.
Zukünftige Richtungen
Zukünftige Forschung sollte weiterhin die kulturellen Dimensionen von KI-Technologien erkunden und Wege suchen, lokales Wissen in deren Design und Evaluation zu integrieren. Durch die Förderung der Zusammenarbeit zwischen Technologen und Mitgliedern der Gemeinschaft können wir daran arbeiten, KI-Systeme zu schaffen, die die reiche Vielfalt der Kulturen weltweit respektieren und repräsentieren.
Titel: AI's Regimes of Representation: A Community-centered Study of Text-to-Image Models in South Asia
Zusammenfassung: This paper presents a community-centered study of cultural limitations of text-to-image (T2I) models in the South Asian context. We theorize these failures using scholarship on dominant media regimes of representations and locate them within participants' reporting of their existing social marginalizations. We thus show how generative AI can reproduce an outsiders gaze for viewing South Asian cultures, shaped by global and regional power inequities. By centering communities as experts and soliciting their perspectives on T2I limitations, our study adds rich nuance into existing evaluative frameworks and deepens our understanding of the culturally-specific ways AI technologies can fail in non-Western and Global South settings. We distill lessons for responsible development of T2I models, recommending concrete pathways forward that can allow for recognition of structural inequalities.
Autoren: Rida Qadri, Renee Shelby, Cynthia L. Bennett, Remi Denton
Letzte Aktualisierung: 2023-05-19 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2305.11844
Quell-PDF: https://arxiv.org/pdf/2305.11844
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.