Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung

Geschlechtervoreingenommenheit bei Bildunterschriften angehen

Diese Studie untersucht und behandelt Geschlechtervorurteile in Bildbeschreibungen von maschinellem Lernen.

― 7 min Lesedauer


Bekämpfung vonBekämpfung vonGeschlechtervorurteilenin KI-BeschriftungenBildbeschriftungsmodellen.Geschlechtervorurteilen inUntersuchen und Korrigieren von
Inhaltsverzeichnis

Unsere Welt hat viele Arten von Vorurteilen, einschliesslich Geschlechtervorurteilen. Diese Vorurteile beeinflussen, wie wir die Rollen von Männern und Frauen in verschiedenen Bereichen sehen, wie Arbeit und Alltag. Diese Vorstellungen über Geschlechterrollen kommen aus der Gesellschaft und zeigen sich oft in den Daten, die im maschinellen Lernen verwendet werden. Da maschinelles Lernen auf Daten angewiesen ist, kann jedes Vorurteil in diesen Daten zu voreingenommenen Ergebnissen führen. Dieser Artikel beschäftigt sich mit Geschlechtervorurteilen im Bereich der Bildbeschreibung, also wenn Computer Bilder beschreiben, indem sie Bildunterschriften generieren.

Motivation für die Studie

Neuere Studien zeigen, dass Geschlechtervorurteile in vielen Modellen des maschinellen Lernens häufig vorkommen, insbesondere in solchen, die mit Sprache zu tun haben. Forscher fanden heraus, dass, wenn diese Modelle mit voreingenommenen Daten trainiert werden, sie falsche Verbindungen zwischen Geschlecht und verschiedenen Aktivitäten herstellen. Zum Beispiel könnte ein Modell „Mann“ mit „Arzt“ und „Frau“ mit „Hausfrau“ verknüpfen. Dieses Muster spiegelt gesellschaftliche Ansichten wider und ist keine akkurate Darstellung der Realität. Die Vorurteile, die in den Trainingsdaten existieren, beeinflussen letztendlich die Modelle und machen sie weniger zuverlässig.

Menschliche Annotation und Vorurteile

Einer der Hauptgründe für Geschlechtervorurteile im maschinellen Lernen ist, wie Menschen Daten kennzeichnen. Zum Beispiel fanden Forscher in einem populären Datensatz namens MS-COCO heraus, dass Menschen oft basierend auf ihren eigenen Vorurteilen raten, wenn sie Bilder von Personen beschreiben, deren Geschlecht unklar ist. Wenn ein Bild eine Person zeigt, die Fahrrad fährt, könnte viele diese Person einfach als „Mann“ kennzeichnen, weil sie denken, dass Männer öfter Fahrrad fahren als Frauen. Diese Praxis führt zu vielen Missverständnissen und verstärkt bestehende Vorurteile.

Vorurteile in bestehenden Datensätzen

Bestimmte Datensätze zeigen klare Muster von Geschlechtervorurteilen. In Datensätzen wie MS-COCO und imSitu neigen Wörter, die mit Aktivitäten zu tun haben, dazu, mehr mit einem Geschlecht als dem anderen verknüpft zu werden. Zum Beispiel werden Wörter, die mit Haushaltsaufgaben zu tun haben, häufiger mit „weiblichen“ Begriffen verwendet, während Wörter, die mit technischen Aufgaben zu tun haben, eher mit „männlichen“ Begriffen verknüpft werden. Dieser Mangel an Gleichgewicht in den Daten kann die Ergebnisse von Modellen des maschinellen Lernens weiter verzerren.

Probleme bei fortgeschrittenen Modellen

Das Problem der Geschlechtervorurteile hört nicht auf der Datensatzebene auf. Fortgeschrittene Modelle, wie Übersetzungssysteme, können diese Vorurteile ebenfalls widerspiegeln. Wenn zum Beispiel Sätze aus einer Sprache, die kein Geschlecht angibt, ins Englische übersetzt werden, neigen diese Modelle dazu, männliche Rollen bestimmten Berufen, wie „Arzt“, und weibliche Rollen anderen, wie „Krankenschwester“, zuzuordnen. Darüber hinaus kann Geschlechtervorurteil in Modellen zur Bildbeschreibung zu falschen Kennzeichnungen führen. Wenn das Modell mit voreingenommenen Daten trainiert wird, könnte es annehmen, dass eine Person, die einen Computer benutzt, männlich ist, selbst wenn das Bild eindeutig eine Frau zeigt.

Unser Ansatz zur Bekämpfung von Geschlechtervorurteilen

In diesem Projekt wollten wir Geschlechtervorurteile in der Bildbeschreibung verstehen und sehen, wie man sie angehen kann. Wir haben das Modell „Show, Attend and Tell“ untersucht, ein bekanntes System zur Bildbeschreibung. Durch unsere Analyse haben wir herausgefunden, dass die Verbindungen, die das Modell aus voreingenommenen Daten gelernt hat, oft zu falschen Bildunterschriften führten. Um dieses Problem anzugehen, haben wir darüber nachgedacht, wie wir diese Vorurteile aus den Daten entfernen können, damit das Modell keine falschen Annahmen trifft.

Zunächst haben wir darüber nachgedacht, die Daten auszugleichen, indem wir eine gleiche Vertretung der Geschlechter in jeder Aktivität sicherstellen. Allerdings war diese Methode aufgrund der Vielzahl an Aktivitäten und der verschiedenen Fälle, in denen eine bestimmte Aktivität nur mit einem Geschlecht in Verbindung gebracht werden könnte, nicht praktikabel. Deshalb haben wir eine andere Lösung in Betracht gezogen.

Unser Hauptziel war es, zu verhindern, dass das Modell starke Verbindungen zwischen Geschlecht und Aktivitäten herstellt. Wir wollten, dass das Modell sich ausschliesslich auf das Bild konzentriert, während es Bildunterschriften generiert, ohne irgendwelche vorgefassten Meinungen über Geschlechterrollen zu berücksichtigen. Daher haben wir unser Ziel in zwei Aufgaben aufgeteilt: ein geschlechtsneutrales Modell zur Bildbeschreibung zu erstellen und uns darauf zu konzentrieren, das Geschlecht von Personen in den Bildern zu identifizieren.

Um ein geschlechtsneutrales Modell zu erstellen, haben wir alle geschlechtsspezifischen Begriffe aus den Trainingsdaten entfernt und durch geschlechtsneutrale Begriffe wie „Person“ oder „Menschen“ ersetzt. Nach diesem Schritt haben wir ein neues Modell namens Gender Agnostic Show, Attend and Tell Netzwerk trainiert. Für die zweite Aufgabe haben wir ein bestehendes Modell verwendet, das das Geschlecht anhand von Bildern identifiziert. Durch die Kombination der Ergebnisse beider Aufgaben wollten wir genauere Bildunterschriften generieren.

Auswahl des Datensatzes zur Bewertung

Um die Leistung unseres Modells zu bewerten, haben wir den MS-COCO-Datensatz verwendet und in drei Untergruppen aufgeteilt:

  1. Gender Confident Dataset: Dieses Set umfasst Bilder, bei denen alle Bildunterschriften konsequent auf dasselbe Geschlecht verweisen. Wir haben Fälle gesammelt, in denen jede Beschreibung einen Begriff wie „Mann“ oder „Frau“ verwendete. Dies gab uns eine Untergruppe von 2036 Bildern.

  2. Human Dataset: Wir haben Bilder ausgewählt, die menschliche Figuren enthalten, und sichergestellt, dass mindestens eine Bildunterschrift einen menschlichen Identifier erwähnt. Dieser Datensatz enthielt 19.051 Bilder.

  3. Nature Dataset: Dieses Set umfasste Bilder ohne Menschen. Wir haben Bilder herausgefiltert, bei denen keine der Bildunterschriften menschliche Identifier erwähnte. So konnten wir uns auf die verbleibenden 21.453 Bilder konzentrieren.

Experimente und Ergebnisse

Für unsere Experimente haben wir unser Modell an den drei oben genannten Datensätzen getestet. Unser geschlechtsneutrales Netzwerk lieferte Vorhersagen mit dem Begriff „Person“ als Ausgabe, sodass wir die allgemeine Qualität der Bildunterschriften vergleichen konnten. Wir haben auch geschlechtsneutrale Vorhersagen zur Vergleichserstellung generiert.

Die Modelle, die wir bewertet haben, waren wie folgt:

  • Show, Attend and Tell (SAT): Das Basis-Modell, das wir verwendet haben.
  • SAT-N: Vorhersagen aus dem SAT-Modell, die angepasst wurden, um geschlechtsneutral zu sein.
  • Show, Attend and Identify (SAI): Unser vollständiges Modell, das die Geschlechtsidentifikation von der Bildbeschreibung trennt.
  • SAI-N: Der geschlechtsneutrale Bestandteil unseres Modells.

Wir haben Leistungsresultate anhand mehrerer Metriken berichtet, einschliesslich BLEU, METEOR, ROUGE und CIDEr-Werten über die verschiedenen Datensätze hinweg.

Obwohl unser Modell vielversprechende Ergebnisse zeigte, war eine wesentliche Herausforderung die Genauigkeit des Geschlechtsidentifikationsmodells. Obwohl es ein zuverlässiges Modell ist, war seine Genauigkeit überraschend niedrig bei etwa 50 % für den Gender Confident Datensatz, was die Gesamtleistung unseres Systems beeinflusste.

Fazit

Durch dieses Projekt haben wir aufgezeigt, dass Geschlechtervorurteile ein bedeutendes Problem sowohl in Datensätzen als auch in Modellen sind. Durch die Implementierung einer Technik zur Entfernung von Vorurteilen aus der Bildbeschreibung konnten wir Verbesserungen in der Qualität der Bildunterschriften beobachten, während wir die Leistung in Bildern ohne Menschen aufrechterhielten. Allerdings haben wir auch festgestellt, dass die Entfernung geschlechtsspezifischer Begriffe aus den Trainingsdaten zu einem Anstieg der Verwendung von Begriffen wie „männlich“ und „weiblich“ führte, was eine Verbindung zwischen den Einbettungen dieser Wörter offenbart.

Insgesamt deutet diese Arbeit darauf hin, dass es entscheidend ist, Geschlechtsinformationen vom Prozess der Bildbeschreibung zu trennen, um voreingenommene Modelle zu erreichen und zu verhindern, dass Vorurteile die Ergebnisse beeinflussen.

Zukünftige Richtungen

Ursprünglich hatten wir geplant, Geschlechtervorurteile aus VQA (Visual Question Answering) Modellen zu entfernen. Dieses Gebiet bleibt jedoch sehr komplex und herausfordernd. Als nächsten Schritt könnte weitere Arbeit darin bestehen, modifizierte Wort-Einbettungen zu verwenden, um Geschlechtervorurteile zu eliminieren. Eine weitere mögliche Richtung könnte die Entwicklung eines fortschrittlicheren Geschlechtsidentifikationsmodells sein, das eine dritte Kategorie „Person“ ermöglicht, um Fälle abzudecken, in denen das Geschlecht nicht bestimmt werden kann. Diese Ideen zu erkunden könnte die Gesamtleistung unseres Modells verbessern und es gerechter in seiner Funktionsweise machen.

Originalquelle

Titel: Fairness in AI Systems: Mitigating gender bias from language-vision models

Zusammenfassung: Our society is plagued by several biases, including racial biases, caste biases, and gender bias. As a matter of fact, several years ago, most of these notions were unheard of. These biases passed through generations along with amplification have lead to scenarios where these have taken the role of expected norms by certain groups in the society. One notable example is of gender bias. Whether we talk about the political world, lifestyle or corporate world, some generic differences are observed regarding the involvement of both the groups. This differential distribution, being a part of the society at large, exhibits its presence in the recorded data as well. Machine learning is almost entirely dependent on the availability of data; and the idea of learning from data and making predictions assumes that data defines the expected behavior at large. Hence, with biased data the resulting models are corrupted with those inherent biases too; and with the current popularity of ML in products, this can result in a huge obstacle in the path of equality and justice. This work studies and attempts to alleviate gender bias issues from language vision models particularly the task of image captioning. We study the extent of the impact of gender bias in existing datasets and propose a methodology to mitigate its impact in caption based language vision models.

Autoren: Lavisha Aggarwal, Shruti Bhargava

Letzte Aktualisierung: 2023-05-03 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2305.01888

Quell-PDF: https://arxiv.org/pdf/2305.01888

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel