Untersuchung von Sprachvorurteilen in der Agenturvertretung
Diese Studie analysiert Sprachvorurteile, die Geschlecht und Rasse in verschiedenen Texten betreffen.
― 7 min Lesedauer
Inhaltsverzeichnis
- Bedeutung der Sprachhandlungsfähigkeit
- Zweck der Studie
- Methodik
- Datensatz-Erstellung
- Modelle trainieren
- Ergebnisse
- Sprachliche Vorurteile in menschlich verfassten Texten
- Sprachliche Vorurteile in von LLM generierten Texten
- Geschlechter- und Rassenvorurteile
- Intersektionale Vorurteile
- Auswirkungen
- Fazit
- Originalquelle
- Referenz Links
Sprache spielt eine entscheidende Rolle dafür, wie wir verschiedene Gruppen von Menschen wahrnehmen. Oft spiegelt die Art und Weise, wie Individuen in Texten beschrieben werden, soziale Vorurteile basierend auf ihrer Rasse und Geschlecht wider. Das wird besonders deutlich, wenn es darum geht, wie Sprachhandlungsfähigkeit dargestellt wird. Sprachhandlungsfähigkeit bezieht sich darauf, wie Menschen in Texten als aktiv oder passiv dargestellt werden. Zum Beispiel könnten weisse Männer als Anführer oder Erfolgreiche beschrieben werden, während schwarze Frauen oft als unterstützend oder hilfsbereit gesehen werden.
Dieses Dokument untersucht die Vorurteile in der Sprachauswahl bezüglich Rasse und Geschlecht. Es zielt darauf ab, aufzuzeigen, wie sich diese Vorurteile in verschiedenen Arten von Texten manifestieren, wie Biografien, Bewertungen von Professoren und Referenzschreiben.
Bedeutung der Sprachhandlungsfähigkeit
Sprachhandlungsfähigkeit ist wichtig, weil sie zeigt, wie verschiedene Gruppen in Texten repräsentiert werden. Handlungsfähigkeit in der Sprache kann zeigen, ob jemand als initiativ und führend wahrgenommen wird oder als jemand, der andere unterstützt und hilft. Diese Unterscheidung ist entscheidend, da sie beeinflussen kann, wie Individuen in der Gesellschaft wahrgenommen werden.
Zum Beispiel werden Männer, insbesondere weisse, oft mit Worten beschrieben, die Autorität und Führung vermitteln. Im Gegensatz dazu werden Frauen, besonders solche aus ethnischen Minderheiten, möglicherweise mit Wörtern beschrieben, die sich auf Fürsorge und Unterstützung beziehen. Dieser Unterschied in der Sprache kann zur Verstärkung von Stereotypen und Vorurteilen in der Gesellschaft führen.
Zweck der Studie
Ziel dieser Studie ist es, die Sprachhandlungsfähigkeit auf Satzebene zu messen. Das bedeutet, genau zu betrachten, wie Menschen in verschiedenen Texten beschrieben werden und wie sich diese Beschreibungen je nach Geschlecht und Rasse unterscheiden. Ein neuer Datensatz wurde erstellt, um Modelle zu trainieren, die die Sprachhandlungsfähigkeit genau klassifizieren können.
Die Studie untersucht Vorurteile in menschlich verfassten Texten und solchen, die von grossen Sprachmodellen generiert werden, also Computerprogrammen, die Texte erstellen. Durch das Verständnis dieser Vorurteile können wir bessere Entscheidungen darüber treffen, wie Sprachtechnologien in sozialen Kontexten eingesetzt werden.
Methodik
Datensatz-Erstellung
Um die Vorurteile in der Sprachhandlungsfähigkeit zu analysieren, wurde ein Datensatz erstellt, der Sätze enthält, die als agentisch, gemeinschaftlich oder neutral gekennzeichnet sind. Agentische Sätze zeigen Individuen als aktiv und führend, während gemeinschaftliche Sätze sie als unterstützend und hilfsbereit darstellen. Neutrale Sätze passen in keine der beiden Kategorien.
Der Datensatz wurde mithilfe einer Kombination aus automatisierten Werkzeugen und menschlichem Input erstellt, um die Genauigkeit zu gewährleisten. Zuerst wurden vorhandene Biografien in Sätze verarbeitet. Dann wurde ein Sprachmodell verwendet, um paraphrasierte Versionen dieser Sätze zu erstellen, die in die agentischen oder gemeinschaftlichen Kategorien passten. Schliesslich überprüften menschliche Annotatoren diese Sätze erneut, um eine korrekte Kennzeichnung sicherzustellen.
Modelle trainieren
Sobald der Datensatz fertig war, wurden Modelle damit trainiert. Es wurden zwei Arten von Modellen verwendet: diskriminative Modelle, die Sätze basierend auf gelernten Mustern klassifizieren, und generative Modelle, die neuen Text basierend auf Eingabedaten erzeugen. Verschiedene gängige Modelle, darunter BERT und RoBERTa, wurden eingesetzt, um ihre Leistung bei der Identifizierung der Sprachhandlungsfähigkeit zu bewerten.
Ergebnisse
Sprachliche Vorurteile in menschlich verfassten Texten
Die Analyse ergab, dass menschlich verfasste Texte deutliche Vorurteile in der Sprachhandlungsfähigkeit zeigen. Zum Beispiel tendieren Beschreibungen von Männern dazu, agentischer zu sein als die von Frauen. Das steht im Einklang mit der Art und Weise, wie die Gesellschaft Männer und Frauen oft in unterschiedlichen Rollen sieht. Berufe wie Pastoren, Architekten und Software-Ingenieure zeigen in ihren Biografien besonders starke Geschlechtervorurteile.
Darüber hinaus stellte die Studie fest, dass Texte, die schwarze Personen beschreiben, oft mehr gemeinschaftliche Sprache als agentische Sprache verwenden. Das deutet darauf hin, dass gesellschaftliche Wahrnehmungen von schwarzen Personen eher mit Unterstützungsrollen als mit Führungspositionen übereinstimmen.
Sprachliche Vorurteile in von LLM generierten Texten
Bei der Untersuchung von Texten, die von Sprachmodellen generiert wurden, stellte die Studie fest, dass die Vorurteile noch ausgeprägter waren. LLM-generierte Texte zeigten höhere Werte an Vorurteilen in der Sprachhandlungsfähigkeit als menschlich verfasste Texte. Zum Beispiel waren Beschreibungen von weissen männlichen Figuren viel wahrscheinlicher agentisch, während schwarze Frauen oft in einem gemeinschaftlicheren Licht dargestellt wurden.
Diese Erkenntnisse werfen Bedenken auf, wenn es darum geht, LLMs in sozialen Kontexten ohne sorgfältige Prüfung der potenziellen Vorurteile, die sie mit sich bringen könnten, zu verwenden.
Geschlechter- und Rassenvorurteile
Die Untersuchung deckte auch kritische Vorurteile in der Sprachhandlungsfähigkeit auf, die speziell Minderheitengruppen betreffen. Beispielsweise wiesen schwarze Frauen in den analysierten Texten die niedrigsten Werte an Handlungsfähigkeit im Vergleich zu anderen demografischen Gruppen auf. Das zeigt einen gesellschaftlichen Trend, schwarze Frauen hauptsächlich durch eine unterstützende Linse zu sehen, was ihre Rollen als Führungspersönlichkeiten oder einflussreiche Figuren herabsetzt.
Biografien von Personen aus verschiedenen ethnischen Hintergründen zeigten erhebliche Diskrepanzen. Die Texte beschrieben asiatische und weisse Personen als agentischer als ihre schwarzen Kollegen.
Intersektionale Vorurteile
Ein einzigartiger Aspekt der Studie war der Fokus auf intersektionale Vorurteile, die berücksichtigen, wie sich überlappende Identitäten auf die Sprachhandlungsfähigkeit auswirken. Die Ergebnisse zeigten, dass Personen, die sowohl einer rassischen Minderheit als auch einer Geschlechterminorität angehören, wie schwarze Frauen, die gravierendsten Vorurteile in der Sprachhandlungsfähigkeit erlebten.
Beispielsweise stellte die Analyse fest, dass Biografien von asiatischen Männern mit einer hohen Sprachhandlungsfähigkeit beschrieben wurden, während die von schwarzen Frauen die niedrigsten Werte aufwiesen. Das spiegelt die kumulative Wirkung von rassistischen und geschlechtsspezifischen Vorurteilen in der Sprachverwendung wider.
Auswirkungen
Die Ergebnisse dieser Studie haben erhebliche Auswirkungen darauf, wie Sprache in verschiedenen Kontexten verwendet wird. Zu erkennen, dass bestimmte Gruppen oft in einschränkender Weise dargestellt werden, verdeutlicht die Notwendigkeit einer sorgfältigeren Sprachverwendung in der Schrift, insbesondere in professionellen Umfeldern.
In der Akademie beispielsweise kann die Art und Weise, wie Professoren in Bewertungen beschrieben werden, die Wahrnehmungen über ihre Effektivität und Autorität beeinflussen. Weibliche Professoren, insbesondere aus Minderheitshintergründen, könnten aufgrund der gemeinschaftlichen Sprache, die für sie verwendet wird, weniger vorteilhafte Bewertungen erhalten.
Darüber hinaus könnten die Erkenntnisse aus dieser Studie auch Einfluss darauf haben, wie Sprachmodelle trainiert werden. Durch das Ansprechen von Vorurteilen in ihren Trainingsdaten könnten Verbesserungen erzielt werden, wie diese Modelle Texte generieren, sodass sie bestehende Stereotypen nicht weiterverbreiten.
Fazit
Die Studie hebt die Bedeutung hervor, die Sprachhandlungsfähigkeit in Texten zu untersuchen, um Vorurteile basierend auf Geschlecht und Rasse aufzudecken. Durch die Entwicklung eines Klassifikationsdatensatzes und das Training von Modellen zur Messung der Sprachhandlungsfähigkeit sind bedeutende Erkenntnisse darüber gewonnen worden, wie Menschen in der Schrift dargestellt werden.
Die Ergebnisse zeigen, dass Vorurteile sowohl in menschlich verfassten als auch in maschinell generierten Texten verbreitet sind, wobei Minderheitengruppen oft in weniger agentischer Weise dargestellt werden. Die Ergebnisse fordern dazu auf, der Sprachverwendung mehr Aufmerksamkeit zu schenken, insbesondere in Kontexten, in denen sie Wahrnehmungen und Entscheidungen über Individuen beeinflussen kann.
In Zukunft könnte eine Erweiterung der Forschung, um ein breiteres Spektrum von Demografien sowie verschiedene Textformen einzubeziehen, grössere Klarheit darüber bieten, wie Vorurteile in der Sprachhandlungsfähigkeit verschiedene Gruppen betreffen. Für den Moment dient die Studie als Grundlage, um die zugrunde liegenden Vorurteile in der Sprache zu verstehen und anzugehen, und ermutigt zu einem inklusiveren Ansatz, wie Individuen in Texten repräsentiert werden.
Titel: White Men Lead, Black Women Help? Benchmarking Language Agency Social Biases in LLMs
Zusammenfassung: Social biases can manifest in language agency. While several studies approached agency-related bias in human-written language, very limited research has investigated such biases in Large Language Model (LLM)-generated content. In addition, previous works often rely on string-matching techniques to identify agentic and communal words within texts, which fall short of accurately classifying language agency. We introduce the novel Language Agency Bias Evaluation (LABE) benchmark, which comprehensively evaluates biases in LLMs by analyzing agency levels attributed to different demographic groups in model generations. LABE leverages 5,400 template-based prompts, an accurate agency classifier, and corresponding bias metrics to test for gender, racial, and intersectional language agency biases in LLMs on 3 text generation tasks: biographies, professor reviews, and reference letters. We also contribute the Language Agency Classification (LAC) dataset, consisting of 3,724 agentic and communal sentences. Using LABE, we unveil language agency social biases in 3 recent LLMs: ChatGPT, Llama3, and Mistral. We observe that: (1) LLM generations tend to demonstrate greater gender bias than human-written texts; (2) Models demonstrate remarkably higher levels of intersectional bias than the other bias aspects. Those who are at the intersection of gender and racial minority groups--such as Black females--are consistently described by texts with lower levels of agency, aligning with real-world social inequalities; (3) Among the 3 LLMs investigated, Llama3 demonstrates the greatest overall bias; (4) Not only does prompt-based mitigation fail to resolve language agency bias in LLMs, but it frequently leads to the exacerbation of biases in generated texts.
Autoren: Yixin Wan, Kai-Wei Chang
Letzte Aktualisierung: 2024-10-24 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2404.10508
Quell-PDF: https://arxiv.org/pdf/2404.10508
Lizenz: https://creativecommons.org/publicdomain/zero/1.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/x-zhe/RateMyProfessor
- https://www.ratemyprofessors.com/
- https://api.semanticscholar.org/CorpusID:153911067
- https://www.acsa-arch.org/resource/where-are-the-women-measuring-progress-on-gender-in-architecture-2/
- https://doi.org/10.1177/2378023118823946
- https://doi.org/10.5330/1096-2409-20.1.102
- https://doi.org/10.1017/S1049096519001744
- https://www.proquest.com/dissertations-theses/talk-like-man-how-resume-writing-can-impact/docview/2410658740/se-2
- https://doi.org/10.1145/3287560.3287572
- https://arxiv.org/abs/1810.04805
- https://doi.org/10.18653/v1/2021.gebnlp-1.5
- https://doi.org/
- https://doi.org/10.1016/0895-4356
- https://doi.org/10.1145/3485447.3512134
- https://doi.org/10.1016/j.jsurg.2022.08.021
- https://wff.yale.edu/sites/default/files/files/GTF_Report_HumSocSc_rev.pdf
- https://arxiv.org/abs/2106.09685
- https://jetrockets.com/blog/women-in-tech-why-are-only-10-of-software-developers-female
- https://www.resourceumc.org/en/partners/gcsrw/home/content/women-people-of-color-more-likely-to-pastor-smaller-churches-and-to-pioneer-in-crossracial-appointme#:~:text=Larger%20congregations%20are%20far%20less,congregations%20with%205%2C000%2Dplus%20members
- https://doi.org/10.18653/v1/D16-1128
- https://doi.org/10.1177/20539517231165490
- https://doi.org/10.1177/0013164408322031
- https://arxiv.org/abs/1907.11692
- https://doi.org/10.18653/v1/2020.emnlp-main.602
- https://doi.org/10.1007/s10755-014-9313-4
- https://doi.org/10.1007/s10869-018-9541-1
- https://doi.org/10.1037/a0016539
- https://doi.org/10.1111/jasp.12179
- https://openai.com/blog/chatgpt
- https://doi.org/10.1016/j.jsurg.2021.02.005
- https://doi.org/10.1037/a0019865
- https://doi.org/10.1128/mmbr.00018-19
- https://doi.org/10.18653/v1/D17-1247
- https://benschmidt.org/profGender/#%7B%22database%22%3A%22RMP%22%2C%22plotType%22%3A%22pointchart%22%2C%22method%22%3A%22return_json%22%2C%22search_limits%22%3A%7B%22word%22%3A%5B%22his%20kids%22%2C%22her%20kids%22%5D%2C%22department__id%22%3A%7B%22%24lte%22%3A25%7D%7D%2C%22aesthetic%22%3A%7B%22x%22%3A%22WordsPerMillion%22%2C%22y%22%3A%22department%22%2C%22color%22%3A%22gender%22%7D%2C%22counttype%22%3A%5B%22WordCount%22%2C%22TotalWords%22%5D%2C%22groups%22%3A%5B%22unigram%22%5D%2C%22testGroup%22%3A%22C%22%7D
- https://cen.acs.org/careers/diversity/Turning-corner-gender-diversity-chemistry/97/i19
- https://doi.org/10.18653/v1/2022.nlpcss-1.6
- https://arxiv.org/abs/2307.09288
- https://aclanthology.org/2023.findings-emnlp.243
- https://arxiv.org/abs/1904.05046