Voreingenommenheit bei KI-Entscheidungen angehen
Neue Methoden decken versteckte Vorurteile in KI-Systemen durch kontrafaktisches Denken auf.
― 7 min Lesedauer
Inhaltsverzeichnis
- Das Problem von Bias in KI
- Neuer Ansatz zur Aufdeckung versteckter Vorurteile
- Verständnis der Kontrafaktoren
- Mechanismus der Detection
- Fallstudie: Annas Kreditantrag
- Ethische Bedenken in der KI
- Bewertung der Fairness in KI-Modellen
- Kontrafaktisches Denken in Aktion
- Fazit und zukünftige Richtungen
- Originalquelle
- Referenz Links
Künstliche Intelligenz (KI) verändert viele Bereiche des Lebens, wie Finanzen, Gesundheit und Bildung. Die Leute machen sich immer mehr Sorgen über Fairness, wenn KI-Systeme Entscheidungen treffen. KI-Systeme werden oft so trainiert, dass sie sensible Informationen wie Geschlecht, Rasse oder Religion ignorieren, um unfairen Umgang zu vermeiden. Trotzdem zeigen Forschungen, dass diese Systeme auch ohne diese Details unfair handeln können. Oft liegt das an anderen Daten, die wie diese sensiblen Merkmale wirken, die als Proxy-Merkmale bekannt sind.
Das Problem von Bias in KI
Je mehr KI-Systeme genutzt werden, desto grösser sind die Entscheidungen, die sie treffen, und die Auswirkungen auf das Leben der Menschen. Zum Beispiel kann die Entscheidung einer Bank, ob ein Kredit genehmigt wird oder nicht, erheblichen Einfluss auf die Zukunft einer Person haben. Selbst wenn der Entscheidungsprozess der Bank Geschlecht oder Rasse ignoriert, kann er immer noch biased wirken. Das passiert, wenn nicht verwandte Datenpunkte im Modell scheinbar diese sensiblen Merkmale widerspiegeln, was zu einer Entscheidung führen kann, die unfair ist.
Einfach gesagt, das Problem entsteht, wenn bestimmte Arten von Informationen mit den sensiblen Attributen verknüpft sind, auch wenn diese sensiblen Attribute nicht direkt im Modell enthalten sind. Zum Beispiel könnten bestimmte Ausgabengewohnheiten auf das Geschlecht oder den sozialen Hintergrund einer Person hinweisen, ohne es ausdrücklich zu sagen.
Neuer Ansatz zur Aufdeckung versteckter Vorurteile
Um das Problem der versteckten Vorurteile anzugehen, wird eine neue Methode verwendet, die auf kontrafaktischem Denken basiert. Kontrafaktisches Denken untersucht, was passieren würde, wenn bestimmte Details über eine Person anders wären. Wenn wir diese Idee anwenden, können wir herausfinden, ob ein KI-Modell immer noch Bias zeigt, selbst wenn sensible Merkmale aus den Trainingsdaten ausgeschlossen sind.
Indem wir analysieren, wie sich eine KI-Entscheidung ändert, wenn wir die Details einer Person anpassen, können wir verstehen, ob die Logik der Entscheidung fair ist. Wenn zum Beispiel ein Kreditantrag abgelehnt wird, können wir die Informationen so anpassen, dass wir sehen, ob das Ändern einiger nicht-sensibler Details zu einem anderen Ergebnis führen würde. Wenn die Änderung dieser Details die Person plötzlich für einen Kredit qualifiziert, ist das ein Warnsignal für potenziellen Bias im System.
Verständnis der Kontrafaktoren
Kontrafaktoren sind Beispiele für "Was wäre wenn"-Situationen. In dieser Studie, wenn einer Person zunächst ein Kredit verweigert wird, können wir angepasste Versionen ihres Antrags erstellen, um zu sehen, welche Änderungen zur Genehmigung führen könnten. Mit diesen angepassten Beispielen können wir besser verstehen, ob die ursprüngliche Entscheidung unfair ist.
Um das weiter zu veranschaulichen, stellen wir uns eine Person vor, die einen Kredit beantragt. Wenn ihr Antrag abgelehnt wird, könnten wir mehrere alternative Profile für sie erstellen, indem wir ihre Berufserfahrung oder ihr Einkommensniveau ändern, bis sie akzeptiert wird. Diese neuen Profile werden als Kontrafaktoren bezeichnet. Wenn wir feststellen, dass diese Änderungen die Person von einer weiblichen in eine männliche Klassifikation verschieben, obwohl das System Geschlecht nicht für seine Entscheidungsfindung verwendet, deutet das auf Bias hin.
Mechanismus der Detection
Der Erkennungsprozess umfasst drei Hauptkomponenten:
Entscheider: Das ist die Hauptkomponente, die die anfängliche Entscheidung trifft, wie die Genehmigung oder Ablehnung eines Kredits, basierend ausschliesslich auf nicht-sensiblen Attributen.
Classifier für sensible Merkmale: Dieser Teil sagt die sensiblen Attribute basierend auf denselben nicht-sensiblen Merkmalen voraus.
Generator für Kontrafaktoren: Dieses Modul erstellt alternativen Versionen der ursprünglichen Daten, um neue Ergebnisse zu finden.
Indem wir analysieren, wie viele dieser Kontrafaktoren eine Änderung im wahrgenommenen sensiblen Attribut widerspiegeln, können wir potenziellen Bias quantifizieren. Wenn das Profil einer weiblichen Antragstellerin nach der Anpassung nicht-sensibler Details in eine männliche Klassifikation wechselt, um die Kreditzulassung zu erhalten, zeigt das ein problematisches Bias im Entscheidungsprozess an.
Fallstudie: Annas Kreditantrag
Um dieses Modell in einen realen Kontext zu setzen, nehmen wir das Beispiel von Anna. Anna ist eine junge Forscherin, die einen Hauskredit beantragt. Sie hat ein stabiles Einkommen, einen festen Job und liebt Hobbys wie Kino und Sport. Trotzdem lehnt das KI-System ihren Kreditantrag basierend auf ihren Finanzdaten ab, die keine sensiblen Informationen direkt verwenden.
Daraufhin generiert das vorgeschlagene System angepasste Versionen von Annas Antrag, um zu sehen, ob ein besseres Ergebnis erzielt werden könnte. Indem wir ihre Beschäftigungsdauer anpassen oder ihre Ausgabengewohnheiten leicht ändern, können wir sehen, ob Anpassungen zur Genehmigung des Kredits führen. Wenn diese Änderungen ihren Antrag von einer Klassifikation als Frau zu einer als Mann verschieben, haben wir Beweise für Bias.
Ethische Bedenken in der KI
In der Geschäftswelt gibt es einen starken Druck für ethische KI. Viele Finanzaufsichtsbehörden und Organisationen haben Richtlinien, um sicherzustellen, dass KI-Systeme fair und transparent sind. Trotz dieser Bemühungen bestehen weiterhin Herausforderungen. Die umstrittene Natur von KI in kritischen Entscheidungsbereichen verdeutlicht den wachsenden Bedarf an Prüf- und Bewertungsmethoden, um Gleichheit sicherzustellen.
Das Entfernen sensibler Merkmale aus Modellen garantiert nicht automatisch Fairness. Obwohl dieser Ansatz darauf abzielt, Bias zu beseitigen, können viele maschinelle Lernmodelle immer noch unfairen Mustern durch Proxy-Merkmale lernen. Daher ist es wichtig, Kontrollen und Gleichgewichte zu implementieren, um jegliches voreingenommene Verhalten in diesen Systemen zu verstehen und zu beheben.
Bewertung der Fairness in KI-Modellen
Fairness in KI kann viele Formen annehmen, aber das allgemeine Ziel ist sicherzustellen, dass keine bestimmte Gruppe unfair behandelt wird. In unserer Analyse haben wir untersucht, wie gut die Classifier für sensible Merkmale funktionieren und ob sie sensible Eigenschaften identifizieren können, trotz ihrer Ausschluss beim Training.
Ergebnisse aus Experimenten
Unsere Forschung zeigt, dass selbst Classifier, die dazu entworfen wurden, sensible Merkmale zu ignorieren, diese mit einer fairen Genauigkeit vorhersagen können. Daher haben wir weiter untersucht, ob das Entfernen sensibler Merkmale tatsächlich zu fairen Entscheidungen führte.
Bemerkenswerterweise zeigen die Ergebnisse, dass die Fairnessüberzeugungen basierend auf dem Prinzip "Fairness unter Unkenntnis" nicht ausreichten, um Vorurteile zu verhindern. Die Fairness des Modells konnte nicht garantiert werden, da es weiterhin Proxy-Merkmale erfasste, die auf sensible Attribute hinweisen.
Kontrafaktisches Denken in Aktion
Mit kontrafaktischem Denken können wir bewerten, wie häufig die Entscheidung für verschiedene Gruppen wechselt. In unseren Tests neigten unprivilegierte Gruppen dazu, häufiger in Richtung der privilegierten Merkmale zu wechseln, um positive Ergebnisse zu erzielen. Dieses Ergebnis deutet darauf hin, dass Personen aus Minderheiten oder benachteiligten Hintergründen sich anpassen müssen, um Merkmale zu übernehmen, die typisch für die privilegierte Gruppe sind, um günstige Entscheidungen zu erhalten.
Der Vorteil des kontrafaktischen Denkens liegt in seiner Fähigkeit, versteckte Vorurteile aufzudecken, die traditionelle Fairnessmetriken möglicherweise übersehen. Es hebt Fälle hervor, in denen Personen aus unprivilegierten Hintergründen ihre Profile anpassen müssen, um mit privilegierten Merkmalen übereinzustimmen, um ähnliche Ergebnisse zu erzielen.
Fazit und zukünftige Richtungen
Zusammenfassend ist Fairness in der KI ein komplexes Thema, insbesondere wenn sensible Informationen ausgeschlossen sind. Unsere Untersuchungen bieten einen neuen Weg, um Bias in KI-Entscheidungsprozessen durch kontrafaktisches Denken zu bewerten. Diese Methode deckt nicht nur versteckte Vorurteile auf, sondern hilft auch, Proxy-Merkmale zu identifizieren, die zu Diskriminierung führen könnten.
Für die Zukunft streben wir an, unsere Methoden weiter zu verfeinern, wobei wir uns darauf konzentrieren, fairere Kontrafaktoren zu generieren, die zu gerechteren Ergebnissen führen können. Durch die Verbesserung unseres Verständnisses von Bias-Detection können wir darauf hinarbeiten, faire Systeme zu schaffen, die allen Individuen gleich dienen, unabhängig von ihrem Hintergrund oder ihren Merkmalen.
Titel: Counterfactual Reasoning for Bias Evaluation and Detection in a Fairness under Unawareness setting
Zusammenfassung: Current AI regulations require discarding sensitive features (e.g., gender, race, religion) in the algorithm's decision-making process to prevent unfair outcomes. However, even without sensitive features in the training set, algorithms can persist in discrimination. Indeed, when sensitive features are omitted (fairness under unawareness), they could be inferred through non-linear relations with the so called proxy features. In this work, we propose a way to reveal the potential hidden bias of a machine learning model that can persist even when sensitive features are discarded. This study shows that it is possible to unveil whether the black-box predictor is still biased by exploiting counterfactual reasoning. In detail, when the predictor provides a negative classification outcome, our approach first builds counterfactual examples for a discriminated user category to obtain a positive outcome. Then, the same counterfactual samples feed an external classifier (that targets a sensitive feature) that reveals whether the modifications to the user characteristics needed for a positive outcome moved the individual to the non-discriminated group. When this occurs, it could be a warning sign for discriminatory behavior in the decision process. Furthermore, we leverage the deviation of counterfactuals from the original sample to determine which features are proxies of specific sensitive information. Our experiments show that, even if the model is trained without sensitive features, it often suffers discriminatory biases.
Autoren: Giandomenico Cornacchia, Vito Walter Anelli, Fedelucio Narducci, Azzurra Ragone, Eugenio Di Sciascio
Letzte Aktualisierung: 2023-08-26 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2302.08204
Quell-PDF: https://arxiv.org/pdf/2302.08204
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://archive.ics.uci.edu/ml/datasets/adult
- https://archive.ics.uci.edu/ml/datasets/statlog+
- https://archive.ics.uci.edu/ml/datasets/US+Census+Data+
- https://scikit-learn.org/
- https://github.com/interpretml/DiCE
- https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html
- https://github.com/propublica/compas-analysis
- https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html
- https://dictionary.cambridge.org/dictionary/english/discrimination
- https://fra.europa.eu/en/eu-charter/article/21-non-discrimination
- https://en.wikipedia.org/wiki/Minority
- https://www.equalityhumanrights.com/en/equality-act/protected-characteristic
- https://www.ftc.gov/enforcement/statutes/equal-credit-opportunity-act
- https://www.fdic.gov/resources/supervision-and-examinations/consumer-compliance-examination-manual/documents/4/iv-1-1.pdf
- https://eur-lex.europa.eu/legal-content/en/TXT/?uri=CELEX:32008L0048
- https://eur-lex.europa.eu/legal-content/EN/TXT/PDF/?uri=CELEX:32016R0679
- https://github.com/giandos200/ECAI23
- https://github.com/dmlc/xgboost
- https://github.com/microsoft/LightGBM
- https://github.com/Trusted-AI/AIF360
- https://github.com/jmikko/fair_ERM
- https://digital-strategy.ec.europa.eu/en/policies/regulatory-framework-ai
- https://bit.ly/3Mvbs2c
- https://github.com/mbilalzafar/fair-classification
- https://anonymous.4open.science/r/IJCAI23-380B
- https://ctan.org/pkg/pifont
- https://www.overleaf.com/learn/latex/theorems_and_proofs