Affrontare il bias nelle decisioni dell'AI
Nuovi metodi rivelano pregiudizi nascosti nei sistemi di intelligenza artificiale tramite ragionamento controfattuale.
― 6 leggere min
Indice
- Il Problema del Pregiudizio nell'IA
- Nuovo Approccio per Rivelare Pregiudizi Nascosti
- Comprendere i Controfattuali
- Meccanismo di Rilevamento
- Studio di Caso: La Richiesta di Prestito di Anna
- Preoccupazioni Etiche nell'IA
- Valutazione dell'Equità nei Modelli di IA
- Ragionamento Controfattuale in Azione
- Conclusione e Direzioni Future
- Fonte originale
- Link di riferimento
L'intelligenza artificiale (IA) sta cambiando molte aree della vita, come la finanza, la salute e l'istruzione. La gente è sempre più preoccupata per l'equità quando i sistemi di IA devono prendere decisioni. Spesso, i sistemi di IA vengono addestrati per ignorare informazioni sensibili come genere, razza o religione, per evitare trattamenti ingiusti. Tuttavia, le ricerche indicano che questi sistemi possono comunque comportarsi in modo ingiusto anche senza questi dettagli. Questo avviene spesso a causa di altri dati che si comportano come queste caratteristiche sensibili, noti come caratteristiche proxy.
Il Problema del Pregiudizio nell'IA
Man mano che i sistemi di IA vengono utilizzati più ampiamente, prendono decisioni importanti che influenzano la vita delle persone. Ad esempio, quando una banca decide se approvare un prestito, quella scelta può influenzare notevolmente il futuro di qualcuno. Anche se il processo decisionale di una banca ignora genere o razza, può comunque sembrare di parte. Questo accade quando punti di dati non correlati nel modello sembrano riflettere queste caratteristiche sensibili, portando a una decisione che potrebbe essere ingiusta.
In parole semplici, il problema sorge quando alcuni tipi di informazioni sono collegati agli attributi sensibili, anche se quegli attributi sensibili non sono inclusi direttamente nel modello. Ad esempio, alcune abitudini di spesa potrebbero suggerire il genere o il background sociale di una persona senza dichiararlo esplicitamente.
Nuovo Approccio per Rivelare Pregiudizi Nascosti
Per affrontare il problema del pregiudizio nascosto, un nuovo metodo utilizza il ragionamento controfattuale. Il ragionamento controfattuale esamina cosa accadrebbe se alcuni dettagli su un individuo fossero diversi. Applicando questa idea, possiamo scoprire se un modello di IA mostra ancora pregiudizi anche quando le caratteristiche sensibili sono escluse dai dati di addestramento.
Esaminando come cambia una decisione dell'IA quando modifichiamo i dettagli di un individuo, possiamo capire se la logica della decisione è equa. Ad esempio, se una richiesta di prestito viene rifiutata, possiamo modificare le informazioni per vedere se cambiare alcuni dettagli non sensibili porterebbe a un risultato diverso. Se modificare quei dettagli permette improvvisamente all'individuo di qualificarsi per un prestito, questo solleva un campanello d'allarme su un potenziale pregiudizio nel sistema.
Comprendere i Controfattuali
I controfattuali sono esempi di situazioni "e se". In questo studio, se una persona viene inizialmente negata un prestito, possiamo creare versioni modificate della sua richiesta per vedere quali cambiamenti potrebbero portare all'approvazione. Usando questi esempi modificati, possiamo meglio comprendere se la decisione originale tende verso l'ingiustizia.
Per illustrare ulteriormente, consideriamo una persona che richiede un prestito. Se viene negato, potremmo creare diversi profili alternativi per lei cambiando la sua storia lavorativa o il livello di reddito fino a quando non viene accettata. Questi nuovi profili vengono chiamati controfattuali. Se scopriamo che questi cambiamenti spostano la classificazione dell'individuo da donna a uomo, nonostante il sistema non utilizzi il genere nel suo processo decisionale, ciò indica un pregiudizio.
Meccanismo di Rilevamento
Il processo di rilevamento coinvolge tre componenti chiave:
Decision Maker: Questo è il componente principale che prende la decisione iniziale, come approvare o negare un prestito basandosi esclusivamente su attributi non sensibili.
Sensitive-Feature Classifier: Questa parte prevede gli attributi sensibili basandosi sugli stessi attributi non sensibili.
Counterfactual Generator: Questo modulo crea versioni alternative dei dati originali per trovare nuovi risultati.
Analizzando quanti di questi controfattuali riflettono un cambiamento nell'attributo sensibile percepito, possiamo quantificare il potenziale pregiudizio. Se il profilo di una richiedente donna viene classificato come uomo dopo aver modificato dettagli non sensibili per ottenere l'approvazione del prestito, ciò indica un pregiudizio problematico nel processo decisionale.
Studio di Caso: La Richiesta di Prestito di Anna
Per contestualizzare questo modello nel mondo reale, prendiamo l'esempio di Anna. Anna è una giovane ricercatrice che richiede un prestito per la casa. Ha un reddito stabile, un lavoro permanente e ama hobby come il cinema e lo sport. Tuttavia, il sistema di IA nega la sua richiesta di prestito basandosi sui suoi dati finanziari, che non utilizzano direttamente informazioni sensibili.
Dopo ciò, il sistema proposto genera versioni modificate della richiesta di Anna per vedere se è possibile ottenere un risultato migliore. Modificando leggermente il suo tempo di occupazione o le sue abitudini di spesa, possiamo vedere se qualche aggiustamento porterebbe all'approvazione del prestito. Se questi cambiamenti spostano la sua richiesta da essere classificata come donna a uomo per ottenere l'approvazione, abbiamo prove di pregiudizio.
Preoccupazioni Etiche nell'IA
Nel mondo degli affari, c'è stata una forte spinta per un'IA etica. Molti regolatori finanziari e organizzazioni hanno linee guida per garantire che i sistemi di IA siano equi e trasparenti. Nonostante questi sforzi, ci sono ancora delle sfide. La natura controversa dell'IA in aree decisionali critiche evidenzia una crescente necessità di metodi di audit e valutazione per garantire l'uguaglianza.
Rimuovere le caratteristiche sensibili dai modelli non ha automaticamente garantito equità. Sebbene questo approccio miri ad eliminare il pregiudizio, molti modelli di machine learning possono comunque apprendere schemi ingiusti attraverso caratteristiche proxy. Pertanto, è fondamentale implementare controlli e bilanciamenti per comprendere e correggere eventuali comportamenti pregiudizievoli in questi sistemi.
Valutazione dell'Equità nei Modelli di IA
L'equità nell'IA può assumere molte forme, ma l'obiettivo generale è garantire che nessun gruppo specifico sia trattato ingiustamente. Nella nostra analisi, abbiamo esaminato quanto bene funzionassero i classificatori delle caratteristiche sensibili e se potessero identificare tratti sensibili nonostante la loro esclusione nell'addestramento.
Risultati degli Esperimenti
La nostra ricerca mostra che anche i classificatori progettati per ignorare le caratteristiche sensibili possono comunque prevedere attributi sensibili con una buona dose di precisione. Di conseguenza, abbiamo esaminato ulteriormente se la rimozione delle caratteristiche sensibili portasse effettivamente a decisioni eque.
Significativamente, i risultati mostrano che le credenze sull'equità basate sul principio "Fairness Under Unawareness" non erano sufficienti a prevenire i pregiudizi. L'equità del modello non poteva essere garantita poiché continuava a raccogliere caratteristiche proxy che indicano attributi sensibili.
Ragionamento Controfattuale in Azione
Utilizzando il ragionamento controfattuale, possiamo valutare quanto spesso la decisione cambia per diversi gruppi. Nei nostri test, i gruppi svantaggiati tendevano a mostrare cambiamenti verso le caratteristiche privilegiate più frequentemente per ottenere risultati positivi. Questa scoperta suggerisce che gli individui provenienti da background minoritari o svantaggiati devono "adattarsi" a caratteristiche tipiche del gruppo più privilegiato per ottenere decisioni favorevoli.
Il vantaggio del ragionamento controfattuale risiede nella sua capacità di rivelare pregiudizi nascosti che le metriche di equità tradizionali potrebbero trascurare. Mette in evidenza le situazioni in cui gli individui provenienti da contesti meno privilegiati devono modificare i loro profili per allinearsi con caratteristiche privilegiate per raggiungere risultati simili.
Conclusione e Direzioni Future
In sintesi, l'equità nell'IA è un problema complesso, soprattutto quando le informazioni sensibili vengono escluse. Le nostre indagini forniscono un nuovo modo per valutare il pregiudizio nei processi decisionali dell'IA attraverso il ragionamento controfattuale. Questo metodo non solo rivela pregiudizi nascosti, ma aiuta anche a identificare caratteristiche proxy che potrebbero portare a discriminazione.
Per il futuro, puntiamo a perfezionare ulteriormente i nostri metodi, concentrandoci sulla generazione di controfattuali più equi che possano portare a risultati più giusti. Migliorando la nostra comprensione del rilevamento dei pregiudizi, possiamo lavorare per sistemi equi che servano tutti gli individui in modo uguale, indipendentemente dal loro background o dalle loro caratteristiche.
Titolo: Counterfactual Reasoning for Bias Evaluation and Detection in a Fairness under Unawareness setting
Estratto: Current AI regulations require discarding sensitive features (e.g., gender, race, religion) in the algorithm's decision-making process to prevent unfair outcomes. However, even without sensitive features in the training set, algorithms can persist in discrimination. Indeed, when sensitive features are omitted (fairness under unawareness), they could be inferred through non-linear relations with the so called proxy features. In this work, we propose a way to reveal the potential hidden bias of a machine learning model that can persist even when sensitive features are discarded. This study shows that it is possible to unveil whether the black-box predictor is still biased by exploiting counterfactual reasoning. In detail, when the predictor provides a negative classification outcome, our approach first builds counterfactual examples for a discriminated user category to obtain a positive outcome. Then, the same counterfactual samples feed an external classifier (that targets a sensitive feature) that reveals whether the modifications to the user characteristics needed for a positive outcome moved the individual to the non-discriminated group. When this occurs, it could be a warning sign for discriminatory behavior in the decision process. Furthermore, we leverage the deviation of counterfactuals from the original sample to determine which features are proxies of specific sensitive information. Our experiments show that, even if the model is trained without sensitive features, it often suffers discriminatory biases.
Autori: Giandomenico Cornacchia, Vito Walter Anelli, Fedelucio Narducci, Azzurra Ragone, Eugenio Di Sciascio
Ultimo aggiornamento: 2023-08-26 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2302.08204
Fonte PDF: https://arxiv.org/pdf/2302.08204
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://archive.ics.uci.edu/ml/datasets/adult
- https://archive.ics.uci.edu/ml/datasets/statlog+
- https://archive.ics.uci.edu/ml/datasets/US+Census+Data+
- https://scikit-learn.org/
- https://github.com/interpretml/DiCE
- https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html
- https://github.com/propublica/compas-analysis
- https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html
- https://dictionary.cambridge.org/dictionary/english/discrimination
- https://fra.europa.eu/en/eu-charter/article/21-non-discrimination
- https://en.wikipedia.org/wiki/Minority
- https://www.equalityhumanrights.com/en/equality-act/protected-characteristic
- https://www.ftc.gov/enforcement/statutes/equal-credit-opportunity-act
- https://www.fdic.gov/resources/supervision-and-examinations/consumer-compliance-examination-manual/documents/4/iv-1-1.pdf
- https://eur-lex.europa.eu/legal-content/en/TXT/?uri=CELEX:32008L0048
- https://eur-lex.europa.eu/legal-content/EN/TXT/PDF/?uri=CELEX:32016R0679
- https://github.com/giandos200/ECAI23
- https://github.com/dmlc/xgboost
- https://github.com/microsoft/LightGBM
- https://github.com/Trusted-AI/AIF360
- https://github.com/jmikko/fair_ERM
- https://digital-strategy.ec.europa.eu/en/policies/regulatory-framework-ai
- https://bit.ly/3Mvbs2c
- https://github.com/mbilalzafar/fair-classification
- https://anonymous.4open.science/r/IJCAI23-380B
- https://ctan.org/pkg/pifont
- https://www.overleaf.com/learn/latex/theorems_and_proofs