Valutare l'equità nelle decisioni algoritmiche
Esaminando come le decisioni di design influenzano l'equità nei sistemi automatizzati.
― 7 leggere min
Indice
- Decisione nei Sistemi Algoritmici
- Introducendo l'Analisi Multiverso
- Passi per Condurre l'Analisi Multiverso per la Giustizia
- Caso Studio: Copertura Sanitaria Pubblica
- Metriche di Giustizia
- Identificazione delle Decisioni Rilevanti
- Impatti delle Decisioni sugli Esiti
- Esplorazione dei Risultati
- Importanza dei Risultati
- Conclusione
- Fonte originale
- Link di riferimento
Molti sistemi in tutto il mondo usano le macchine per aiutare a prendere decisioni che una volta facevano le persone. Se fatto bene, questi sistemi informatici possono fare scelte più giuste e risparmiare tempo e risorse. Tuttavia, se questi sistemi sono progettati male, possono finire per trattare alcuni gruppi in modo ingiusto. È fondamentale esaminare come le scelte fatte durante la costruzione di questi sistemi possano portare a pregiudizi, soprattutto visto che questi pregiudizi possono iniziare già dalla fase di raccolta dei dati.
In parole semplici, il modo in cui un sistema è costruito può portare a risultati diversi per gruppi di persone differenti. Ecco perché è essenziale essere chiari e trasparenti sulle decisioni prese durante il design di questi sistemi. Questo aiuta a capire come ciascuna scelta possa influenzare la giustizia.
Decisione nei Sistemi Algoritmici
La decisione algoritmica (ADM) sta diventando comune in vari settori, tra cui finanza, assunzioni e forze dell'ordine. Ad esempio, le banche usano algoritmi per decidere se approvare prestiti, le aziende li usano per filtrare le domande di lavoro, e i tribunali possono usarli per valutare la probabilità di recidiva.
Anche se questi sistemi hanno il potenziale per prendere decisioni migliori, ci sono molti casi in cui hanno fallito. Per esempio, un recente sistema australiano che mirava a identificare i debiti di assistenza sociale sovrappagati è stato criticato per la sua imprecisione, portando spesso a richieste errate. Analogamente, nei Paesi Bassi, un sistema di benefici per l'infanzia ha colpito in modo sproporzionato gli immigrati per indagini su frodi.
Questi problemi rivelano una verità importante: gli algoritmi possono contenere e persino amplificare i pregiudizi presenti nei dati da cui apprendono. Il modo in cui i dati vengono elaborati e trasformati in decisioni influenza fortemente questi risultati. Qui è dove diventa importante capire le scelte fatte nel design e nell'implementazione di questi sistemi.
Introducendo l'Analisi Multiverso
Per affrontare le complessità di come le scelte di design influenzano la giustizia nella decisione algoritmica, un approccio si chiama analisi multiverso. Questo metodo, originariamente dalla psicologia, è progettato per migliorare l'affidabilità della ricerca. L'obiettivo è investigare come diverse decisioni impattino sui risultati della ricerca.
Quando gli esperti analizzano i dati, spesso fanno molte scelte, grandi e piccole. Queste scelte possono portare a molti scenari possibili quando si interpretano i risultati. L'analisi multiverso consente ai ricercatori di creare una visione complessiva di tutte queste possibilità, il che aiuta a comprendere come vari fattori interagiscono tra loro.
Applicando l'analisi multiverso alla giustizia algoritmica, lo scopo è chiarire le decisioni di design e le loro implicazioni. Identificando le scelte fatte durante la progettazione del sistema, diventa più facile vedere come influenzano la giustizia.
Passi per Condurre l'Analisi Multiverso per la Giustizia
Per iniziare un'analisi multiverso focalizzata sulla giustizia, è essenziale elencare tutte le decisioni pertinenti fatte durante il design del sistema. Queste decisioni possono essere divise in due categorie:
Decisioni Esplicite con Considerazione: Sono scelte fatte consapevolmente, dove sono state considerate varie opzioni. Un esempio sarebbe la selezione di un modello specifico di machine learning o dei suoi parametri.
Decisioni Esplicite Senza Considerazione: Sono scelte fatte in modo standard, senza esaminare opzioni alternative. Ad esempio, la decisione di applicare una trasformazione comune a una variabile senza pensare ad altri metodi.
Alcune decisioni potrebbero nemmeno essere riconosciute come decisioni, come l'aggiustamento delle soglie dopo aver visto i risultati iniziali. L'idea è di rendere visibili tutte queste scelte e valutarne gli impatti.
Caso Studio: Copertura Sanitaria Pubblica
Per illustrare come si può usare l'analisi multiverso, è stato condotto un caso studio focalizzato sulla previsione di chi avrebbe avuto copertura di assicurazione sanitaria negli Stati Uniti. Questo argomento è molto rilevante perché avere un'assicurazione influisce significativamente sulla salute e sulle finanze di una persona. Gli Stati Uniti spendono gran parte delle loro risorse in sanità, rendendo vitale per gli individui avere accesso all'assicurazione.
La complessità del sistema sanitario statunitense significa che alcune persone potrebbero non riuscire a ottenere l'assicurazione semplicemente perché non capiscono come funziona. Un sistema di decisione ben progettato può aiutare a identificare coloro che probabilmente saranno non assicurati e mirare a loro con supporto finanziario o informativo. Tuttavia, affinché un tale sistema sia efficace, deve produrre previsioni giuste.
Nello studio, è stato utilizzato un dataset specifico che conteneva informazioni sulla copertura assicurativa degli individui. Questo dataset è stato selezionato per la sua ricchezza e affidabilità rispetto a molti altri utilizzati nel campo. La sfida era costruire un sistema in grado di prevedere con precisione la copertura per coloro che erano più a rischio di non essere assicurati.
Metriche di Giustizia
Durante l'analisi, è necessario selezionare una metrica principale di giustizia. Per questo studio, è stata scelta la "differenza di probabilità equalizzata" come misura principale. Questa metrica valuta se le previsioni di un sistema funzionano altrettanto bene tra i vari gruppi definiti da caratteristiche, come la razza.
Le probabilità equalizzate richiedono che i tassi di verità positiva e falsa positiva siano gli stessi tra tutti i gruppi. Un punteggio di giustizia di zero significa che il modello è perfettamente equo, mentre un punteggio più lontano da zero indica un'ingiustizia crescente.
Identificazione delle Decisioni Rilevanti
In un'analisi multiverso, il primo compito è identificare le decisioni rilevanti per il sistema in questione. Le decisioni possono essere suddivise in diverse categorie, tra cui:
- Selezione dei Dati: Quali caratteristiche includere come predittori e se escludere determinate variabili.
- Preprocessing: Decisioni su come preparare i dati per l'analisi, come scalare o trasformare variabili.
- Modellazione: Scegliere quale tipo di algoritmo utilizzare per fare previsioni.
- Valutazione: Decidere come valutare le performance del modello.
- Decisioni Post-Hoc: Qualsiasi aggiustamento fatto dopo che il modello è stato costruito.
Ad esempio, quando si selezionano le caratteristiche, è comune considerare se includere attributi come razza o genere. Anche se le leggi suggeriscono di escludere questi attributi per garantire la giustizia, potrebbero essere correlati con altre caratteristiche, portando a risultati distorti.
Impatti delle Decisioni sugli Esiti
Per analizzare la giustizia in modo efficace, ciascuna delle decisioni identificate dovrebbe essere valutata per vedere come influenzino la metrica di giustizia. L'analisi ha rivelato che alcune decisioni avevano effetti più sostanziali sulla giustizia rispetto ad altre.
Ad esempio, le decisioni riguardanti i gruppi definiti da attributi protetti, come la razza, hanno avuto impatti notevoli sulla giustizia delle previsioni. Questo significa che il modo in cui un gruppo come "minoranza" o "maggioranza" è classificato influisce sugli esiti del modello. È stato cruciale testare vari metodi di raggruppamento per vedere come influenzassero il punteggio di giustizia.
Esplorazione dei Risultati
Dopo aver condotto l'analisi, è stato evidente che varie combinazioni di decisioni portavano a diversi punteggi di giustizia. Esaminando attentamente le decisioni più importanti, è diventato chiaro che semplicemente scegliere la decisione che produceva il miglior punteggio di giustizia non era sufficiente.
Comprendere quanto sia sensibile la giustizia di un modello alle scelte di design può meglio equipaggiare gli sviluppatori per prendere decisioni informate. Questo promuove anche discussioni sulle implicazioni etiche di ciascuna decisione.
Importanza dei Risultati
Dall'analisi è emerso che la scelta di raggruppamento degli attributi protetti, insieme al valore di soglia per le previsioni finali, influenzava significativamente i risultati di giustizia. Ad esempio, l'uso di una specifica soglia per determinare l'idoneità alla copertura influenzava spesso quanto fosse giusto il modello.
Lo studio ha anche sottolineato che escludere alcuni gruppi di individui dai dati di addestramento potrebbe portare a miglioramenti imprevisti della giustizia per alcuni gruppi, ma questa pratica dovrebbe sempre essere affrontata con cautela.
Conclusione
In sintesi, l'analisi multiverso funge da strumento potente per esaminare l'impatto delle decisioni di design nei sistemi algoritmici. Utilizzando questo metodo, gli analisti possono ottenere una comprensione più robusta di come le scelte fatte durante il design del sistema influenzino la giustizia.
È cruciale condurre queste analisi con attenzione e essere consapevoli delle potenziali conseguenze di ciascuna decisione. In definitiva, promuovere discussioni tra sviluppatori e soggetti interessati può portare a approcci più informati nella creazione di sistemi algoritmici che non solo funzionano bene, ma trattano anche tutti gli individui in modo equo.
Titolo: One Model Many Scores: Using Multiverse Analysis to Prevent Fairness Hacking and Evaluate the Influence of Model Design Decisions
Estratto: A vast number of systems across the world use algorithmic decision making (ADM) to (partially) automate decisions that have previously been made by humans. The downstream effects of ADM systems critically depend on the decisions made during a systems' design, implementation, and evaluation, as biases in data can be mitigated or reinforced along the modeling pipeline. Many of these decisions are made implicitly, without knowing exactly how they will influence the final system. To study this issue, we draw on insights from the field of psychology and introduce the method of multiverse analysis for algorithmic fairness. In our proposed method, we turn implicit decisions during design and evaluation into explicit ones and demonstrate their fairness implications. By combining decisions, we create a grid of all possible "universes" of decision combinations. For each of these universes, we compute metrics of fairness and performance. Using the resulting dataset, one can investigate the variability and robustness of fairness scores and see how and which decisions impact fairness. We demonstrate how multiverse analyses can be used to better understand fairness implications of design and evaluation decisions using an exemplary case study of predicting public health care coverage for vulnerable populations. Our results highlight how decisions regarding the evaluation of a system can lead to vastly different fairness metrics for the same model. This is problematic, as a nefarious actor could optimise or "hack" a fairness metric to portray a discriminating model as fair merely by changing how it is evaluated. We illustrate how a multiverse analysis can help to address this issue.
Autori: Jan Simson, Florian Pfisterer, Christoph Kern
Ultimo aggiornamento: 2024-06-18 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2308.16681
Fonte PDF: https://arxiv.org/pdf/2308.16681
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://github.com/reliable-ai/fairml-multiverse
- https://doi.org/10.48550/arXiv.2011.02407
- https://doi.org/10.5281/zenodo.5960048
- https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing
- https://doi.org/10.48550/arXiv.2106.05498
- https://doi.org/
- https://doi.org/10.48550/arXiv.2206.05985
- https://doi.org/10.1002/widm.1484
- https://doi.org/10.1073/pnas.2203150119
- https://www.census.gov/topics/health/health-insurance/guidance/programming-code/acs-recoding.html
- https://doi.org/10.1613/jair.1.13197
- https://github.com/nteract/papermill
- https://doi.org/10.1007/s10618-022-00854-z
- https://doi.org/10.1007/978-3-030-05318-5_1
- https://doi.org/10.1214/aos/1013203451
- https://www.theguardian.com/australia-news/2023/mar/11/robodebt-five-years-of-lies-mistakes-and-failures-that-caused-a-18bn-scandal
- https://www.jstor.org/stable/27594267
- https://proceedings.mlr.press/v32/hutter14.html
- https://www.amnesty.org/en/wp-content/uploads/2021/10/EUR3546862021ENGLISH.pdf
- https://CRAN.R-project.org/package=ggpubr
- https://www.census.gov/content/dam/Census/library/publications/2022/demo/p60-278.pdf
- https://doi.org/10.48550/arXiv.2108.04134
- https://www.feat.engineering
- https://doi.org/10.1002/widm.1452
- https://doi.org/10.1145/3457607
- https://doi.org/10.1111/1475-3995.00375
- https://doi.org/10.1126/science.aax2342
- https://doi.org/10.1126/science.aac4716
- https://ourworldindata.org/financing-healthcare
- https://doi.org/10.1145/3461702.3462629
- https://doi.org/10.1177/0956797611417632
- https://doi.org/10.1177/2515245918805755
- https://doi.org/10.1056/NEJMsb1706645
- https://doi.org/10.1177/1745691616658637
- https://doi.org/10.48550/arXiv.2210.09943
- https://github.com/pypa/pipenv
- https://www.R-project.org/
- https://doi.org/10.5281/zenodo.3509134
- https://doi.org/10.48550/arXiv.2105.05595
- https://joss.theoj.org
- https://www.jstor.org/stable/3647580