Valutare i Metodi di AI Spiegabile per l'Affidabilità
La ricerca valuta la stabilità dei metodi XAI usando un dataset sul diabete.
― 6 leggere min
Indice
Nel mondo di oggi, l'intelligenza artificiale (AI) sta diventando un grande pezzo della nostra vita quotidiana. L'AI può aiutare a risolvere molti problemi, rendendo le cose più facili e intelligenti. Tuttavia, alcuni sistemi AI, chiamati modelli a scatola nera, usano algoritmi complicati che fanno un ottimo lavoro nel fare previsioni, ma non spiegano come arrivano a quelle conclusioni.
Per affrontare questo problema, i ricercatori hanno sviluppato metodi di Intelligenza Artificiale Spiegabile (XAI). Questi metodi puntano a dare più informazioni su come i modelli AI fanno previsioni. Alcuni metodi XAI popolari includono Dalex, Eli5, eXirt, Lofo e Shap. Questi metodi aiutano a spiegare i modelli a scatola nera in modi diversi. Una domanda comune su questi metodi XAI è: "Quanto sono affidabili e stabili?"
Per rispondere a questa domanda, i ricercatori hanno condotto esperimenti usando un dataset sul diabete. Hanno utilizzato quattro diversi modelli di machine learning: Light Gradient Boosting Machine (LGBM), Multilayer Perceptron (MLP), Decision Tree (DT) e K Nearest Neighbor (KNN). I ricercatori hanno aggiunto diversi livelli di cambiamenti casuali, chiamati perturbazioni, ai dati e poi hanno controllato quanto erano stabili e affidabili le spiegazioni per ogni modello.
La scoperta principale della ricerca è stata che eXirt poteva identificare quali modelli erano i più affidabili. Lo studio ha mostrato che molti metodi XAI attuali sono sensibili ai cambiamenti nei dati, tranne uno.
Comprendere i Modelli a Scatola Nera e la Trasparenza
I modelli a scatola nera possono raggiungere alte performance nelle previsioni ma non riescono a spiegare le loro previsioni. D'altro canto, i modelli trasparenti sono più facili da capire perché hanno strutture chiare che mostrano come arrivano alle loro conclusioni, anche se la loro performance complessiva potrebbe non essere così alta.
In situazioni in cui i modelli devono essere sia efficaci che spiegabili, c’è una crescente domanda di metodi che possano fornire informazioni su due livelli: spiegazioni locali, che mostrano come certe caratteristiche influenzano specifiche previsioni, e spiegazioni globali, che chiariscono il comportamento complessivo del modello.
È importante notare che termini come "classifica di rilevanza delle caratteristiche" e "classifica di importanza delle caratteristiche" sono spesso usati in modo intercambiabile, ma significano cose diverse. La classifica di rilevanza delle caratteristiche è basata sull'output del modello, mentre la classifica di importanza si basa sull'etichetta vera che vogliamo prevedere.
Diversi Metodi XAI
Sono stati sviluppati diversi metodi per produrre spiegazioni per modelli AI, sia indipendenti dal modello (non dipendenti da un tipo specifico di modello) e sia specifici per il modello (dipendenti da un tipo specifico di modello). Il metodo eXirt, recentemente introdotto, si basa sulla Teoria della Risposta all'Item (IRT). Genera spiegazioni classificando le caratteristiche in base alla loro rilevanza, aiutando gli utenti a sentirsi più sicuri nelle previsioni del modello.
Il metodo Dalex utilizza una tecnica chiamata Leave-One-Covariate-Out (LOCO). Rimuove gradualmente le caratteristiche dal modello per vedere come ciascuna influisce sulla performance, al fine di determinare l'importanza di ciascuna caratteristica. Lofo funziona in modo simile, ma rimuove le caratteristiche una alla volta e rivaluta la performance del modello ogni volta. Eli5 classifica le caratteristiche misurando quanto diminuisce l'accuratezza quando una caratteristica viene rimossa dal dataset.
Le Spiegazioni Additive di Shapley (SHAP) usano la teoria dei giochi per spiegare le previsioni calcolando come ogni caratteristica contribuisce all'esito della previsione. Skater misura la rilevanza delle caratteristiche basata sulla Teoria dell'Informazione, concentrandosi su come cambiano le previsioni quando vengono modificate le caratteristiche.
Il Ruolo della Teoria della Risposta all'Item
La Teoria della Risposta all'Item (IRT) è un metodo usato principalmente nell'istruzione per valutare la performance degli studenti in base alle loro risposte alle domande d'esame. A differenza dei metodi tradizionali, che semplicemente contano le risposte corrette, l'IRT guarda a quanto bene un individuo risponde a domande specifiche in base alle proprie abilità.
L'IRT utilizza tre parametri principali per valutare l'affidabilità di un modello:
- Discriminazione: Quanto bene una domanda può differenziare tra individui ad alta e bassa abilità. Valori più alti indicano una migliore discriminazione.
- Difficoltà: Quanto è difficile una domanda. Valori più bassi significano che la domanda è più facile.
- Indovinare: La possibilità che un individuo con bassa abilità risponda correttamente a una domanda per caso.
Un modello affidabile dovrebbe avere alta discriminazione, bassa difficoltà, basse percentuali di indovinare e alti livelli di abilità.
Metodologia della Ricerca
Nello studio, i ricercatori hanno lavorato con il dataset sui diabetici Pima Indian, che contiene 9 caratteristiche numeriche. Hanno diviso i dati in set di addestramento e test. Al set di test sono stati dati diversi livelli di cambiamenti casuali: 0% (originale), 4%, 6% e 10%. Questo significava che alcuni punti dati avevano i loro valori leggermente alterati per testare come i modelli reagivano ai cambiamenti.
Il team ha creato quattro modelli di machine learning utilizzando il dataset. Hanno scelto questi modelli perché rappresentavano approcci diversi, inclusi modelli a scatola nera e modelli trasparenti. La performance è stata valutata usando diversi metriche.
Dopo che i modelli sono stati costruiti, i ricercatori hanno utilizzato varie tecniche XAI per generare spiegazioni basate sulla rilevanza delle caratteristiche. Hanno quindi confrontato i risultati per vedere quanto fossero stabili le spiegazioni, soprattutto dato i cambiamenti casuali apportati ai dati.
Risultati e Discussione
I risultati hanno mostrato che il modello LGBM ha performato meglio sui dati non perturbati. Tuttavia, man mano che le perturbazioni aumentavano, tutti i modelli mostravano un calo nelle performance. I risultati indicavano che il metodo eXirt poteva identificare efficacemente quali modelli erano più affidabili, poiché mostrava meno difficoltà e tassi di discriminazione più alti per i modelli di miglior rendimento.
Un punto interessante era che il metodo eXirt indicava quali modelli erano i più affidabili, anche quando lavorava con dataset perturbati. In particolare, era in grado di mettere in evidenza modelli che faticavano con cambiamenti casuali, suggerendo che non tutti i modelli sono ugualmente affidabili nelle situazioni reali.
Guardando le spiegazioni generate dai diversi metodi XAI, il metodo Shap si è distinto come il più stabile, mantenendo classifiche coerenti attraverso i vari livelli di perturbazioni. Anche eXirt ha performato bene, ma la sua stabilità variava in base al modello specifico che si stava analizzando. Altri metodi, come Dalex, Eli5 e Lofo, hanno mostrato una stabilità inferiore, indicando che erano più sensibili ai cambiamenti nei dati.
Conclusione
Questa ricerca ha sottolineato quanto siano affidabili e stabili le spiegazioni fornite dai diversi metodi XAI. Ha mostrato che, sebbene eXirt possa offrire preziose intuizioni sull'affidabilità dei modelli, molti metodi XAI esistenti richiedono ancora miglioramenti per gestire meglio i cambiamenti nei dati di input.
Per future ricerche, si suggerisce di sviluppare metodi per trasformare i valori di difficoltà, discriminazione e indovinare in punteggi facili da capire e di testare eXirt in altri scenari di previsione. Questo aiuterà a comprendere meglio come performano i modelli AI in varie situazioni e a rendere le loro previsioni più interpretabili per gli utenti.
In generale, lo studio contribuisce alla conversazione in corso sulla necessità di spiegazioni affidabili dei modelli AI, aiutando a garantire che queste tecnologie possano essere fidate nelle applicazioni del mondo reale.
Titolo: How Reliable and Stable are Explanations of XAI Methods?
Estratto: Black box models are increasingly being used in the daily lives of human beings living in society. Along with this increase, there has been the emergence of Explainable Artificial Intelligence (XAI) methods aimed at generating additional explanations regarding how the model makes certain predictions. In this sense, methods such as Dalex, Eli5, eXirt, Lofo and Shap emerged as different proposals and methodologies for generating explanations of black box models in an agnostic way. Along with the emergence of these methods, questions arise such as "How Reliable and Stable are XAI Methods?". With the aim of shedding light on this main question, this research creates a pipeline that performs experiments using the diabetes dataset and four different machine learning models (LGBM, MLP, DT and KNN), creating different levels of perturbations of the test data and finally generates explanations from the eXirt method regarding the confidence of the models and also feature relevances ranks from all XAI methods mentioned, in order to measure their stability in the face of perturbations. As a result, it was found that eXirt was able to identify the most reliable models among all those used. It was also found that current XAI methods are sensitive to perturbations, with the exception of one specific method.
Autori: José Ribeiro, Lucas Cardoso, Vitor Santos, Eduardo Carvalho, Níkolas Carneiro, Ronnie Alves
Ultimo aggiornamento: 2024-07-03 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2407.03108
Fonte PDF: https://arxiv.org/pdf/2407.03108
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.