Valutare le auto-spiegazioni nei modelli linguistici
Uno studio sulla affidabilità delle auto-spiegazioni dei LLM in compiti di linguaggio naturale.
― 7 leggere min
Indice
Negli ultimi tempi, i grandi modelli linguistici (LLM) hanno dimostrato abilità impressionanti in compiti che coinvolgono il linguaggio naturale. Ora sono ampiamente utilizzati in applicazioni quotidiane come i chatbot. Man mano che le persone si affidano sempre più a questa tecnologia, è essenziale chiedersi: quanto sono affidabili le spiegazioni che questi modelli danno sui loro stessi output? Possono spiegare efficacemente il loro processo di pensiero?
Capire come ragionano gli LLM è fondamentale per costruire fiducia e trasparenza nel loro utilizzo. Questo studio analizza quanto siano affidabili le auto-spiegazioni di questi modelli, specialmente quando vengono chiesti di spiegare i loro output precedenti. Ci concentriamo su due tipi di auto-spiegazioni: estrattive e Controfattuali. Valutiamo queste spiegazioni utilizzando tre LLM avanzati di diverse dimensioni, applicandoli a due compiti diversi: uno oggettivo e uno soggettivo.
I risultati della nostra ricerca mostrano che, mentre le auto-spiegazioni fornite dagli LLM spesso si allineano con le opinioni umane, mancano di precisione e non riflettono sempre accuratamente come il modello prenda decisioni. C'è un gap evidente tra ciò che gli esseri umani percepiscono come il ragionamento del modello e il ragionamento reale del modello. Tuttavia, abbiamo scoperto che sollecitare i modelli a fornire spiegazioni controfattuali può portare a risultati chiari, informativi e verificabili, rendendole una solida alternativa ai metodi tradizionali di spiegazione del comportamento del modello.
LLM e il loro Ruolo
Negli ultimi anni, i grandi modelli linguistici hanno fatto passi da gigante, ottenendo buoni risultati in molti ambiti dell'elaborazione del linguaggio naturale. Dopo il loro successo, questi modelli sono diventati parte della vita quotidiana, specialmente attraverso chatbot come ChatGPT. Data la loro influenza e la crescente fiducia in questa tecnologia, è cruciale determinare quanto siano affidabili le spiegazioni generate da questi modelli.
Gli LLM funzionano tipicamente completando gli input testuali attraverso una serie di previsioni, il che solleva domande sul loro ragionamento. Questo articolo indaga l'affidabilità delle auto-spiegazioni generate dagli LLM quando vengono invitati a giustificare i loro output. Con la nostra ricerca facciamo diverse contribuzioni.
Innanzitutto, valutiamo le auto-spiegazioni estrattive prodotte da tre dei più recenti LLM in due compiti di Classificazione. Anche se queste spiegazioni possono sembrare ragionevoli per gli esseri umani, non forniscono costantemente una descrizione accurata del processo decisionale del modello.
In secondo luogo, dimostriamo che il divario tra auto-spiegazioni e ragionamento accurato può essere ridotto. In particolare, chiedere all'LLM spiegazioni controfattuali porta a spiegazioni affidabili che possono essere facilmente verificate dai modelli.
In terzo luogo, analizziamo le auto-spiegazioni controfattuali e scopriamo che possono assomigliare strettamente agli output originali, pur necessitando di una validazione individuale.
Spiegabilità negli LLM
Nel contesto di questo lavoro, definiamo gli LLM come sistemi progettati per elaborare input testuali utilizzando l'architettura Transformer. Questi sistemi completano il testo di input prevedendo i token successivi. Questa architettura può essere suddivisa in vari strati, ognuno con una funzione specifica.
In particolare, un LLM è composto da uno strato di embedding che elabora l'input, seguito da diversi blocchi trasformatori. Ogni blocco utilizza l'attenzione multi-testa, che consente al modello di concentrarsi su diverse parti del testo di input.
I modelli trasformatori moderni possono rientrare in tre categorie: solo encoder, encoder-decoder e solo decoder. I modelli che utilizzano l'architettura solo decoder hanno dimostrato di avere la capacità di classificare il testo senza necessitare di ulteriori affinamenti. Possono eseguire compiti di classificazione utilizzando due approcci: zero-shot prompting e few-shot prompting.
La nostra ricerca si concentra specificamente sulla spiegazione delle singole previsioni dei modelli piuttosto che sulla fornitura di una spiegazione complessiva di come operano. Dall'introduzione iniziale degli LLM nel 2017, i ricercatori hanno proposto diversi metodi per generare spiegazioni per i loro output di classificazione. La scelta del metodo dipende spesso dal framework di classificazione.
In questo articolo, ci concentriamo su due tipi importanti di spiegazioni: spiegazioni basate sull'attenzione e spiegazioni basate sui gradienti.
Spiegazioni Basate sull'Attenzione
Queste spiegazioni utilizzano i pesi di attenzione generati durante il passaggio in avanti del modello. Analizzando quali token di input hanno il maggior impatto sull'output, possiamo ottenere informazioni sul ragionamento del modello. Tuttavia, offrire spiegazioni chiare basate solamente sull'attenzione può essere complicato.
Spiegazioni Basate sui Gradienti
Queste creano mappe che mostrano quanto ciascun input contribuisce all'output. Questo metodo si concentra sul calcolo del cambiamento nell'output quando si modifica l'input. Tuttavia, questi metodi affrontano sfide, come il problema di saturazione, in cui le reti ben addestrate producono gradienti molto piccoli.
Spiegazioni Controfattuali
Le spiegazioni controfattuali differiscono dagli altri metodi. Presentano versioni modificate dell'input del modello che portano a un output diverso. Una buona spiegazione controfattuale dovrebbe soddisfare due criteri principali: innanzitutto, deve creare un output diverso del modello, e in secondo luogo, le modifiche apportate all'input originale dovrebbero essere minime.
Domande di Ricerca
Per guidare la nostra indagine, ci siamo concentrati su due domande chiave:
- Le auto-spiegazioni generate dagli LLM si allineano bene con i giudizi umani?
- Queste auto-spiegazioni si correlano con le dinamiche interne del modello, come indicato da altri metodi di spiegazione?
Per rispondere a queste domande, abbiamo prima raccolto auto-spiegazioni degli LLM e abbiamo raccolto spiegazioni da approcci analitici basati su gradienti e attenzione.
Processo di Valutazione
Per i nostri esperimenti, abbiamo utilizzato due compiti: classificazione dei rischi alimentari e classificazione del sentimento. Nel compito sui rischi alimentari, abbiamo lavorato con titoli ufficiali di richiami alimentari, classificandoli in categorie specifiche basate su annotazioni di esperti. Il compito di classificazione del sentimento ha coinvolto l'analisi delle recensioni di film per determinarne il tono emotivo.
Abbiamo quindi valutato i nostri risultati basandoci su diversi metriche:
- Fedeltà: Abbiamo misurato quanto bene le spiegazioni indicassero l'importanza dei token di input.
- Somiglianza Testuale: Abbiamo utilizzato vari metodi per confrontare le spiegazioni generate con i testi di riferimento e le annotazioni umane.
- Somiglianza della Mappa di Salienza: Abbiamo confrontato quanto le mappe di salienza generate si avvicinassero alla verità oggettiva.
Risultati
In entrambi i compiti, gli LLM hanno mostrato performance superiori al caso casuale. La correlazione tra auto-spiegazioni e annotazioni umane era positiva, indicando che gli LLM riflettevano in qualche modo il ragionamento umano. Tuttavia, abbiamo notato che le correlazioni non sempre erano valide per compiti soggettivi che richiedevano interpretazioni più sfumate.
Per la classificazione dei rischi alimentari, le spiegazioni fornite dai modelli indicavano una chiara correlazione positiva con le annotazioni umane. Questo suggerisce che le auto-spiegazioni generate dagli LLM possono essere considerate una rappresentazione ragionevole del ragionamento del modello in questo compito specifico.
Nel nostro compito di classificazione del sentimento, abbiamo osservato un pattern simile. Le auto-spiegazioni estrattive mostrano vari gradi di correlazione con le annotazioni umane.
Discussione e Conclusione
In generale, la nostra ricerca mostra che le auto-spiegazioni generate dagli LLM possono effettivamente correlarsi con i giudizi umani e offrire alcune intuizioni su come i modelli operano. Tuttavia, questa relazione non è sempre chiara, specialmente in compiti che richiedono un ragionamento più profondo.
I risultati suggeriscono che, sebbene le auto-spiegazioni possano fornire un punto di partenza ragionevole per comprendere il comportamento degli LLM, non si correlano necessariamente con tutti gli aspetti del funzionamento interno del modello. Le auto-spiegazioni estrattive tendono a corrispondere più da vicino alla verità oggettiva nei compiti in cui esiste un chiaro legame tra specifici token e risultati attesi.
Le spiegazioni controfattuali mostrano promettente, specialmente in compiti come la classificazione del sentimento, dove la capacità di convalidare facilmente le spiegazioni può fornire preziose intuizioni.
Ulteriori ricerche sono necessarie per ottimizzare il processo di richiesta e sviluppare controfattuali che possano migliorare la trasparenza e l'affidabilità del modello. Man mano che emergono modelli più sofisticati, sarà cruciale perfezionare questi metodi per comprendere meglio come gli LLM derivano i loro output.
Titolo: Evaluating the Reliability of Self-Explanations in Large Language Models
Estratto: This paper investigates the reliability of explanations generated by large language models (LLMs) when prompted to explain their previous output. We evaluate two kinds of such self-explanations - extractive and counterfactual - using three state-of-the-art LLMs (2B to 8B parameters) on two different classification tasks (objective and subjective). Our findings reveal, that, while these self-explanations can correlate with human judgement, they do not fully and accurately follow the model's decision process, indicating a gap between perceived and actual model reasoning. We show that this gap can be bridged because prompting LLMs for counterfactual explanations can produce faithful, informative, and easy-to-verify results. These counterfactuals offer a promising alternative to traditional explainability methods (e.g. SHAP, LIME), provided that prompts are tailored to specific tasks and checked for validity.
Autori: Korbinian Randl, John Pavlopoulos, Aron Henriksson, Tony Lindgren
Ultimo aggiornamento: 2024-07-19 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2407.14487
Fonte PDF: https://arxiv.org/pdf/2407.14487
Licenza: https://creativecommons.org/licenses/by-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.