Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio# Intelligenza artificiale# Crittografia e sicurezza# Apprendimento automatico

Rafforzare la sicurezza nei modelli di linguaggio di grandi dimensioni

Un nuovo metodo migliora la sicurezza dei modelli di linguaggio contro richieste dannose.

― 5 leggere min


Nuovo quadro di sicurezzaNuovo quadro di sicurezzaper l'IAdannosi dall'IA.Un metodo solido per prevenire output
Indice

I modelli di linguaggio ampi (LLM) sono strumenti che aiutano a generare testo in base a ciò che ricevono come input. Possono essere super utili, ma c’è la preoccupazione che possano produrre contenuti dannosi se qualcuno li inganna con certi tipi di richieste. Per evitarlo, questi modelli includono funzioni di sicurezza. Tuttavia, alcuni trucchi astuti possono aggirare queste misure di sicurezza, portando a risultati pericolosi. Questo articolo discute un nuovo metodo progettato per proteggere gli LLM da questi trucchi.

Misure di Sicurezza negli LLM

Quando si sviluppa un Modello di linguaggio, viene programmato per rifiutare richieste dannose. Per esempio, se qualcuno chiede come costruire un dispositivo pericoloso, un modello ben allineato dovrebbe rispondere dicendo che non può aiutare in questo. Nonostante i miglioramenti nelle funzionalità di sicurezza, alcuni utenti hanno trovato modi per manipolare i modelli e ottenere informazioni dannose.

Queste manipolazioni funzionano aggiungendo parole o frasi che fanno sì che il modello ignori le sue impostazioni di sicurezza. Ad esempio, iniziare una richiesta con certe frasi potrebbe portare il modello a soddisfare richieste dannose. Questo rappresenta un rischio significativo, poiché i modelli addestrati su dati non sicuri possono produrre contenuti dannosi se non adeguatamente protetti.

Il Nuovo Approccio

Questo nuovo metodo introduce un framework progettato per difendere meglio gli LLM da richieste dannose. L’obiettivo è fornire una sicurezza garantita contro trucchi che potrebbero aggirare le protezioni incorporate del modello. Il processo prevede di controllare le richieste per vedere se possono portare a risultati dannosi. Se il modello rileva una sottosequenza dannosa, etichetta l’intera richiesta come dannosa.

Come Funziona

Il metodo funziona esaminando ogni parte di una richiesta. Cancella le parti di una richiesta una alla volta e controlla le parti rimanenti. Se una parte è segnalata come dannosa, l’intera richiesta è considerata dannosa. Questo approccio si basa su un principio fondamentale: se una richiesta è sicura, qualsiasi sua parte dovrebbe essere anch'essa sicura.

Difesa Contro Diversi Tipi di Trucchi

Il framework difende contro tre principali tipi di manipolazioni:

  1. Suffisso Avversario: Questo tipo prevede di aggiungere testo Dannoso alla fine di una richiesta. Il modello controlla la richiesta originale e le versioni accorciate per vedere se qualche parte è dannosa. Se ce ne sono, il modello etichetta la richiesta come dannosa.

  2. Inserzione Avversaria: In questo caso, il testo dannoso viene inserito ovunque all'interno della richiesta originale. Il modello controlla tutte le posizioni possibili dove il testo può essere sostituito o inserito. Se qualche sequenza è contrassegnata come dannosa, l'intera richiesta è etichettata come dannosa.

  3. Infusione Avversaria: Questo è l’attacco più complesso. Qui, parole dannose possono essere inserite in qualsiasi punto della richiesta, non solo come un blocco. Il modello genera molte potenziali sottosequenze cancellando diverse combinazioni di parole e le controlla per la sicurezza.

Performance del Metodo

Il metodo ha mostrato risultati solidi nei test. Quando si tratta del trucco del suffisso avversario, ha rilevato con successo una percentuale alta di richieste dannose mantenendo comunque buone prestazioni con richieste sicure. Il framework è stato testato su richieste modificate con sequenze dannose, raggiungendo un'accuratezza di rilevamento del 93%.

Controllo delle Richieste Sicure

I controlli di sicurezza non riguardano solo le richieste dannose. È anche importante che il sistema funzioni bene per le richieste sicure. I test hanno mostrato un'alta accuratezza nel controllare richieste non modificate, con tempi di risposta rimasti ragionevoli. Tuttavia, man mano che aumenta il numero di parole che possono essere cancellate, l'accuratezza tende a diminuire un po', e il tempo necessario per controllare le richieste aumenta.

Lavori Correlati

C’è stata molta ricerca su come difendersi da richieste dannose. Molti metodi più vecchi si concentravano su piccole modifiche all'input per confondere il modello. Tuttavia, questi approcci spesso fallivano contro attacchi più astuti. Invece di difendersi solo contro piccole modifiche, questo nuovo metodo mira a fornire garanzie solide che il modello identificherà correttamente le modifiche dannose.

Direzioni Future

I risultati iniziali sono promettenti, ma c’è ancora spazio per miglioramenti. Un’area per ulteriori ricerche è lo sviluppo di filtri di sicurezza migliori. Al momento, il framework utilizza un modello di linguaggio esistente per controllare le richieste, ma creare un classificatore dedicato potrebbe migliorare le prestazioni.

Inoltre, trovare modi per ridurre il numero di sottosequenze da controllare senza perdere in sicurezza potrebbe rendere questo metodo ancora più efficiente. Questi miglioramenti potrebbero ampliare l'applicabilità del framework e migliorare la sua efficacia complessiva.

Conclusione

L’uso crescente di modelli di linguaggio ampi porta grandi benefici, ma richiede anche un'attenta considerazione delle loro caratteristiche di sicurezza. L’introduzione di questo nuovo framework rappresenta un passo avanti per garantire che gli LLM possano resistere a trucchi astuti che cercano di aggirarne la sicurezza. Fornendo garanzie verificabili di sicurezza, il metodo aumenta l'affidabilità degli LLM e aiuta a proteggere gli utenti da contenuti dannosi. Con la ricerca in corso, speriamo di migliorare ulteriormente queste misure di sicurezza, contribuendo a un ambiente più Sicuro per tutti coloro che utilizzano questi strumenti avanzati.

Fonte originale

Titolo: Certifying LLM Safety against Adversarial Prompting

Estratto: Large language models (LLMs) are vulnerable to adversarial attacks that add malicious tokens to an input prompt to bypass the safety guardrails of an LLM and cause it to produce harmful content. In this work, we introduce erase-and-check, the first framework for defending against adversarial prompts with certifiable safety guarantees. Given a prompt, our procedure erases tokens individually and inspects the resulting subsequences using a safety filter. Our safety certificate guarantees that harmful prompts are not mislabeled as safe due to an adversarial attack up to a certain size. We implement the safety filter in two ways, using Llama 2 and DistilBERT, and compare the performance of erase-and-check for the two cases. We defend against three attack modes: i) adversarial suffix, where an adversarial sequence is appended at the end of a harmful prompt; ii) adversarial insertion, where the adversarial sequence is inserted anywhere in the middle of the prompt; and iii) adversarial infusion, where adversarial tokens are inserted at arbitrary positions in the prompt, not necessarily as a contiguous block. Our experimental results demonstrate that this procedure can obtain strong certified safety guarantees on harmful prompts while maintaining good empirical performance on safe prompts. Additionally, we propose three efficient empirical defenses: i) RandEC, a randomized subsampling version of erase-and-check; ii) GreedyEC, which greedily erases tokens that maximize the softmax score of the harmful class; and iii) GradEC, which uses gradient information to optimize tokens to erase. We demonstrate their effectiveness against adversarial prompts generated by the Greedy Coordinate Gradient (GCG) attack algorithm. The code for our experiments is available at https://github.com/aounon/certified-llm-safety.

Autori: Aounon Kumar, Chirag Agarwal, Suraj Srinivas, Aaron Jiaxun Li, Soheil Feizi, Himabindu Lakkaraju

Ultimo aggiornamento: 2024-02-12 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2309.02705

Fonte PDF: https://arxiv.org/pdf/2309.02705

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili