Mettere al sicuro i modelli di linguaggio: un approccio competitivo
La competizione svela vulnerabilità e difese nella sicurezza dei modelli di linguaggio.
― 3 leggere min
Indice
I grandi modelli di linguaggio affrontano rischi di sicurezza significativi da messaggi creati ad arte che mirano a sovrascrivere le istruzioni originali del sistema o a rivelare dati privati. Per studiare questo problema, è stata organizzata una competizione di capture-the-flag all'IEEE SaTML 2024, dove l'obiettivo era proteggere una stringa segreta nel prompt del sistema LLM. La competizione si è svolta in due fasi: la fase di Difesa, dove i team hanno sviluppato difese, e la fase di attacco, dove i team hanno cercato di estrarre i segreti.
Setup della Competizione
La competizione ha utilizzato un'interfaccia web dove i team potevano creare e modificare le loro difese e interagire con il modello. Ogni team ha ricevuto dei crediti per interrogare i modelli. La fase di difesa ha visto i team creare difese contro modelli come GPT-3.5 e Llama-2. La fase di attacco ha permesso ai team di testare le loro difese.
Fase di Difesa
I team hanno progettato difese che includevano un prompt di sistema, un filtro Python e un filtro LLM. Le difese miravano a impedire al modello di rivelare il Segreto mantenendo la sua utilità per prompt non correlati.
Fase di Attacco
Durante la fase di attacco, i team miravano a rompere le difese. Questa fase ha avuto una fase di ricognizione in cui gli attaccanti interagivano liberamente con le difese e una fase di valutazione con un numero limitato di interazioni valutate.
Risultati della Competizione
La competizione ha visto 163 team registrati, con 72 difese presentate. Ci sono state 137.063 chat uniche nella fase di attacco, e 35 team hanno superato almeno una difesa. È stato creato un dataset di oltre 137k interazioni a supporto della ricerca futura.
Il Dataset
Il dataset è diviso in difese e chat. La parte delle difese contiene dettagli sulle difese accettate, mentre la parte delle chat contiene interazioni degli utenti durante la fase di attacco.
Esplorazione del Dataset
Il dataset delle chat include conversazioni provenienti da 65 diversi team di attacco. Solo il 4% delle voci ha coinvolto estrazioni di segreti di successo. L'analisi del dataset rivela intuizioni sulle strategie di attacco e mette in evidenza l'importanza delle conversazioni multi-turno per Attacchi riusciti.
Difese Più Efficaci
- Team Hestia: Ha usato segreti falsi nel prompt di sistema come esche e ha applicato filtri rigorosi per offuscare il vero segreto.
- Team RSLLM: Ha migliorato il prompt di sistema con istruzioni esplicite per evitare di rivelare segreti e ha applicato filtri di output efficaci.
- Team WreckTheLine: Ha incorporato segreti di decoy e ha impiegato un approccio multi-fase focalizzato sia sulla sicurezza che sull'utilità.
Attacchi Più Efficaci
- Team WreckTheLine: Ha adattato gli attacchi per sfruttare le debolezze delle difese, incluso l'uso di sinonimi e l'evitare parole proibite.
- Team Shrug Face Shrug: Ha utilizzato un mix di query benigne e formati di richiesta specifici per estrarre segreti.
- Team Hestia: Ha inquadrato richieste per indurre il modello a rivelare segreti indirettamente.
Lezioni Apprese
Le cose principali da ricordare dalla competizione includono:
- Attacchi Adattivi: Personalizzare gli attacchi per tenere conto delle difese specifiche si è rivelato essenziale.
- Valutazione Multi-turno: Gli attacchi di successo spesso si basavano su interazioni multi-turno, sottolineando la necessità di metodi di valutazione complessi.
- Sfide di Filtraggio: Il filtraggio efficace è difficile, poiché anche configurazioni semplici possono essere bypassate da attaccanti adattivi.
- Complessità della Difesa: Le difese devono considerare varie potenziali strategie di attacco, poiché gli attaccanti possono sfruttare anche le debolezze minori.
Conclusione
Questa competizione ha evidenziato le sfide continue nella sicurezza degli LLM contro attacchi di iniezione di prompt. Il dataset creato servirà come risorsa preziosa per future ricerche volte a migliorare la sicurezza dei sistemi di modelli di linguaggio.
Titolo: Dataset and Lessons Learned from the 2024 SaTML LLM Capture-the-Flag Competition
Estratto: Large language model systems face important security risks from maliciously crafted messages that aim to overwrite the system's original instructions or leak private data. To study this problem, we organized a capture-the-flag competition at IEEE SaTML 2024, where the flag is a secret string in the LLM system prompt. The competition was organized in two phases. In the first phase, teams developed defenses to prevent the model from leaking the secret. During the second phase, teams were challenged to extract the secrets hidden for defenses proposed by the other teams. This report summarizes the main insights from the competition. Notably, we found that all defenses were bypassed at least once, highlighting the difficulty of designing a successful defense and the necessity for additional research to protect LLM systems. To foster future research in this direction, we compiled a dataset with over 137k multi-turn attack chats and open-sourced the platform.
Autori: Edoardo Debenedetti, Javier Rando, Daniel Paleka, Silaghi Fineas Florin, Dragos Albastroiu, Niv Cohen, Yuval Lemberg, Reshmi Ghosh, Rui Wen, Ahmed Salem, Giovanni Cherubin, Santiago Zanella-Beguelin, Robin Schmid, Victor Klemm, Takahiro Miki, Chenhao Li, Stefan Kraft, Mario Fritz, Florian Tramèr, Sahar Abdelnabi, Lea Schönherr
Ultimo aggiornamento: 2024-06-12 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2406.07954
Fonte PDF: https://arxiv.org/pdf/2406.07954
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.