La menace des attaques par brouillage sur les systèmes RAG
Les attaques par brouillage peuvent perturber les systèmes de génération augmentée par récupération en bloquant les réponses.
― 7 min lire
Table des matières
- Comment fonctionnent les systèmes RAG
- Types d'attaques contre les systèmes RAG
- Qu'est-ce qu'un document bloqueur ?
- Générer des documents bloqueurs
- 1. Instructions directes
- 2. Utiliser un LLM oracle
- 3. Optimisation en boîte noire
- Tester l'efficacité des attaques de jamming
- Mesurer le taux de succès
- Résultats des tests sur différents LLMs
- Comparaison entre les modèles
- Raisons de la vulnérabilité
- Défenses contre les attaques de jamming
- 1. Analyse de perplexité
- 2. Paraphraser les requêtes
- 3. Augmenter la taille du contexte
- Conclusion
- Source originale
- Liens de référence
La Génération augmentée par récupération (RAG) est un système qui utilise de grands modèles de langage (LLMs) pour répondre à des questions. Quand un utilisateur pose une question, le système cherche d'abord des documents pertinents dans sa base de connaissances. Après avoir trouvé ces documents, le LLM génère une réponse en utilisant les infos qu'ils contiennent.
Mais il y a un problème. Les systèmes RAG peuvent être vulnérables aux attaques. Un type d'attaque, appelé "jamming", se produit quand quelqu'un ajoute un document spécial, connu sous le nom de document "bloqueur", à la base de connaissances. Ce document bloqueur est conçu pour empêcher le système de répondre à une question spécifique. Cela peut amener le système à dire qu'il n'a pas assez d'infos ou qu'il ne peut pas répondre parce que ça pourrait être dangereux.
Dans cet article, on va discuter de comment ces attaques de jamming fonctionnent, les méthodes qui peuvent être utilisées pour créer des documents bloqueurs, et l'efficacité de ces attaques contre différents systèmes RAG.
Comment fonctionnent les systèmes RAG
Les systèmes RAG ont deux parties principales. La première partie récupère les documents liés à une requête, et la deuxième partie génère des réponses basées sur ces documents.
Quand une requête est soumise, le système récupère un ensemble de documents les plus pertinents pour cette requête. Cela se fait en mesurant la similarité entre les documents et la question soumise. Le LLM utilise ensuite ces documents pour créer une réponse.
Ces systèmes sont censés être intelligents, mais ils peuvent quand même être trompés. Les attaquants peuvent ajouter leurs propres documents à la base de données, qui peuvent contenir des infos trompeuses ou nuisibles. Cela peut mener le système à donner de mauvaises réponses ou à ne pas répondre du tout.
Types d'attaques contre les systèmes RAG
Il y a différentes manières dont les attaquants peuvent essayer d'interférer avec les systèmes RAG. Un type d'attaque bien connu est l'Injection de prompt, où l'attaquant essaie de manipuler l'entrée donnée au LLM. Au lieu de changer directement la base de données, ils modifient le prompt que le LLM voit.
Les attaques de jamming sont différentes parce qu'elles visent à empêcher le LLM de répondre à une question. Au lieu de diriger le LLM pour donner une réponse spécifique, l'objectif est de créer une situation où le système refuse de répondre. Cela peut être fait en insérant un document bloqueur dans la base de connaissances.
Qu'est-ce qu'un document bloqueur ?
Un document bloqueur est spécifiquement conçu pour interférer avec des requêtes spécifiques. Une fois ajouté à la base de connaissances du système RAG, il peut amener le système à répondre d'une manière que l'attaquant souhaite.
Par exemple, si quelqu'un veut empêcher le système de répondre à une question sur un certain sujet, il peut créer un document bloqueur qui fait que le LLM dit quelque chose comme : "Je ne sais pas," ou "C'est dangereux de répondre à ça."
Pour s'assurer que le document bloqueur fonctionne, il doit être étroitement lié à la requête ciblée. Cela signifie que le document doit être soigneusement conçu pour que le système le récupère quand cette question spécifique est posée.
Générer des documents bloqueurs
Il y a plusieurs méthodes pour créer ces documents bloqueurs. Voici quelques approches communes :
1. Instructions directes
Une façon de créer un document bloqueur est de fournir des instructions claires dans le document lui-même. L'attaquant peut inclure des déclarations qui disent au LLM d'ignorer d'autres infos et de juste répondre par un refus spécifique.
2. Utiliser un LLM oracle
Une autre méthode consiste à demander à un LLM plus avancé (souvent appelé oracle) d'aider à générer le document bloqueur. L'attaquant donne à l'oracle le résultat souhaité et lui demande de créer un texte qui mènera à ce résultat quand il sera interrogé.
3. Optimisation en boîte noire
La méthode la plus avancée pour générer des documents bloqueurs s'appelle optimisation en boîte noire. Avec cette approche, l'attaquant n'a pas besoin de connaissances spécifiques sur le fonctionnement du système RAG cible. Au lieu de cela, il peut tester de manière adaptative différents documents pour voir lesquels ont l'effet désiré sur les réponses que le système fournit.
Tester l'efficacité des attaques de jamming
Une fois que les documents bloqueurs sont créés, il est important de tester leur efficacité contre différents systèmes RAG. Le processus consiste à vérifier combien de requêtes les documents bloqueurs ont réussies à bloquer par rapport aux requêtes qui ont été répondues correctement.
Mesurer le taux de succès
Pour mesurer le succès, on doit comparer deux scénarios : un où le système fonctionne normalement et répond à une requête, et un autre où le système bloque la même requête à cause de la présence d'un document bloqueur. Si la réponse change d'une réponse valide à un refus de répondre, cela indique que l'attaque de jamming a réussi.
Résultats des tests sur différents LLMs
Quand testés contre des LLMs populaires, les résultats montrent que certains modèles sont plus vulnérables aux attaques de jamming que d'autres. Certains modèles peuvent souvent refuser de répondre, tandis que d'autres peuvent encore fournir des réponses même quand un document bloqueur est présent.
Comparaison entre les modèles
Llama-2, Vicuna et Mistral sont quelques-uns des LLMs testés. On a trouvé que Llama-2 a tendance à être plus vulnérable au jamming que les autres. Cela signifie que quand un document bloqueur est ajouté, Llama-2 est plus susceptible de refuser de répondre.
Raisons de la vulnérabilité
La vulnérabilité de certains LLMs peut être attribuée à la manière dont ils traitent l'information. Si un LLM est programmé pour éviter de générer du contenu potentiellement dangereux, il peut automatiquement refuser des réponses qui pourraient être jugées nocives. Cette tendance peut être exploitée par des attaques de jamming.
Défenses contre les attaques de jamming
Pour protéger les systèmes RAG contre ce type d'attaques, plusieurs stratégies de défense peuvent être envisagées.
1. Analyse de perplexité
Une méthode consiste à analyser la "naturelité" du texte. Comme les documents bloqueurs contiennent souvent des phrases absurdes ou non naturelles, mesurer à quel point le texte est perplexe peut aider à identifier des documents bloqueurs potentiels.
2. Paraphraser les requêtes
Une autre méthode est de paraphraser les questions avant de les soumettre au système RAG. Cela pourrait aider à obtenir des réponses différentes, rendant plus difficile pour un document bloqueur de bloquer le système.
3. Augmenter la taille du contexte
En augmentant le nombre de documents que le système récupère pour une requête, la présence d'un document bloqueur peut être diluée. Avec plus de documents propres dans le mélange, il se peut que le document bloqueur influence moins la sortie finale.
Conclusion
Les attaques de jamming sont une menace importante pour les systèmes de génération augmentée par récupération. En insérant un document bloqueur, un attaquant peut amener le système à refuser de répondre à des requêtes importantes.
Bien qu'il existe diverses méthodes pour créer des documents bloqueurs, l'efficacité de ces attaques peut varier selon le LLM utilisé. Il y a des défenses disponibles, mais elles nécessitent une amélioration continue pour rester en avance sur les attaques potentielles.
À mesure que les systèmes RAG deviennent de plus en plus intégrés dans diverses applications, comprendre ces vulnérabilités et renforcer les défenses sera crucial pour maintenir la fiabilité et la crédibilité des réponses générées par l'IA.
Titre: Machine Against the RAG: Jamming Retrieval-Augmented Generation with Blocker Documents
Résumé: Retrieval-augmented generation (RAG) systems respond to queries by retrieving relevant documents from a knowledge database, then generating an answer by applying an LLM to the retrieved documents. We demonstrate that RAG systems that operate on databases with untrusted content are vulnerable to a new class of denial-of-service attacks we call jamming. An adversary can add a single ``blocker'' document to the database that will be retrieved in response to a specific query and result in the RAG system not answering this query - ostensibly because it lacks the information or because the answer is unsafe. We describe and measure the efficacy of several methods for generating blocker documents, including a new method based on black-box optimization. This method (1) does not rely on instruction injection, (2) does not require the adversary to know the embedding or LLM used by the target RAG system, and (3) does not use an auxiliary LLM to generate blocker documents. We evaluate jamming attacks on several LLMs and embeddings and demonstrate that the existing safety metrics for LLMs do not capture their vulnerability to jamming. We then discuss defenses against blocker documents.
Auteurs: Avital Shafran, Roei Schuster, Vitaly Shmatikov
Dernière mise à jour: 2024-09-16 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.05870
Source PDF: https://arxiv.org/pdf/2406.05870
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.