Améliorer la génération de texte adversarial avec l'apprentissage par renforcement
Une nouvelle méthode utilise l'apprentissage par renforcement pour générer des exemples adverses efficaces.
― 11 min lire
Table des matières
- Explications des Attaques Adversariales
- La Méthodologie
- Travaux Connus
- Attaques de Modification de Tokens
- Attaques Génératives
- Approche Proposée
- Configuration de l'Entraînement
- Fonction de Perte
- Mécanisme de Récompense
- Contraintes pour les Exemples Adversariaux
- Configuration Expérimentale
- Hyperparamètres
- Résultats
- Comparaison avec d'Autres Attaques
- Validation Humaine
- Extension de l'Approche
- Discussion des Méthodes de Décodage
- Conclusion
- Source originale
- Liens de référence
Les classificateurs de texte, qui sont utilisés pour trier et catégoriser du texte, peuvent être dupés par des exemples spécialement conçus appelés Exemples adversariaux. Ce sont des échantillons de texte originaux qui ont été légèrement modifiés mais qui semblent encore acceptables. La méthode originale pour trouver ces exemples implique un processus complexe où tu définis quels changements peuvent être faits et ensuite tu cherches ces changements. Bien que cette approche fonctionne, elle est lente et limitée par le type de changements choisis.
Une autre façon de générer des exemples adversariaux est d'ajuster un modèle de langage pré-entraîné, similaire à ce qui est fait pour d'autres tâches comme la traduction ou le résumé. Cette méthode est beaucoup plus rapide et offre plus de variété, mais elle n'est pas encore largement utilisée. Dans ce travail, on utilise un modèle d'apprentissage machine qui peut reformuler des phrases pour créer une large gamme d'exemples adversariaux. On utilise l'Apprentissage par renforcement, qui est un type d'apprentissage machine où un agent apprend à prendre des décisions en recevant des récompenses pour les bons résultats. On introduit également un système de récompense qui encourage la création d'exemples adversariaux valides. Nos expériences montrent que notre modèle surpasse les méthodes précédentes en produisant des exemples adversariaux plus réussis.
Explications des Attaques Adversariales
Les attaques adversariales sont des tentatives de faire prédire une mauvaise étiquette par un classificateur de texte pour une entrée. Ces attaques peuvent se produire dans de nombreux domaines et représentent un réel risque pour la sécurité. Par exemple, des attaques adversariales pourraient être utilisées pour faire en sorte que des outils comme Google Traduction produisent des sorties offensantes ou absurdes. Dans le contexte des classificateurs de texte, un attaquant commence avec un exemple correctement étiqueté et fait de petits changements, le transformant en un exemple adversarial que le modèle étiquette incorrectement. L'exemple modifié doit généralement suivre certaines règles, comme rester proche du texte original et avoir un sens grammaticalement. Cependant, il n'y a pas d'accord clair sur ce que ces règles devraient être.
La façon habituelle de trouver ces exemples adversariaux est à travers une méthode appelée attaques de modification de tokens. Cela implique de changer des parties du texte (tokens) jusqu'à ce que la prédiction du modèle change. La première étape consiste à déterminer ce qui comptera comme une attaque réussie et quels changements sont autorisés. Ensuite, des techniques sont utilisées pour rechercher ces changements.
Bien que cette méthode ait été efficace, elle présente des inconvénients significatifs. Tout d'abord, elle peut être très lente, surtout pour des textes plus longs, car elle nécessite plusieurs requêtes au modèle victime. Deuxièmement, elle limite les types de changements qui peuvent être effectués, ce qui empêche des transformations plus complexes comme la reformulation.
Une approche alternative consiste à considérer la génération d'exemples adversariaux comme un problème de transformation d'un texte en un autre. Cela peut être fait avec des modèles de séquence à séquence (seq2seq), couramment utilisés en traduction et en résumé. Cette méthode offre plusieurs avantages par rapport aux attaques de modification de tokens. Par exemple, une fois entraîné, elle peut générer des exemples adversariaux beaucoup plus rapidement et créer plusieurs exemples divers pour une seule entrée.
Cependant, entraîner un modèle à générer du texte contrôlé peut être très difficile. Il peut avoir du mal à produire des phrases cohérentes, pertinentes et grammaticalement correctes. Dans notre cas, le modèle doit changer l'étiquette prédite sans violer aucune règle établie.
Pour relever ces défis, nous affinons un modèle pré-entraîné qui génère des paraphrases pour créer des exemples adversariaux. Nous faisons cela en utilisant une approche d'apprentissage par renforcement qui inclut un système de récompense pour encourager une génération adversariale réussie tout en maintenant la cohérence du texte généré.
La Méthodologie
Notre méthode implique d'entraîner un modèle encodeur-décodeur en utilisant un type d'algorithme d'apprentissage par renforcement. Le modèle est entraîné pour générer une paraphrase d'un texte d'entrée tout en visant également à induire en erreur un classificateur de sentiment pour qu'il fasse une mauvaise prédiction. Nous introduisons une fonction de récompense qui promeut la génération d'exemples adversariaux réussis et pénalise les violations des contraintes.
Notre processus d'entraînement nécessite des prédictions du modèle victime mais n'a pas besoin d'autres informations, ce qui nous permet d'effectuer des attaques en boîte noire ou en boîte grise. Nous évaluons notre approche sur deux ensembles de données d'analyse des sentiments pour mesurer le succès de nos attaques adversariales. Les résultats montrent que notre approche surpasse considérablement les méthodes traditionnelles en termes de taux de réussite et de diversité des exemples générés.
Travaux Connus
Les attaques adversariales en classification de texte peuvent généralement être divisées en deux catégories : attaques de modification de tokens et attaques génératives.
Attaques de Modification de Tokens
La plupart des attaques adversariales actuelles dans le texte reposent sur des modifications de tokens. Ces attaques consistent généralement en quatre composants : un objectif, des transformations autorisées, des contraintes qui doivent être respectées et une méthode de recherche. Le processus génère souvent des changements en appliquant des transformations répétées au niveau des tokens, comme remplacer des caractères ou échanger des synonymes. Bien que ces méthodes puissent être efficaces, elles produisent souvent un seul exemple adversarial pour chaque entrée originale, ce qui limite leur utilité.
Attaques Génératives
Certaines recherches antérieures ont visé à utiliser des modèles génératifs pour créer des exemples adversariaux. Différents types de modèles, y compris les réseaux de mémoire à long terme et les autoencodeurs variationnels, ont été testés à cet effet. D'autres méthodes comme les Réseaux Antagonistes Génératifs (GANs) ont également été explorées ; cependant, elles rencontrent des défis significatifs pendant l'entraînement et ont souvent du mal à maintenir les propriétés nécessaires du texte.
Avec l'introduction des modèles transformateurs, une nouvelle approche puissante a émergé. Ces modèles sont pré-entraînés sur de grands ensembles de données et peuvent être affinés pour des tâches spécifiques. Les travaux précédents ne se sont pas concentrés sur l'affinage d'un paraphraser pré-entraîné dans le but de générer des exemples adversariaux, ce qui rend notre approche novatrice.
Approche Proposée
L'objectif de notre travail est d'affiner un Modèle de paraphrase pré-entraîné pour générer des exemples adversariaux en utilisant l'apprentissage par renforcement. Nous utilisons le modèle transformateur T5 à cet effet.
Configuration de l'Entraînement
Lors de l'entraînement, nous générons une paraphrase pour chaque exemple original. Nous collectons ces paraphrases en lots pour calculer la fonction de perte. Lors de la validation, nous pouvons générer plusieurs exemples adversariaux candidats pour n'importe quelle entrée originale en utilisant différentes méthodes de décodage. Le processus considère une attaque réussie si au moins un exemple généré respecte les contraintes spécifiées.
Pour équilibrer le taux de succès de l'attaque avec le temps de génération et les limitations de ressources, nous décidons de générer un nombre fixe de paraphrases par exemple original. La même procédure est utilisée lors des tests.
Fonction de Perte
Pour guider l'entraînement, nous créons une politique qui aide le modèle à apprendre comment générer des exemples adversariaux. Nous utilisons l'apprentissage par renforcement, où le modèle reçoit une récompense en fonction de la manière dont il atteint son objectif. Nous incluons également une pénalité pour empêcher le modèle de s'écarter trop du modèle de paraphrase original afin de maintenir la qualité et la cohérence.
Mécanisme de Récompense
Le mécanisme de récompense se concentre sur deux facteurs principaux : atteindre la mauvaise classification tout en respectant les contraintes établies. Nous définissons des critères clairs pour les paraphrases afin de garantir qu'elles restent significatives et grammaticalement correctes.
Contraintes pour les Exemples Adversariaux
Nos exemples adversariaux doivent respecter des contraintes spécifiques, notamment :
- Invariance de l'Étiquette : Les phrases originales et générées ne doivent pas se contredire en termes de sens.
- Consistance Sémantique : L'original et la paraphrase doivent partager un sens similaire.
- Acceptabilité Linguistique : Le texte généré doit être cohérent et grammaticalement correct.
- Similarité de Longueur : La longueur des phrases originales et générées doit être similaire.
- Éviter Certaines Phrases : Le texte généré ne doit pas utiliser de phrases de contraste liantes sauf si le texte original le fait.
Configuration Expérimentale
Nous conduisons des tests en utilisant deux ensembles de données d'analyse des sentiments. L'ensemble de données Rotten Tomatoes se compose de critiques de films étiquetées comme positives ou négatives, tandis que l'ensemble de données Financial PhraseBank contient des nouvelles financières étiquetées comme positives, neutres ou négatives. Nous avons exclu les exemples où le modèle victime a fait des prédictions incorrectes et nous nous sommes concentrés sur des textes plus courts pour s'adapter aux contraintes des données d'entraînement.
Hyperparamètres
Plusieurs hyperparamètres ont été testés pour optimiser les performances. Cela inclut la température d'échantillonnage de décodage et la méthode de décodage utilisée lors de l'évaluation. Chaque approche a été validée à travers diverses configurations pour trouver les réglages les plus efficaces pour notre modèle.
Résultats
Nos expériences montrent que le modèle affiné améliore significativement le taux de succès de l'attaque par rapport au modèle de paraphrase original. Nous observons que le modèle affiné génère systématiquement un plus grand nombre d'exemples adversariaux réussis avec moins de requêtes nécessaires.
Comparaison avec d'Autres Attaques
Nous avons également comparé notre méthode à une gamme d'attaques adversariales établies. Dans chaque comparaison, notre modèle affiné s'est révélé plus efficace, atteignant un taux de succès élevé tout en nécessitant moins de requêtes que les méthodes traditionnelles.
Validation Humaine
Pour s'assurer que notre modèle maintienne le sens original, nous avons réalisé une validation humaine. Des annotateurs ont évalué les exemples générés par notre modèle et les ont comparés à ceux produits par d'autres méthodes. Les résultats ont indiqué que notre modèle affiné conserve le sens tout en atteignant un taux élevé de mauvaise classification.
Extension de l'Approche
Ensuite, nous avons testé la méthode sur une tâche de classification différente : la classification des types de questions en utilisant l'ensemble de données TREC. Ce test visait à voir si notre approche pouvait se généraliser au-delà de l'analyse des sentiments. Les résultats étaient prometteurs, montrant que notre méthode pouvait s'adapter efficacement à diverses tâches de classification.
Discussion des Méthodes de Décodage
Nous avons analysé les différentes méthodes d'évaluation utilisées lors de l'évaluation. Chaque méthode a influencé le taux de succès de l'attaque et la qualité du texte généré. Les résultats ont indiqué que des méthodes de décodage spécifiques, comme le beam search, ont conduit aux taux de succès d'attaque les plus élevés, tout en maintenant la fluidité et la diversité du texte.
Conclusion
En conclusion, nous avons développé une nouvelle manière de générer des exemples adversariaux pour les classificateurs de texte en utilisant un modèle de paraphrase affiné. Notre approche, soutenue par un mécanisme de récompense robuste, a montré qu'elle surpasse les méthodes traditionnelles tant en quantité qu'en qualité des exemples adversariaux produits. Les résultats réussis à travers divers ensembles de données suggèrent la polyvalence de cette méthode, ouvrant des voies pour de futures explorations dans la génération de texte adversarial et ses applications dans différents domaines.
Titre: A Constraint-Enforcing Reward for Adversarial Attacks on Text Classifiers
Résumé: Text classifiers are vulnerable to adversarial examples -- correctly-classified examples that are deliberately transformed to be misclassified while satisfying acceptability constraints. The conventional approach to finding adversarial examples is to define and solve a combinatorial optimisation problem over a space of allowable transformations. While effective, this approach is slow and limited by the choice of transformations. An alternate approach is to directly generate adversarial examples by fine-tuning a pre-trained language model, as is commonly done for other text-to-text tasks. This approach promises to be much quicker and more expressive, but is relatively unexplored. For this reason, in this work we train an encoder-decoder paraphrase model to generate a diverse range of adversarial examples. For training, we adopt a reinforcement learning algorithm and propose a constraint-enforcing reward that promotes the generation of valid adversarial examples. Experimental results over two text classification datasets show that our model has achieved a higher success rate than the original paraphrase model, and overall has proved more effective than other competitive attacks. Finally, we show how key design choices impact the generated examples and discuss the strengths and weaknesses of the proposed approach.
Auteurs: Tom Roth, Inigo Jauregi Unanue, Alsharif Abuadbba, Massimo Piccardi
Dernière mise à jour: 2024-05-20 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2405.11904
Source PDF: https://arxiv.org/pdf/2405.11904
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.acm.org/publications/taps/whitelist-of-latex-packages
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://dl.acm.org/ccs.cfm
- https://huggingface.co/prithivida/parrot
- https://huggingface.co/textattack/distilbert-base-uncased-rotten-tomatoes
- https://huggingface.co/mrm8488/distilroberta-fine-tuned-financial-news-sentiment-analysis
- https://huggingface.co/aychang/bert-base-cased-trec-coarse
- https://huggingface.co/aychang/distilbert-base-cased-trec-coarse
- https://huggingface.co/textattack/albert-base-v2-CoLA
- https://huggingface.co/sentence-transformers/paraphrase-MiniLM-L12-v2
- https://huggingface.co/howey/electra-small-mnli
- https://huggingface.co/models
- https://huggingface.co/distilroberta-base