Simple Science

La science de pointe expliquée simplement

# Informatique# Apprentissage automatique

Nouvelles attaques révèlent des failles dans le marquage des textes

Des recherches révèlent des failles dans les méthodes de filigrane pour les textes générés par IA.

― 15 min lire


Les défauts du marquageLes défauts du marquagedes textes par l'IArévélésgénérés par IA.efficacement les filigranes des textesDe nouvelles attaques enlèvent
Table des matières

Le watermarking, c'est une méthode pour glisser un signal caché dans le texte produit par des grands modèles de langage (LLMs). Ça permet d'identifier la source du texte. Mais on introduit un nouveau type d'attaque, qu'on appelle les Attaques de Lissage. Nos découvertes montrent que les techniques de watermarking actuelles sont vulnérables aux changements minimes dans le texte. Un attaquant peut utiliser des modèles de langage moins avancés pour retirer les altérations causées par les watermarks sans dégrader la qualité globale du texte. Le texte modifié reste similaire à ce que le modèle original aurait produit sans watermark. Notre attaque met en lumière une faiblesse clé dans de nombreuses méthodes de watermarking.

Au fur et à mesure que les LLMs s'améliorent, il devient de plus en plus difficile de savoir si un texte a été créé par une IA ou un humain. Une façon de résoudre ça, c'est le watermarking textuel, qui modifie un peu la manière dont les séquences de tokens sont générées. Ces changements permettent à un détecteur d'identifier les watermarks sans que les humains s'en rendent compte. Le processus de watermarking augmente la probabilité de choisir certains tokens, appelés la "liste verte." Le watermarking fait face à deux grands défis : garder la Qualité du texte élevée et rendre difficile la suppression du watermark. On se concentre sur le deuxième défi, en testant la résistance des techniques de watermarking face aux tentatives de suppression.

L'attaquant ne veut pas juste supprimer les watermarks au hasard. Au lieu de ça, le but est de créer un texte qui ressemble à ce que le modèle original aurait généré, sans aucun signe de watermark. Donc, la force des stratégies de watermarking doit être évaluée en fonction de la difficulté à produire un texte de haute qualité qui imite le modèle original sans laisser de traces de watermark. Dans cet article, on présente des attaques de lissage de watermarking qui atteignent cet objectif.

On suppose que l'attaquant a accès à un modèle de langage plus faible que le modèle cible. À cause de cette différence de capacité, on s'attend à ce que les deux modèles aient des idées différentes sur quels tokens échantillonner ensuite. Une petite partie de cette variation vient de la technique de watermarking. On a développé un algorithme qui utilise le modèle plus faible pour lisser ces différences qui sont cohérentes sur divers échantillons. On considère les deux modèles comme deux façons de classer les tokens et on effectue un test statistique pour déterminer comment chaque token contribue aux différences dans les classements causées par les watermarks. En répétant cette évaluation à travers plusieurs tests, on peut estimer la probabilité que chaque token provienne de la liste watermarkée. Sur cette base, notre méthode de lissage de watermark trouve la probabilité du prochain token en utilisant un mélange des deux modèles, favorisant le modèle plus faible pour les tokens identifiés comme watermarkés. Cela permet à l'attaquant d'éviter la détection tout en générant un texte de meilleure qualité comparé au modèle plus faible.

Techniques de Watermarking

Les techniques de watermarking introduisent de petits décalages dans les chances de choisir des tokens pour qu'un algorithme de détection puisse repérer ces décalages dans une longue séquence de tokens tout en restant invisible pour les lecteurs humains. Dans cette méthode, l'algorithme de watermarking augmente les chances d'échantillonner certains tokens. Cela peut être fait de plusieurs manières. Une méthode courante consiste à sélectionner certains tokens pour composer la liste verte (ou l'ensemble watermarké) et à augmenter leurs valeurs assignées, tout en laissant les valeurs des autres tokens inchangées.

Quand on génère le prochain token, le processus de sélection pour les tokens verts peut dépendre des tokens précédents. De cette manière, un watermark est intégré dans les tokens échantillonnés, rendant la sortie biaisée vers les tokens de la liste verte. Le modèle watermarké est noté "W." Étant donné le processus aléatoire pour créer la liste verte et une séquence de tokens de longueur "n", un algorithme de détection cherche des signes de trop nombreux tokens watermarkés. Si un texte non watermarké est présent, il est peu probable qu'il soit mal classé comme watermarké à cause du caractère aléatoire des listes verte et rouge.

Quand le texte généré est exempt de watermarks, on s'attend à ce que le nombre de tokens verts dans le texte, noté "g," soit proche de "k," où "k" est le compte anticipé pour toute séquence de longueur "n." L'algorithme de détection calcule un score appelé z-score. Si ce score dépasse un seuil spécifique, la séquence est classée comme watermarkée.

La division des listes verte et rouge dépend du contexte des "k" tokens précédents. Une division indépendante du contexte est connue sous le nom de watermark Unigram, tandis qu'une division ne dépendant que du dernier token est appelée watermark 2-gram. La longueur du contexte peut être encore augmentée. Une méthode appelée Self-Hash prend en compte à la fois les tokens précédents et le token en cours de génération.

Énoncé du Problème

Notre objectif est d'analyser la force des watermarks statistiques. Pour cela, on crée un algorithme d'attaque qui génère un texte similaire à ce que le modèle original sans watermark produirait tout en contournant le détecteur de watermark.

On suppose que l'attaquant a un accès complet à un modèle plus faible, appelé modèle de référence. Dans des situations réelles, ce modèle de référence devrait être moins capable que le modèle cible car sinon, l'attaquant aurait peu de raisons d'attaquer le modèle watermarké. En utilisant le modèle de référence, l'attaquant peut générer du texte pour n'importe quel prompt durant le processus de génération de texte. L'attaquant exploite le classement des tokens pour accéder au modèle watermarké. On suppose que l'attaquant connaît l'algorithme de watermarking utilisé, y compris la longueur du contexte, mais n'a pas d'informations sur les valeurs de décalage des watermarks ou la fraction de tokens verts.

Cadre d'Attaque

Notre cadre d'attaque a deux phases. Dans la première phase, l'attaquant identifie la liste verte et donc les watermarks. Dans la deuxième phase, l'attaquant lisse les watermarks en ajustant la chance de sélectionner des tokens verts vers celle du modèle de référence, ce qui donne un texte sans watermark tout en atteignant une haute qualité, simulant un texte généré par le modèle cible.

Phase I : Inférence de Watermark

L'idée clé, c'est que, étant donné le contexte du préfixe, des modèles de langage raisonnables ont tendance à s'accorder sur les meilleurs tokens à utiliser. Par exemple, si on demande "Pourquoi le ciel est," la probabilité que le token "bleu" soit choisi devrait être bien plus élevée que d'autres comme "@." En d'autres termes, les classements des tokens parmi la liste de vocabulaire fournie par différents modèles devraient être similaires. Il est rare que des modèles soient en désaccord sur un token particulier à travers de nombreux préfixes. En revanche, pour le modèle watermarké, la perturbation du watermark pousse les tokens verts vers le haut tout en tirant les tokens rouges vers le bas, peu importe la signification du préfixe. Ce décalage constant peut être détecté en comparant les rangs des tokens dans le modèle watermarké avec ceux dans n'importe quel modèle de référence non watermarké.

Notre approche commence par évaluer le désaccord entre les deux modèles en termes de placement des tokens. C'est là que la corrélation des rangs entre en jeu. On va vérifier à quel point les classements sont similaires ou différents entre les deux modèles. L'idée de corrélation des rangs a été largement étudiée. Plus précisément, la corrélation de Spearman mesure la somme des différences au carré entre les rangs des tokens.

Pour détecter le watermark avec précision, on doit évaluer combien chaque token contribue à la corrélation. Cette étape est vitale car les tokens verts et rouges impactent les classements différemment : ils poussent les tokens verts vers le haut tout en tirant les tokens rouges vers le bas. En considérant comment chaque token affecte les classements, on peut identifier les décalages opposés. La différence de rang pour chaque token sert d'indicateur pour savoir s'il est vert ou rouge.

La position relative mesure comment un token se classe par rapport à tous les autres, évaluée par le modèle à chaque étape. Un score plus élevé est donné aux tokens plus susceptibles d'être échantillonnés. Différentes métriques peuvent être utilisées pour mesurer la position relative. Si l'attaquant a les probabilités de sortie pour tous les tokens, le score standard peut servir de position relative, ce qui indique le nombre d'écarts-types par rapport à la moyenne. Si seuls les "m" meilleurs tokens sont visibles, l'attaquant peut utiliser une technique appelée biais logit, permettant des ajustements pour n'importe quel token, donnant un classement complet pour tous les tokens.

La différence de position relative mesure comment le classement d'un token dans le modèle watermarké diffère de son classement dans le modèle de référence. Cette métrique est clé puisque le watermark déplace les tokens verts et rouges dans des directions opposées. Pour les tokens verts, cette différence sera plus grande tandis qu'elle sera plus petite pour les tokens rouges.

Pour atténuer les effets des disparités entre modèles, l'attaquant interroge les deux modèles en utilisant différents préfixes. La liste verte repose sur les tokens précédents, donc avec des tokens antérieurs fixes, les décalages induits par le watermark restent constants. Les différentes réponses des deux modèles basées sur divers préfixes permettent à l'attaquant de faire la moyenne des différences de position relative tout en gardant les derniers "k" tokens inchangés.

Le score d'inférence de watermark est défini comme la moyenne des différences de position relative à travers plusieurs préfixes. Un token est prédit comme vert si ce score dépasse un seuil, sinon il est marqué rouge.

Phase II : Lissage de Watermark

Après avoir obtenu la liste verte, l'étape suivante est d'estimer la distribution de sortie du modèle sans watermark. L'objectif est de retirer le décalage de watermark présent dans le logit.

Dans un scénario idéal - où le score d'inférence pour les tokens verts est bien plus élevé que celui des tokens rouges, et où l'attaquant connaît les valeurs exactes de la fraction de tokens verts et le décalage appliqué à leurs logits - l'attaquant réduirait simplement les logits pour les "m" tokens avec les scores d'inférence les plus élevés. Cependant, cela n'est pas possible quand ces valeurs restent inconnues.

Notre attaque fait des prédictions douces sur les identités de tokens. Plus précisément, l'attaquant évalue à quel point chaque token est susceptible de faire partie de la liste verte en comparant son score avec ceux des autres tokens. En comparant deux tokens dans le groupe supérieur basés sur le score d'inférence, l'attaquant pourrait se sentir plus sûr qu'un token est vert si son score est supérieur à celui de l'autre.

Pour chaque token, l'attaquant définit sa confiance d'inférence comme une métrique qui montre à quel point ils sont sûrs du statut d'un token. Avec cette confiance, l'attaquant choisit d'utiliser le logit du modèle watermarké ou celui du modèle de référence. Si l'attaquant est très sûr qu'un token est vert, il utilise plus de probabilité de sortie du modèle de référence au lieu de celui watermarké. Cela crée un ensemble mixte de logits pour le prochain token en combinant les valeurs des deux modèles d'une manière spécifique.

Bien que cette approche de combinaison de logits puisse sembler simple, son efficacité se manifeste à travers une évaluation approfondie. Lorsque les deux modèles fonctionnent à partir d'une distribution de paramètres idéale pour les modèles de langage, cette opération peut réduire la variance d'échantillonnage ainsi que le biais causé par le décalage de watermarking. Cela conduit à un texte de haute qualité tout en évitant la détection de watermark.

Efficacité de l'Attaque

L'efficacité de notre attaque à retirer les watermarks tout en maintenant une qualité de texte élevée est démontrée dans cette section. Les expériences sont menées sur deux GPU hautes performances, en utilisant des modèles et des ensembles de données spécifiques pour le test.

Pour nos tests principaux, on utilise Llama2-7B-Chat comme modèle cible et TinyLlama-1.3B comme modèle de référence. La taille du vocabulaire pour ces modèles est également définie. On évalue aussi l'OPT-6.8B comme modèle cible avec le modèle plus faible OPT-125m comme référence. Les techniques de watermark Unigram et 2-gram sont considérées dans notre étude.

Qualité du Texte et Force du Watermark

On utilise des métriques pour évaluer la qualité du texte généré par différentes sources. La perplexité est une de ces mesures, évaluant à quel point un texte est susceptible d'être produit sous un modèle de langage. Un modèle oracle est utilisé pour cette mesure. On calcule également la perplexité basée sur le modèle sans watermark pour vérifier à quel point le texte généré est aligné avec l'original.

L'algorithme de détection calcule le z-score pour voir si le texte provient du modèle watermarké. Un z-score plus élevé signifie que l'algorithme est plus susceptible de classifier le texte comme watermarké. Un z-score plus bas suggère que l'attaque a été plus efficace. L'objectif est d'atteindre un ratio de prédiction positive (PPR) plus bas, qui est la fraction d'échantillons que l'algorithme classifie incorrectement comme watermarkés.

Les expériences sur l'efficacité de l'inférence de watermark contre le watermark Unigram indiquent que le score d'inférence que nous avons conçu sépare efficacement les tokens verts et rouges. Au fur et à mesure que le nombre de préfixes augmente, la zone sous la courbe pour l'attaque d'inférence augmente. Avec des requêtes supplémentaires, l'AUC peut atteindre des résultats impressionnants, signifiant la force de notre attaque d'inférence de watermark.

L'efficacité des attaques de lissage sur divers ensembles de données et modèles est testée. Les résultats affichent la qualité du texte mesurée par la perplexité et la détectabilité évaluée à travers le z-score. Les comparaisons se font avec le texte généré par le modèle de référence sans watermark et le modèle watermarké sans aucune attaque. Les résultats indiquent systématiquement que notre attaque génère un texte de meilleure qualité qui peut éviter la détection.

Notre méthode retire efficacement les traces de watermark, malgré les variations de force du watermark. Les résultats montrent que notre attaque maintient une haute qualité tout en réduisant significativement le z-score, même en dessous de celui du modèle sans watermark. Cela signifie que l'algorithme de détection de watermark a du mal à classer notre texte généré comme watermarké, indiquant un grand succès de l'attaque.

Discussion

Notre enquête met en lumière des vulnérabilités sérieuses dans les méthodes de watermarking existantes à la lumière des rapides avancées dans les modèles de langage. Les changements rapides dans les capacités des modèles soulèvent des questions sur la résistance des techniques actuelles. Les implications pratiques de nos découvertes suggèrent que de nombreuses stratégies de watermarking doivent être réévaluées et améliorées pour assurer une utilisation responsable des technologies IA.

Les recherches futures pourraient explorer le développement de méthodes de watermarking plus robustes qui peuvent résister à de telles attaques de lissage. Une autre direction pourrait se concentrer sur la limitation du nombre de requêtes nécessaires pour ces attaques, ce qui pourrait augmenter l'efficacité.

Conclusion

Pour résumer, on présente des attaques de lissage novatrices qui révèlent des faiblesses dans les techniques de watermarking existantes pour les grands modèles de langage. En s'appuyant sur un modèle de référence plus faible, notre approche retire efficacement les watermarks tout en préservant la qualité du texte généré. Les découvertes soulignent des vulnérabilités critiques, incitant à de nouvelles améliorations des stratégies de watermarking alors que le domaine continue d'évoluer.

Plus d'auteurs

Articles similaires