Simple Science

La science de pointe expliquée simplement

# Statistiques# Apprentissage automatique# Vision par ordinateur et reconnaissance des formes# Apprentissage automatique

S'attaquer aux changements de distribution et aux attaques adversariales en apprentissage automatique

Une nouvelle approche améliore les performances du modèle face aux changements de distribution et aux attaques adversariales.

― 6 min lire


Une nouvelle méthodeUne nouvelle méthoderenforce la robustesse dumodèle.adversariales.learning contre les menacesDART améliore les modèles de machine
Table des matières

Dans le domaine du machine learning, on fait souvent face à deux gros problèmes : les décalages de distribution et les Attaques adversariales. Un décalage de distribution se produit quand les données qu'on utilise pour entraîner un modèle sont différentes de celles qu'il voit quand il fait des prédictions. Les attaques adversariales, par contre, consistent à faire de petites modifications sur les données d'entrée pour tromper le modèle et le faire faire des prédictions fausses. Il faut régler ces problèmes pour que les modèles de machine learning fonctionnent bien dans des applications du monde réel.

Ces dernières années, les chercheurs ont étudié ces défis séparément. Cependant, comprendre comment ils interagissent est crucial pour améliorer les performances des modèles. Cet article discute d'une nouvelle approche qui aborde ces deux défis ensemble dans un domaine appelé Adaptation de domaine non supervisée (UDA). L'UDA traite des situations où on a des données étiquetées d'un domaine (la source) et des données non étiquetées d'un autre domaine lié (la cible).

Contexte

Les modèles de machine learning apprennent généralement à partir de données étiquetées, où chaque exemple a une étiquette correspondante qui indique la bonne réponse. Pour beaucoup d'applications, obtenir des données étiquetées est coûteux et long. Au lieu de ça, on a souvent accès à des données étiquetées dans un domaine source qui est différent du domaine cible. Par exemple, si on veut classifier de vraies photos d'objets, on pourrait avoir des images dessinées à la main des mêmes objets comme domaine source. Cependant, la différence entre ces deux domaines peut mener à de mauvaises performances du modèle.

Pour régler ce problème, l'UDA vise à créer des modèles capables de s'adapter au domaine cible en utilisant les données étiquetées du domaine source. L'objectif est de garantir que le modèle fonctionne bien sur les données cibles, même sans étiquettes.

Défis dans l'UDA

Bien que les méthodes UDA standards aient progressé, elles ignorent souvent le problème des attaques adversariales. Quand les attaques adversariales sont appliquées, elles trouvent des moyens astucieux de modifier discrètement les données d'entrée, trompant le modèle en le faisant mal classifier. Ce manque de protection contre les attaques adversariales peut être un obstacle majeur pour utiliser les modèles dans des situations critiques où la sécurité est une priorité.

Les défenses existantes contre les attaques adversariales nécessitent généralement des données étiquetées du domaine cible. Cependant, dans les paramètres UDA, ces étiquettes ne sont pas disponibles. Cela signifie que la plupart des méthodes conventionnelles ne fonctionnent pas bien dans les scénarios UDA.

L'approche proposée

Cet article présente un nouveau cadre appelé Divergence Aware adversarial Training (DART). L'idée principale derrière DART est de créer un modèle qui soit robuste face aux attaques adversariales tout en s'adaptant au domaine cible. Cette approche se concentre sur le contrôle de la perte adversariale, qui est la perte subie par un modèle lorsqu'il rencontre des exemples adversariaux dans le domaine cible.

DART vise à gérer la perte cible adversariale à travers une nouvelle limite de généralisation. Cette limite est liée à la performance du modèle à la fois sur le domaine source et sur le pire cas dans le domaine cible. En établissant un lien solide entre ces composants, on peut concevoir un cadre de défense qui fonctionne efficacement pour plusieurs méthodes UDA.

Le cadre de défense

Le cadre DART peut être combiné avec plusieurs méthodes UDA existantes. Cette flexibilité lui permet de s'adapter à différents environnements et menaces. DART ne nécessite pas de changements architecturaux spéciaux ou d'heuristiques supplémentaires, ce qui le rend plus facile à mettre en œuvre dans la pratique.

Un autre aspect clé de DART est l'introduction d'un banc d'essai appelé DomainRobust. C'est une collection de jeux de données de référence qui aident à évaluer la robustesse des modèles UDA contre les attaques adversariales. DomainRobust possède plusieurs jeux de données et algorithmes qui peuvent être utilisés pour des tests et des comparaisons.

Évaluation de DART

Les expériences réalisées avec DomainRobust montrent que DART améliore la robustesse des modèles à travers divers benchmarks tout en maintenant une précision compétitive. En moyenne, DART obtient des améliorations significatives en robustesse, certains benchmarks montrant des améliorations allant jusqu'à 29,2 %.

Les résultats indiquent que DART équilibre efficacement l'objectif de bien performer dans les tâches standards tout en veillant à ce que le modèle reste robuste face aux attaques adversariales. Cela garantit que les modèles développés avec DART peuvent être déployés en toute sécurité dans des applications du monde réel où les entrées peuvent être sous menace d'attaques adversariales.

Prochaines étapes

Le travail fourni ici ouvre la porte à d'autres explorations. Les futures investigations peuvent explorer l'extension de DART à d'autres domaines de décalage de distribution, comme la généralisation de domaine. Cela impliquerait d'adapter l'approche à des situations où les données d'entraînement et de test varient considérablement.

Conclusion

En résumé, DART présente une approche structurée pour aborder les défis auxquels font face les modèles de machine learning dans l'adaptation de domaine non supervisée. En se concentrant sur la robustesse adversariale, DART permet le développement de modèles qui peuvent bien performer même quand ils sont confrontés à des conditions difficiles.

L'introduction de DomainRobust soutient encore plus la communauté de recherche en fournissant un environnement structuré pour évaluer la robustesse des méthodes UDA. Alors qu'on continue à rencontrer de nouveaux défis dans le machine learning, des approches comme DART aideront à favoriser le développement de modèles plus fiables et résilients.

Source originale

Titre: DART: A Principled Approach to Adversarially Robust Unsupervised Domain Adaptation

Résumé: Distribution shifts and adversarial examples are two major challenges for deploying machine learning models. While these challenges have been studied individually, their combination is an important topic that remains relatively under-explored. In this work, we study the problem of adversarial robustness under a common setting of distribution shift - unsupervised domain adaptation (UDA). Specifically, given a labeled source domain $D_S$ and an unlabeled target domain $D_T$ with related but different distributions, the goal is to obtain an adversarially robust model for $D_T$. The absence of target domain labels poses a unique challenge, as conventional adversarial robustness defenses cannot be directly applied to $D_T$. To address this challenge, we first establish a generalization bound for the adversarial target loss, which consists of (i) terms related to the loss on the data, and (ii) a measure of worst-case domain divergence. Motivated by this bound, we develop a novel unified defense framework called Divergence Aware adveRsarial Training (DART), which can be used in conjunction with a variety of standard UDA methods; e.g., DANN [Ganin and Lempitsky, 2015]. DART is applicable to general threat models, including the popular $\ell_p$-norm model, and does not require heuristic regularizers or architectural changes. We also release DomainRobust: a testbed for evaluating robustness of UDA models to adversarial attacks. DomainRobust consists of 4 multi-domain benchmark datasets (with 46 source-target pairs) and 7 meta-algorithms with a total of 11 variants. Our large-scale experiments demonstrate that on average, DART significantly enhances model robustness on all benchmarks compared to the state of the art, while maintaining competitive standard accuracy. The relative improvement in robustness from DART reaches up to 29.2% on the source-target domain pairs considered.

Auteurs: Yunjuan Wang, Hussein Hazimeh, Natalia Ponomareva, Alexey Kurakin, Ibrahim Hammoud, Raman Arora

Dernière mise à jour: 2024-02-16 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2402.11120

Source PDF: https://arxiv.org/pdf/2402.11120

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires