La recherche met en avant des méthodes pour détecter des attaques par porte dérobée lors du fine-tuning des modèles de langage.
― 12 min lire
La science de pointe expliquée simplement
La recherche met en avant des méthodes pour détecter des attaques par porte dérobée lors du fine-tuning des modèles de langage.
― 12 min lire
Des recherches montrent des failles dans les générateurs d'images IA à cause de la manipulation des invites.
― 7 min lire
Une base de données pour lutter contre les défauts de backdoor dans les modèles d'apprentissage profond.
― 13 min lire
L'apprentissage en ensemble améliore les filtres de sécurité dans les systèmes de contrôle, rendant la prise de décision pour la technologie plus efficace.
― 8 min lire
Granite Guardian protège les conversations IA des contenus nuisibles de manière efficace.
― 6 min lire
Une nouvelle méthode qui garantit que les modèles linguistiques restent sûrs tout en étant efficaces.
― 8 min lire
Fixer des règles pour la sécurité de l'IA tout en évitant les astuces sournoises.
― 7 min lire