L'esame degli attacchi di jailbreak mostra debolezze nella sicurezza dei modelli linguistici.
― 5 leggere min
Scienza all'avanguardia spiegata semplicemente
L'esame degli attacchi di jailbreak mostra debolezze nella sicurezza dei modelli linguistici.
― 5 leggere min
Un nuovo framework valuta l'efficacia dei classificatori di sicurezza delle immagini contro contenuti nocivi.
― 11 leggere min