A análise de ataques de jailbreak mostra fraquezas na segurança dos modelos de linguagem.
― 6 min ler
Ciência de ponta explicada de forma simples
A análise de ataques de jailbreak mostra fraquezas na segurança dos modelos de linguagem.
― 6 min ler
Um novo framework avalia a eficácia dos classificadores de segurança de imagem contra conteúdo prejudicial.
― 12 min ler