Este estudo analisa métodos de marca d'água para texto gerado por máquinas e a eficácia deles contra ataques de remoção.
― 11 min ler
Ciência de ponta explicada de forma simples
Este estudo analisa métodos de marca d'água para texto gerado por máquinas e a eficácia deles contra ataques de remoção.
― 11 min ler
Examine vários ataques de jailbreak em modelos de linguagem e suas defesas.
― 8 min ler
A pesquisa destaca métodos para detectar ataques de backdoor em ajustes de modelos de linguagem.
― 10 min ler
Descubra como ataques de backdoor colocam em risco a segurança dos modelos de linguagem movidos por IA.
― 7 min ler