Um estudo revela o ataque WordGame, explorando as fraquezas nas medidas de segurança dos LLMs.
― 6 min ler
Ciência de ponta explicada de forma simples
Um estudo revela o ataque WordGame, explorando as fraquezas nas medidas de segurança dos LLMs.
― 6 min ler
Um método novo melhora a compreensão dos resultados dos modelos de linguagem.
― 5 min ler
Explorando os processos de autocorreção em modelos de linguagem e seus efeitos.
― 6 min ler
Novo método permite ataques de backdoor sem dados limpos ou mudanças no modelo.
― 7 min ler