Bochuan Cao

Um estudo revela o ataque WordGame, explorando as fraquezas nas medidas de segurança dos LLMs.

2025-08-09T04:17:54+00:00 ― 6 min ler

Um método novo melhora a compreensão dos resultados dos modelos de linguagem.

2025-08-04T08:02:12+00:00 ― 5 min ler

Explorando os processos de autocorreção em modelos de linguagem e seus efeitos.

2025-08-02T12:27:18+00:00 ― 6 min ler

Novo método permite ataques de backdoor sem dados limpos ou mudanças no modelo.

2025-03-27T16:22:21+00:00 ― 7 min ler