Yun Shen

Analisando a ascensão e os riscos dos prompts de jailbreak em modelos de linguagem.

2025-10-11T17:55:12+00:00 ― 7 min ler

Novos métodos buscam combater a toxicidade online usando técnicas de aprendizado por prompt.

2025-10-10T01:22:00+00:00 ― 8 min ler

Um estudo revela vulnerabilidades em modelos de linguagem atualizados contra ataques adversariais.

2025-10-08T14:20:36+00:00 ― 6 min ler

Métodos de adaptação em tempo de teste enfrentam vulnerabilidades por ataques de envenenamento, o que desafiou a eficácia deles.

2025-10-08T01:02:42+00:00 ― 8 min ler

LLMs customizados levantam preocupações de segurança, principalmente com ataques de backdoor por instrução.

2025-09-08T04:23:00+00:00 ― 7 min ler

Analisando as ameaças que os agentes autônomos de modelos de linguagem trazem e suas fraquezas.

2025-07-04T23:55:12+00:00 ― 7 min ler

Analisando os efeitos das atualizações na segurança, viés e autenticidade na geração de imagens.

2025-06-19T15:07:18+00:00 ― 8 min ler