Tianshuo Cong

Este estudio examina los métodos de marca de agua para texto generado por máquinas y su efectividad contra ataques de eliminación.

2025-07-18T19:03:42+00:00 ― 11 minilectura

Examina varios ataques de jailbreak en modelos de lenguaje y sus defensas.

2025-07-18T11:09:42+00:00 ― 8 minilectura

La investigación destaca métodos para detectar ataques de puerta trasera en el ajuste fino de modelos de lenguaje.

2025-05-06T10:46:40+00:00 ― 10 minilectura

Descubre cómo los ataques de puerta trasera desafían la seguridad de los modelos de lenguaje impulsados por IA.

2025-01-26T11:04:12+00:00 ― 8 minilectura