Este estudio examina los métodos de marca de agua para texto generado por máquinas y su efectividad contra ataques de eliminación.
― 11 minilectura
Ciencia de vanguardia explicada de forma sencilla
Este estudio examina los métodos de marca de agua para texto generado por máquinas y su efectividad contra ataques de eliminación.
― 11 minilectura
Examina varios ataques de jailbreak en modelos de lenguaje y sus defensas.
― 8 minilectura
La investigación destaca métodos para detectar ataques de puerta trasera en el ajuste fino de modelos de lenguaje.
― 10 minilectura
Descubre cómo los ataques de puerta trasera desafían la seguridad de los modelos de lenguaje impulsados por IA.
― 8 minilectura